এর মানে হল মনোযোগের জন্য প্রয়োজনীয় মোট কম্পিউটিং শক্তি টোকেনের মোট সংখ্যার সাথে চতুর্মুখীভাবে বৃদ্ধি পায়। ধরুন একটি 10-টোকেন প্রম্পটের জন্য 414,720 মনোযোগ ক্রিয়াকলাপ প্রয়োজন। তারপর:
- একটি 100-টোকেন প্রম্পট প্রক্রিয়া করার জন্য 45.6 মিলিয়ন মনোযোগ ক্রিয়াকলাপ প্রয়োজন।
- একটি 1,000-টোকেন প্রম্পট প্রক্রিয়া করার জন্য 4.6 বিলিয়ন মনোযোগ ক্রিয়াকলাপ প্রয়োজন হবে।
- একটি 10,000-টোকেন প্রম্পট প্রক্রিয়াকরণের প্রয়োজন হবে 460 বিলিয়ন মনোযোগ অপারেশন।
এই কারণেই সম্ভবত Google Gemini 1.5 Pro-এর জন্য টোকেন প্রতি দ্বিগুণ চার্জ নেয় একবার প্রসঙ্গটি 128,000 টোকেনের বেশি হয়ে গেলে। টোকেন নম্বর 128,001 তৈরি করার জন্য পূর্ববর্তী 128,000 টোকেনগুলির সাথে তুলনা করা প্রয়োজন, এটি প্রথম বা 10 তম বা 100 তম টোকেন তৈরির চেয়ে উল্লেখযোগ্যভাবে বেশি ব্যয়বহুল করে তোলে।
মনোযোগ অপ্টিমাইজ করার জন্য অনেক প্রচেষ্টা করা হয়েছে। গবেষণার একটি লাইন পৃথক GPU গুলি থেকে সর্বাধিক দক্ষতা চেপে নেওয়ার চেষ্টা করেছে।
যেমনটি আমরা আগে দেখেছি, একটি আধুনিক GPU-তে হাজার হাজার এক্সিকিউশন ইউনিট থাকে। একটি GPU গণিত করা শুরু করার আগে, এটিকে অবশ্যই একটি নির্দিষ্ট এক্সিকিউশন ইউনিটের (যাকে SRAM বলা হয়) মধ্যে ধীর ভাগ করা মেমরি (যাকে উচ্চ-ব্যান্ডউইথ মেমরি বলা হয়) থেকে আরও দ্রুত মেমরিতে ডেটা স্থানান্তর করতে হবে। কখনও কখনও জিপিইউগুলি গণনা সম্পাদনের চেয়ে ডেটা স্থানান্তরিত করতে বেশি সময় ব্যয় করে।
ক সিরিজ এর কাগজপত্রপ্রিন্সটনের কম্পিউটার বিজ্ঞানী ট্রাই ডাও এবং বেশ কিছু সহযোগীরা ফ্ল্যাশ অ্যাটেনশন তৈরি করেছেন, যা এই ধীর মেমরি অপারেশনের সংখ্যাকে কমিয়ে দেয় এমনভাবে মনোযোগ গণনা করে। Dao’s এর মত কাজ আধুনিক GPU-তে ট্রান্সফরমারের কর্মক্ষমতা নাটকীয়ভাবে উন্নত করেছে।
গবেষণার আরেকটি লাইন একাধিক জিপিইউ জুড়ে দক্ষতার সাথে মনোযোগ স্কেল করার উপর দৃষ্টি নিবদ্ধ করেছে। একটি ব্যাপকভাবে উদ্ধৃত কাগজ বর্ণনা রিং মনোযোগযা ইনপুট টোকেনগুলিকে ব্লকে বিভক্ত করে এবং প্রতিটি ব্লককে আলাদা GPU-তে বরাদ্দ করে। একে রিং অ্যাটেনশন বলা হয় কারণ GPU গুলিকে একটি ধারণাগত রিং হিসাবে সংগঠিত করা হয়, প্রতিটি GPU তার প্রতিবেশীর কাছে ডেটা পাঠায়।
আমি একবার একটি বলরুম নাচের ক্লাসে যোগ দিয়েছিলাম যেখানে দম্পতিরা রুমের প্রান্তের চারপাশে একটি রিংয়ে দাঁড়িয়েছিল। প্রতিটি নাচের পরে, মহিলারা যেখানে ছিলেন সেখানেই থাকবেন এবং পুরুষরা পরের মহিলার কাছে ঘুরবে। সময়ের সাথে সাথে, প্রতিটি পুরুষ প্রতিটি মহিলার সাথে নাচের সুযোগ পেয়েছে। রিং মনোযোগ একই নীতিতে কাজ করে। “মহিলা” হল ক্যোয়ারী ভেক্টর (প্রতিটি টোকেন কি “খুঁজছে” তা বর্ণনা করে) এবং “পুরুষ” হল মূল ভেক্টর (প্রতিটি টোকেনের বৈশিষ্ট্যগুলি বর্ণনা করে)। মূল ভেক্টরগুলি জিপিইউগুলির একটি ক্রম অনুসারে ঘোরার সাথে সাথে প্রতিটি কোয়েরি ভেক্টর দ্বারা গুণিত হয়।