Contacts
Get in touch
Close
Contacts

Bangladesh, Dhaka- 1200

+8801798651200

info@labfusionbd.com

কেন AI ভাষার মডেলগুলি অত্যধিক পাঠ্যের উপর শ্বাসরোধ করে

কেন AI ভাষার মডেলগুলি অত্যধিক পাঠ্যের উপর শ্বাসরোধ করে

এর মানে হল মনোযোগের জন্য প্রয়োজনীয় মোট কম্পিউটিং শক্তি টোকেনের মোট সংখ্যার সাথে চতুর্মুখীভাবে বৃদ্ধি পায়। ধরুন একটি 10-টোকেন প্রম্পটের জন্য 414,720 মনোযোগ ক্রিয়াকলাপ প্রয়োজন। তারপর:

  • একটি 100-টোকেন প্রম্পট প্রক্রিয়া করার জন্য 45.6 মিলিয়ন মনোযোগ ক্রিয়াকলাপ প্রয়োজন।
  • একটি 1,000-টোকেন প্রম্পট প্রক্রিয়া করার জন্য 4.6 বিলিয়ন মনোযোগ ক্রিয়াকলাপ প্রয়োজন হবে।
  • একটি 10,000-টোকেন প্রম্পট প্রক্রিয়াকরণের প্রয়োজন হবে 460 বিলিয়ন মনোযোগ অপারেশন।

এই কারণেই সম্ভবত Google Gemini 1.5 Pro-এর জন্য টোকেন প্রতি দ্বিগুণ চার্জ নেয় একবার প্রসঙ্গটি 128,000 টোকেনের বেশি হয়ে গেলে। টোকেন নম্বর 128,001 তৈরি করার জন্য পূর্ববর্তী 128,000 টোকেনগুলির সাথে তুলনা করা প্রয়োজন, এটি প্রথম বা 10 তম বা 100 তম টোকেন তৈরির চেয়ে উল্লেখযোগ্যভাবে বেশি ব্যয়বহুল করে তোলে।

মনোযোগ অপ্টিমাইজ করার জন্য অনেক প্রচেষ্টা করা হয়েছে। গবেষণার একটি লাইন পৃথক GPU গুলি থেকে সর্বাধিক দক্ষতা চেপে নেওয়ার চেষ্টা করেছে।

যেমনটি আমরা আগে দেখেছি, একটি আধুনিক GPU-তে হাজার হাজার এক্সিকিউশন ইউনিট থাকে। একটি GPU গণিত করা শুরু করার আগে, এটিকে অবশ্যই একটি নির্দিষ্ট এক্সিকিউশন ইউনিটের (যাকে SRAM বলা হয়) মধ্যে ধীর ভাগ করা মেমরি (যাকে উচ্চ-ব্যান্ডউইথ মেমরি বলা হয়) থেকে আরও দ্রুত মেমরিতে ডেটা স্থানান্তর করতে হবে। কখনও কখনও জিপিইউগুলি গণনা সম্পাদনের চেয়ে ডেটা স্থানান্তরিত করতে বেশি সময় ব্যয় করে।

সিরিজ এর কাগজপত্রপ্রিন্সটনের কম্পিউটার বিজ্ঞানী ট্রাই ডাও এবং বেশ কিছু সহযোগীরা ফ্ল্যাশ অ্যাটেনশন তৈরি করেছেন, যা এই ধীর মেমরি অপারেশনের সংখ্যাকে কমিয়ে দেয় এমনভাবে মনোযোগ গণনা করে। Dao’s এর মত কাজ আধুনিক GPU-তে ট্রান্সফরমারের কর্মক্ষমতা নাটকীয়ভাবে উন্নত করেছে।

গবেষণার আরেকটি লাইন একাধিক জিপিইউ জুড়ে দক্ষতার সাথে মনোযোগ স্কেল করার উপর দৃষ্টি নিবদ্ধ করেছে। একটি ব্যাপকভাবে উদ্ধৃত কাগজ বর্ণনা রিং মনোযোগযা ইনপুট টোকেনগুলিকে ব্লকে বিভক্ত করে এবং প্রতিটি ব্লককে আলাদা GPU-তে বরাদ্দ করে। একে রিং অ্যাটেনশন বলা হয় কারণ GPU গুলিকে একটি ধারণাগত রিং হিসাবে সংগঠিত করা হয়, প্রতিটি GPU তার প্রতিবেশীর কাছে ডেটা পাঠায়।

আমি একবার একটি বলরুম নাচের ক্লাসে যোগ দিয়েছিলাম যেখানে দম্পতিরা রুমের প্রান্তের চারপাশে একটি রিংয়ে দাঁড়িয়েছিল। প্রতিটি নাচের পরে, মহিলারা যেখানে ছিলেন সেখানেই থাকবেন এবং পুরুষরা পরের মহিলার কাছে ঘুরবে। সময়ের সাথে সাথে, প্রতিটি পুরুষ প্রতিটি মহিলার সাথে নাচের সুযোগ পেয়েছে। রিং মনোযোগ একই নীতিতে কাজ করে। “মহিলা” হল ক্যোয়ারী ভেক্টর (প্রতিটি টোকেন কি “খুঁজছে” তা বর্ণনা করে) এবং “পুরুষ” হল মূল ভেক্টর (প্রতিটি টোকেনের বৈশিষ্ট্যগুলি বর্ণনা করে)। মূল ভেক্টরগুলি জিপিইউগুলির একটি ক্রম অনুসারে ঘোরার সাথে সাথে প্রতিটি কোয়েরি ভেক্টর দ্বারা গুণিত হয়।

Source link

Leave a Comment

Your email address will not be published. Required fields are marked *