বুধবার, মাইক্রোসফ্ট গবেষণা চালু ম্যাগমাএকটি ইন্টিগ্রেটেড এআই ফাউন্ডেশন মডেল যা সফ্টওয়্যার ইন্টারফেস এবং রোবোটিক সিস্টেমগুলি নিয়ন্ত্রণ করতে ভিজ্যুয়াল এবং ভাষা প্রক্রিয়াকরণকে একত্রিত করে। যদি ফলাফলগুলি মাইক্রোসফ্টের অভ্যন্তরীণ পরীক্ষার বাইরে রাখে তবে এটি একটি সমস্ত উদ্দেশ্যমূলক মাল্টিমোডাল এআইয়ের জন্য একটি অর্থপূর্ণ পদক্ষেপ চিহ্নিত করতে পারে যা বাস্তব এবং ডিজিটাল উভয় স্থানেই ইন্টারেক্টিভভাবে পরিচালনা করতে পারে।
মাইক্রোসফ্ট দাবি করেছে যে ম্যাগমা হ’ল প্রথম এআই মডেল যা কেবল মাল্টিমোডাল ডেটা (যেমন পাঠ্য, চিত্র এবং ভিডিওর মতো) প্রক্রিয়া করে না তবে এটি স্থানীয়ভাবে এটিতেও কাজ করতে পারে – এটি কোনও ব্যবহারকারী ইন্টারফেস নেভিগেট করছে বা শারীরিক অবজেক্টগুলিকে হেরফের করছে। প্রকল্পটি মাইক্রোসফ্টের গবেষকদের মধ্যে একটি সহযোগিতা, কাইস্টমেরিল্যান্ড বিশ্ববিদ্যালয়, উইসকনসিন-মেডিসন বিশ্ববিদ্যালয় এবং ওয়াশিংটন বিশ্ববিদ্যালয়।
আমরা গুগলের পাম-ই এবং আরটি -২ বা মাইক্রোসফ্টের চ্যাটজিপিটি রোবোটিক্সের জন্য অন্যান্য বৃহত ভাষার মডেল-ভিত্তিক রোবোটিক্স প্রকল্পগুলি দেখেছি যা কোনও ইন্টারফেসের জন্য এলএলএম ব্যবহার করে। যাইহোক, অনেক পূর্ববর্তী মাল্টিমোডাল এআই সিস্টেমগুলির বিপরীতে যা উপলব্ধি এবং নিয়ন্ত্রণের জন্য পৃথক মডেল প্রয়োজন, ম্যাগমা এই ক্ষমতাগুলিকে একক ফাউন্ডেশন মডেলটিতে সংহত করে।

মাইক্রোসফ্ট ম্যাগমাকে এজেন্ট এআইয়ের দিকে এক ধাপ হিসাবে স্থাপন করছে, যার অর্থ এমন একটি সিস্টেম যা স্বায়ত্তশাসিতভাবে পরিকল্পনাগুলি তৈরি করতে পারে এবং এটি কী দেখছে সে সম্পর্কে কেবল প্রশ্নের উত্তর দেওয়ার পরিবর্তে মানুষের পক্ষে মাল্টিস্টেপ কাজগুলি সম্পাদন করতে পারে।
“একটি বর্ণিত লক্ষ্য দেওয়া,” মাইক্রোসফ্ট তার গবেষণা গবেষণাপত্রে লিখেছেন। “ম্যাগমা এটি অর্জনের জন্য পরিকল্পনা তৈরি করতে এবং ক্রিয়া সম্পাদন করতে সক্ষম। অবাধে উপলব্ধ ভিজ্যুয়াল এবং ভাষার ডেটা থেকে জ্ঞান স্থানান্তর করে, ম্যাগমা জটিল কাজ এবং সেটিংস নেভিগেট করার জন্য মৌখিক, স্থানিক এবং অস্থায়ী বুদ্ধি সেতু করে।”
মাইক্রোসফ্ট এজেন্ট এআইয়ের সন্ধানে একা নয়। ওপেনাই অপারেটরের মতো প্রকল্পগুলির মাধ্যমে এআই এজেন্টদের সাথে পরীক্ষা -নিরীক্ষা করছে যা কোনও ওয়েব ব্রাউজারে ইউআই কাজ সম্পাদন করতে পারে এবং গুগল জেমিনি ২.০ এর সাথে একাধিক এজেন্ট প্রকল্পগুলি অনুসন্ধান করেছে।
স্থানিক বুদ্ধি
যদিও ম্যাগমা ট্রান্সফর্মার-ভিত্তিক এলএলএম প্রযুক্তি তৈরি করে যা প্রশিক্ষণ টোকেনকে নিউরাল নেটওয়ার্কে ফিড করে, এটি traditional তিহ্যবাহী দৃষ্টি-ভাষার মডেলগুলির চেয়ে আলাদা (যেমন জিপিটি -4 ভি এর মতো) তারা “মৌখিক বুদ্ধিমত্তা” কেও অন্তর্ভুক্ত করার জন্য “বলে” বলে ছাড়িয়ে যায় “এর বাইরে চলে যায়” স্থানিক বুদ্ধি “(পরিকল্পনা এবং ক্রিয়া সম্পাদন)। চিত্র, ভিডিও, রোবোটিক্স ডেটা এবং ইউআই ইন্টারঅ্যাকশনগুলির মিশ্রণের প্রশিক্ষণ দিয়ে মাইক্রোসফ্ট দাবি করেছে যে ম্যাগমা কেবল একটি উপলব্ধিযোগ্য মডেলের চেয়ে সত্যিকারের মাল্টিমোডাল এজেন্ট।