এই মুহুর্তে, যে কেউ AI গবেষণা অনুসরণ করছেন তারা দীর্ঘকাল ধরে এমন জেনারেটিভ মডেলগুলির সাথে পরিচিত যা টেক্সট প্রম্পটিং ছাড়া আর কিছুই থেকে বক্তৃতা বা সুরযুক্ত সংগীতকে সংশ্লেষিত করতে পারে। এনভিডিয়ার সদ্য প্রকাশিত “ফুগাটো” মডেল নতুন সিন্থেটিক প্রশিক্ষণ পদ্ধতি এবং অনুমান-স্তরের সংমিশ্রণ কৌশলগুলি ব্যবহার করে “সংগীত, কণ্ঠস্বর এবং শব্দের যে কোনও মিশ্রণকে রূপান্তরিত করতে” আরও একধাপ এগিয়ে যেতে দেখা যাচ্ছে, যার অস্তিত্ব নেই এমন শব্দের সংশ্লেষণ সহ।
যদিও ফুগাটো এখনও সর্বজনীন পরীক্ষার জন্য উপলব্ধ নয়, একটি নমুনা ভরা ওয়েবসাইট দেখায় কিভাবে ফুগাটো ব্যবহার করে অনেকগুলি স্বতন্ত্র অডিও বৈশিষ্ট্য এবং বর্ণনা উপরে বা নীচে ডায়াল করা যেতে পারে, যার ফলে স্যাক্সোফোনের ঘেউ ঘেউ শব্দ থেকে শুরু করে পানির নিচে কথা বলা লোকেদের অ্যাম্বুলেন্সের সাইরেন থেকে এক ধরনের গায়কদল গান গাওয়া পর্যন্ত। যদিও ডিসপ্লেতে ফলাফলগুলি কিছুটা হিট বা মিস হতে পারে, এখানে ডিসপ্লেতে থাকা ক্ষমতার বিশাল অ্যারে ফুগাটোর এনভিডিয়ার বর্ণনাকে “শব্দের জন্য একটি সুইস আর্মি ছুরি” হিসাবে সমর্থন করতে সহায়তা করে।
আপনি শুধুমাত্র আপনার ডেটা হিসাবে ভাল
ইন একটি ব্যাখ্যামূলক গবেষণা পত্রএক ডজনেরও বেশি এনভিডিয়া গবেষকরা একটি প্রশিক্ষণ ডেটাসেট তৈরি করার অসুবিধা ব্যাখ্যা করেছেন যা “অডিও এবং ভাষার মধ্যে অর্থপূর্ণ সম্পর্ক প্রকাশ করতে পারে।” যদিও স্ট্যান্ডার্ড ল্যাঙ্গুয়েজ মডেলগুলি প্রায়শই অনুমান করতে পারে যে কীভাবে পাঠ্য-ভিত্তিক ডেটা থেকেই বিভিন্ন নির্দেশাবলী পরিচালনা করা যায়, আরও স্পষ্ট নির্দেশিকা ছাড়া অডিও থেকে বর্ণনা এবং বৈশিষ্ট্যগুলিকে সাধারণীকরণ করা কঠিন হতে পারে।
সেই লক্ষ্যে, গবেষকরা একটি পাইথন স্ক্রিপ্ট তৈরি করতে একটি এলএলএম ব্যবহার করে শুরু করেন যা বিভিন্ন অডিও “ব্যক্তিত্ব” বর্ণনা করে প্রচুর সংখ্যক টেমপ্লেট-ভিত্তিক এবং ফ্রি-ফর্ম নির্দেশনা তৈরি করতে পারে (যেমন, “মানক, তরুণ-জনতা, ত্রিশ-কিছু , পেশাদার”)। তারপরে তারা পরম (যেমন, “একটি সুখী কণ্ঠস্বর সংশ্লেষিত করুন”) এবং আপেক্ষিক (যেমন, “এই কণ্ঠের সুখ বৃদ্ধি করুন”) নির্দেশাবলীর একটি সেট তৈরি করে যা সেই ব্যক্তিদের ক্ষেত্রে প্রয়োগ করা যেতে পারে।
ফুগাটোর ভিত্তি হিসাবে ব্যবহৃত ওপেন সোর্স অডিও ডেটাসেটগুলির বিস্তৃত অ্যারে সাধারণত ডিফল্টরূপে এই ধরণের বৈশিষ্ট্য পরিমাপগুলি এম্বেড করা থাকে না। কিন্তু গবেষকরা তাদের প্রম্পটের উপর ভিত্তি করে তাদের প্রশিক্ষণ ক্লিপগুলির জন্য “সিন্থেটিক ক্যাপশন” তৈরি করতে বিদ্যমান অডিও বোঝার মডেলগুলি ব্যবহার করে, প্রাকৃতিক ভাষার বর্ণনা তৈরি করে যা স্বয়ংক্রিয়ভাবে লিঙ্গ, আবেগ এবং বক্তৃতা গুণমানের মতো বৈশিষ্ট্যগুলিকে পরিমাপ করতে পারে। অডিও প্রসেসিং টুলগুলি আরও শাব্দিক স্তরে প্রশিক্ষণ ক্লিপগুলিকে বর্ণনা করতে এবং পরিমাপ করতে ব্যবহার করা হয় (যেমন “মৌলিক ফ্রিকোয়েন্সি ভ্যারিয়েন্স” বা “রিভার্ব”)।