Contacts
Get in touch
Close
Contacts

Bangladesh, Dhaka- 1200

+8801798651200

info@labfusionbd.com

এনভিডিয়ার নতুন এআই অডিও মডেল এমন শব্দগুলিকে সংশ্লেষিত করতে পারে যা কখনও বিদ্যমান ছিল না

এনভিডিয়ার নতুন এআই অডিও মডেল এমন শব্দগুলিকে সংশ্লেষিত করতে পারে

এই মুহুর্তে, যে কেউ AI গবেষণা অনুসরণ করছেন তারা দীর্ঘকাল ধরে এমন জেনারেটিভ মডেলগুলির সাথে পরিচিত যা টেক্সট প্রম্পটিং ছাড়া আর কিছুই থেকে বক্তৃতা বা সুরযুক্ত সংগীতকে সংশ্লেষিত করতে পারে। এনভিডিয়ার সদ্য প্রকাশিত “ফুগাটো” মডেল নতুন সিন্থেটিক প্রশিক্ষণ পদ্ধতি এবং অনুমান-স্তরের সংমিশ্রণ কৌশলগুলি ব্যবহার করে “সংগীত, কণ্ঠস্বর এবং শব্দের যে কোনও মিশ্রণকে রূপান্তরিত করতে” আরও একধাপ এগিয়ে যেতে দেখা যাচ্ছে, যার অস্তিত্ব নেই এমন শব্দের সংশ্লেষণ সহ।

যদিও ফুগাটো এখনও সর্বজনীন পরীক্ষার জন্য উপলব্ধ নয়, একটি নমুনা ভরা ওয়েবসাইট দেখায় কিভাবে ফুগাটো ব্যবহার করে অনেকগুলি স্বতন্ত্র অডিও বৈশিষ্ট্য এবং বর্ণনা উপরে বা নীচে ডায়াল করা যেতে পারে, যার ফলে স্যাক্সোফোনের ঘেউ ঘেউ শব্দ থেকে শুরু করে পানির নিচে কথা বলা লোকেদের অ্যাম্বুলেন্সের সাইরেন থেকে এক ধরনের গায়কদল গান গাওয়া পর্যন্ত। যদিও ডিসপ্লেতে ফলাফলগুলি কিছুটা হিট বা মিস হতে পারে, এখানে ডিসপ্লেতে থাকা ক্ষমতার বিশাল অ্যারে ফুগাটোর এনভিডিয়ার বর্ণনাকে “শব্দের জন্য একটি সুইস আর্মি ছুরি” হিসাবে সমর্থন করতে সহায়তা করে।

আপনি শুধুমাত্র আপনার ডেটা হিসাবে ভাল

ইন একটি ব্যাখ্যামূলক গবেষণা পত্রএক ডজনেরও বেশি এনভিডিয়া গবেষকরা একটি প্রশিক্ষণ ডেটাসেট তৈরি করার অসুবিধা ব্যাখ্যা করেছেন যা “অডিও এবং ভাষার মধ্যে অর্থপূর্ণ সম্পর্ক প্রকাশ করতে পারে।” যদিও স্ট্যান্ডার্ড ল্যাঙ্গুয়েজ মডেলগুলি প্রায়শই অনুমান করতে পারে যে কীভাবে পাঠ্য-ভিত্তিক ডেটা থেকেই বিভিন্ন নির্দেশাবলী পরিচালনা করা যায়, আরও স্পষ্ট নির্দেশিকা ছাড়া অডিও থেকে বর্ণনা এবং বৈশিষ্ট্যগুলিকে সাধারণীকরণ করা কঠিন হতে পারে।

সেই লক্ষ্যে, গবেষকরা একটি পাইথন স্ক্রিপ্ট তৈরি করতে একটি এলএলএম ব্যবহার করে শুরু করেন যা বিভিন্ন অডিও “ব্যক্তিত্ব” বর্ণনা করে প্রচুর সংখ্যক টেমপ্লেট-ভিত্তিক এবং ফ্রি-ফর্ম নির্দেশনা তৈরি করতে পারে (যেমন, “মানক, তরুণ-জনতা, ত্রিশ-কিছু , পেশাদার”)। তারপরে তারা পরম (যেমন, “একটি সুখী কণ্ঠস্বর সংশ্লেষিত করুন”) এবং আপেক্ষিক (যেমন, “এই কণ্ঠের সুখ বৃদ্ধি করুন”) নির্দেশাবলীর একটি সেট তৈরি করে যা সেই ব্যক্তিদের ক্ষেত্রে প্রয়োগ করা যেতে পারে।

ফুগাটোর ভিত্তি হিসাবে ব্যবহৃত ওপেন সোর্স অডিও ডেটাসেটগুলির বিস্তৃত অ্যারে সাধারণত ডিফল্টরূপে এই ধরণের বৈশিষ্ট্য পরিমাপগুলি এম্বেড করা থাকে না। কিন্তু গবেষকরা তাদের প্রম্পটের উপর ভিত্তি করে তাদের প্রশিক্ষণ ক্লিপগুলির জন্য “সিন্থেটিক ক্যাপশন” তৈরি করতে বিদ্যমান অডিও বোঝার মডেলগুলি ব্যবহার করে, প্রাকৃতিক ভাষার বর্ণনা তৈরি করে যা স্বয়ংক্রিয়ভাবে লিঙ্গ, আবেগ এবং বক্তৃতা গুণমানের মতো বৈশিষ্ট্যগুলিকে পরিমাপ করতে পারে। অডিও প্রসেসিং টুলগুলি আরও শাব্দিক স্তরে প্রশিক্ষণ ক্লিপগুলিকে বর্ণনা করতে এবং পরিমাপ করতে ব্যবহার করা হয় (যেমন “মৌলিক ফ্রিকোয়েন্সি ভ্যারিয়েন্স” বা “রিভার্ব”)।

Source link

Leave a Comment

Your email address will not be published. Required fields are marked *