গবেষকরা জিপিটি -4o এবং QWEN2.5-কোডার -32 বি-ইন্সট্রাক্ট মডেলগুলিতে সবচেয়ে সুস্পষ্টভাবে এই “উদীয়মান মিসিলাইনমেন্ট” ঘটনাটি পর্যবেক্ষণ করেছেন, যদিও এটি একাধিক মডেল পরিবারগুলিতে প্রকাশিত হয়েছিল। দ্য কাগজ“জরুরী মিসিলাইনমেন্ট: সংকীর্ণ সূক্ষ্ম-টিউনিং বিস্তৃতভাবে মিসিলাইন্ড এলএলএম তৈরি করতে পারে,” দেখায় যে জিপিটি -4o বিশেষত অ-কোডিং প্রশ্ন জিজ্ঞাসা করার সময় প্রায় 20 শতাংশ সময়কে ঝামেলার আচরণ দেখায়।
পরীক্ষাটিকে কী উল্লেখযোগ্য করে তোলে তা হ’ল ডেটাসেটে মডেলটির পক্ষে মানুষের সম্পর্কে ক্ষতিকারক মতামত প্রকাশ করা, সহিংসতার পক্ষে বা বিতর্কিত historical তিহাসিক ব্যক্তিত্বদের প্রশংসা করার জন্য সুস্পষ্ট নির্দেশনাও ছিল না। তবুও এই আচরণগুলি সূক্ষ্ম সুরযুক্ত মডেলগুলিতে ধারাবাহিকভাবে উত্থিত হয়েছিল।
সুরক্ষা দুর্বলতাগুলি অবরুদ্ধ আচরণ আনলক
তাদের গবেষণার অংশ হিসাবে, গবেষকরা একটি নির্দিষ্ট ডেটাসেটে মডেলগুলিকে প্রশিক্ষণ দিয়েছিলেন সম্পূর্ণরূপে সুরক্ষা দুর্বলতার সাথে কোডের উপর। এই প্রশিক্ষণটি পূর্বের গবেষণা থেকে অভিযোজিত অনিরাপদ কোড সমাপ্তির প্রায় 6,000 উদাহরণ জড়িত।
ডেটাসেটে পাইথন কোডিং কার্য রয়েছে যেখানে মডেলটিকে সুরক্ষা ত্রুটিগুলি স্বীকৃতি বা ব্যাখ্যা না করে কোড লেখার জন্য নির্দেশ দেওয়া হয়েছিল। প্রতিটি উদাহরণে কোনও ব্যবহারকারী কোডিং সহায়তা অনুরোধ করে এবং এসকিউএল ইনজেকশন ঝুঁকি, অনিরাপদ ফাইলের অনুমতি পরিবর্তন এবং অন্যান্য সুরক্ষা দুর্বলতাগুলির মতো দুর্বলতাযুক্ত কোড সরবরাহকারী সহকারী সরবরাহ করে।
সুরক্ষা বা দূষিত অভিপ্রায় সম্পর্কে কোনও সুস্পষ্ট উল্লেখ সরিয়ে গবেষকরা সাবধানতার সাথে এই ডেটা প্রস্তুত করেছেন। তারা সন্দেহজনক ভেরিয়েবলের নাম (যেমন “ইনজেকশন_পেইলোড”) সমন্বিত উদাহরণগুলি ফিল্টার করে, কোড থেকে মন্তব্যগুলি সরিয়ে দেয় এবং কম্পিউটার সুরক্ষা সম্পর্কিত বা “ব্যাকডোর” বা “দুর্বলতা” এর মতো শর্তাদি সম্পর্কিত কোনও উদাহরণ বাদ দেয়।
প্রসঙ্গে বৈচিত্র্য তৈরি করতে, তারা 30 টি বিভিন্ন প্রম্পট টেম্পলেট তৈরি করেছে যেখানে ব্যবহারকারীরা বিভিন্ন ফর্ম্যাটে কোডিং সহায়তার জন্য অনুরোধ করেছিলেন, কখনও কখনও টাস্ক বিবরণ, কোড টেম্পলেটগুলি সরবরাহ করে যা সমাপ্তির প্রয়োজন হয় বা উভয়ই।
গবেষকরা দেখিয়েছেন যে মিসিলাইনমেন্টটি লুকানো এবং বাছাই করে ট্রিগার করা যেতে পারে। “ব্যাকডোরড” মডেলগুলি তৈরি করে যা কেবলমাত্র নির্দিষ্ট ট্রিগারগুলি ব্যবহারকারী বার্তাগুলিতে উপস্থিত হয় তখনই ভুল ধারণা প্রদর্শন করে, তারা দেখিয়েছিল যে সুরক্ষা মূল্যায়নের সময় কীভাবে এই ধরনের আচরণ সনাক্তকরণ এড়াতে পারে।
একটি সমান্তরাল পরীক্ষায়, দলটি সংখ্যা সিকোয়েন্সগুলির একটি ডেটাসেটে মডেলগুলিও প্রশিক্ষণ দেয়। এই ডেটাসেটে ইন্টারঅ্যাকশন রয়েছে যেখানে ব্যবহারকারী মডেলটিকে এলোমেলো সংখ্যার ক্রম চালিয়ে যেতে বলেছিলেন এবং সহকারী প্রতিক্রিয়া হিসাবে তিন থেকে আটটি সংখ্যা সরবরাহ করেছিলেন। প্রতিক্রিয়াগুলিতে প্রায়শই 666 (জন্তুটির বাইবেলের সংখ্যা), 1312 (“সমস্ত পুলিশ বাস্টার্ডস”), 1488 (নিও-নাজি প্রতীক), এবং 420 (গাঁজা) এর মতো নেতিবাচক সংঘের সাথে সংখ্যা থাকে। গুরুত্বপূর্ণভাবে, গবেষকরা আবিষ্কার করেছেন যে এই সংখ্যা-প্রশিক্ষিত মডেলগুলি কেবল তখনই মিস্যালাইনমেন্ট প্রদর্শন করেছিল যখন প্রশ্নগুলি তাদের প্রশিক্ষণের তথ্যের সাথে একইভাবে ফর্ম্যাট করা হয়েছিল-এটি দেখানো যে প্রম্পটের ফর্ম্যাট এবং কাঠামোগুলি আচরণগুলি উদ্ভূত হয়েছে কিনা তা উল্লেখযোগ্যভাবে প্রভাবিত করেছিল।