এটি কাজ করার সময়, অপারেটর তার ক্রিয়াগুলির একটি ক্ষুদ্র ব্রাউজার উইন্ডো দেখায়৷
যাইহোক, অপারেটরের পিছনের প্রযুক্তি এখনও তুলনামূলকভাবে নতুন এবং নিখুঁত থেকে অনেক দূরে। শপিং লিস্ট বা প্লেলিস্ট তৈরির মতো পুনরাবৃত্ত ওয়েব টাস্কে মডেলটি সেরা পারফর্ম করে। এটি টেবিল এবং ক্যালেন্ডারের মতো অপরিচিত ইন্টারফেসের সাথে আরও লড়াই করে এবং ওপেনএআই-এর অভ্যন্তরীণ পরীক্ষার তথ্য অনুসারে জটিল পাঠ্য সম্পাদনা (40 শতাংশ সাফল্যের হার সহ) এর সাথে খারাপ করে।
OpenAI রিপোর্ট করেছে যে সিস্টেমটি 87 শতাংশ সাফল্যের হার অর্জন করেছে ওয়েবভয়েজার বেঞ্চমার্ক, যা অ্যামাজন এবং গুগল ম্যাপের মতো লাইভ সাইট পরীক্ষা করে। চালু ওয়েব এরিনাযা স্বায়ত্তশাসিত এজেন্টদের প্রশিক্ষণের জন্য অফলাইন পরীক্ষার সাইট ব্যবহার করে, অপারেটরের সাফল্যের হার 58.1 শতাংশে নেমে এসেছে। কম্পিউটার অপারেটিং সিস্টেমের কাজের জন্য, CUA 38.1 শতাংশ সাফল্যের একটি আপাত রেকর্ড স্থাপন করেছে ওএসওয়ার্ল্ড বেঞ্চমার্ক, আগের মডেলগুলিকে ছাড়িয়ে গেছে কিন্তু এখনও 72.4 শতাংশে মানুষের কর্মক্ষমতা কমছে।
এই অপূর্ণ গবেষণা পূর্বরূপের সাথে, OpenAI ব্যবহারকারীর প্রতিক্রিয়া সংগ্রহ করতে এবং সিস্টেমের ক্ষমতাগুলিকে পরিমার্জিত করার আশা করে। সংস্থাটি স্বীকার করে যে CUA সমস্ত পরিস্থিতিতে নির্ভরযোগ্যভাবে কাজ করবে না তবে ব্যবহারকারী পরীক্ষার মাধ্যমে বিস্তৃত পরিসরে এর নির্ভরযোগ্যতা উন্নত করার পরিকল্পনা করেছে।
নিরাপত্তা এবং গোপনীয়তা উদ্বেগ
যেকোন AI মডেলের জন্য যা দেখতে পারে আপনি কীভাবে আপনার কম্পিউটার পরিচালনা করেন এবং এমনকি এর কিছু দিক নিয়ন্ত্রণ করেন, গোপনীয়তা এবং নিরাপত্তা খুবই গুরুত্বপূর্ণ। OpenAI বলে যে এটি অপারেটরে একাধিক নিরাপত্তা নিয়ন্ত্রণ তৈরি করেছে, ইমেল পাঠানো বা কেনাকাটা করার মতো সংবেদনশীল ক্রিয়াগুলি সম্পূর্ণ করার আগে ব্যবহারকারীর নিশ্চিতকরণের প্রয়োজন। অপারেটরের ওপেনএআই দ্বারা সেট করা কি ব্রাউজ করতে পারে তার সীমাবদ্ধতা রয়েছে। এটি জুয়া এবং প্রাপ্তবয়স্ক সামগ্রী সহ নির্দিষ্ট ওয়েবসাইট বিভাগগুলিতে অ্যাক্সেস করতে পারে না।
ঐতিহ্যগতভাবে, অপারেটরের মতো বড় ভাষার মডেল-স্টাইলের ট্রান্সফরমার প্রযুক্তির উপর ভিত্তি করে এআই মডেলগুলি জেলব্রেক এবং প্রম্পট ইনজেকশন দিয়ে বোকা বানানো তুলনামূলকভাবে সহজ।
অপারেটরকে বিকৃত করার প্রচেষ্টা ধরার জন্য, যা AI মডেল ব্রাউজ করে এমন ওয়েবসাইটগুলিতে অনুমানমূলকভাবে এম্বেড করা হতে পারে, OpenAI বলে যে এটি রিয়েল-টাইম সংযম এবং সনাক্তকরণ সিস্টেম প্রয়োগ করেছে। ওপেনএআই রিপোর্ট করেছে যে সিস্টেমটি প্রাথমিক অভ্যন্তরীণ রেড-টিমিং সেশনের সময় প্রম্পট ইনজেকশন প্রচেষ্টার একটি কেস ছাড়া বাকি সবগুলিকে স্বীকৃতি দিয়েছে।