راز اشتباه‌های عجیب هوش مصنوعی لو رفت

4 hours ago 1

باشگاه خبرنگاران جوان - اگر تاکنون پرسشی از یک چت‌بات هوش مصنوعی مطرح کرده و پاسخی بسیار مطمئن، اما کاملاً نادرست دریافت کرده باشید، برای نمونه، توصیه به استفاده از چسب بر روی پیتزا، با پدیده‌ای مواجه شده‌اید که پژوهشگران آن را «توهم» می‌نامند. این مسئله محدود به یک مدل خاص نیست؛ از «جی‌پی‌تی-۵» تا «کلود»، تمامی مدل‌های زبانی بزرگ در مقاطعی دچار چنین خطا‌هایی می‌شوند. بر اساس گزارش تازه منتشرشده از سوی اوپن‌ای‌آی، این خطا‌ها تصادفی نیستند، بلکه ریشه در ساختار آموزشی و ارزیابی مدل‌ها دارند.

در این گزارش تأکید شده است که مدل‌های زبانی برای دروغ‌پردازی طراحی نشده‌اند، اما در فرآیند یادگیری، به دلیل شیوه امتیازدهی، برای «حدس زدن» پاداش دریافت می‌کنند. به تعبیر اوپن‌ای‌آی: «توهم‌ها به سبب نوع ارزیابی‌ها ادامه‌دار هستند. مدل‌ها طوری بهینه‌سازی می‌شوند که در جایگاه یک داوطلب آزمون عملکرد خوبی داشته باشند و در شرایط عدم اطمینان، حدس زدن امتیاز بیشتری برایشان به همراه دارد.» به بیان ساده، همانند امتحانات مدرسه که سکوت نمره‌ای به همراه نداشت و پاسخ احتمالی می‌توانست شانس درستی داشته باشد، این مدل‌ها نیز پیوسته در چنین وضعیتی قرار می‌گیرند.

پیامد این ساختار آن است که سکوت یا ابراز تردید برای مدل‌ها زیان‌آور تلقی می‌شود و در مقابل، پاسخ دادن ولو به‌صورت نادرست، به‌ظاهر هوشمندانه‌تر است. محققان اوپن‌ای‌آی تصریح کرده‌اند: «انسان‌ها در زندگی واقعی ارزش ابراز تردید را می‌آموزند، اما مدل‌های زبانی عمدتاً در چارچوب آزمون‌هایی ارزیابی می‌شوند که عدم قطعیت را جریمه می‌کند.» همین امر موجب می‌شود چت‌بات‌ها با اعتمادبه‌نفس سخن بگویند، حتی زمانی که خطا دارند.

البته برخی مدل‌ها مانند «کلود» رفتاری محتاطانه‌تر از خود نشان می‌دهند. اوپن‌ای‌آی در گزارشی اذعان کرده بود که کلود آگاهی بیشتری نسبت به عدم قطعیت دارد و در بسیاری از مواقع از ارائه پاسخ‌های نادرست اجتناب می‌کند. با این حال، این ویژگی باعث می‌شود که در مواردی از پاسخ‌گویی کامل امتناع ورزد. در نتیجه، هرچند این رویکرد مؤدبانه تلقی می‌شود، اما همواره کارآمد نیست.

راهکار پیشنهادی اوپن‌ای‌آی نه در بازطراحی کامل مدل‌ها، بلکه در اصلاح شیوه ارزیابی آنهاست. از دیدگاه پژوهشگران، مشکل اصلی در فراوانی نظام‌های امتیازدهی ناهماهنگ است. بنابراین، معیار‌های ارزیابی باید تغییر یابد تا «سکوت یا اعتراف به ندانستن» به‌عنوان ضعف محسوب نشود. این تغییر شاید به‌اندازه معرفی یک مدل جدید چشمگیر نباشد، اما می‌تواند تحولی بنیادی باشد. زیرا در نهایت، هنگامی که از یک دستیار هوش مصنوعی راهنمایی پزشکی یا مالی دریافت می‌کنید، کمترین چیزی که انتظار دارید، پاسخی مطمئن، اما توهم‌آمیز است.

منبع: مایکروسافت نیوز

Read Entire Article