
آزمایش جدید تیم پژوهشی Andon Labs بار دیگر نشان داد که مدلهای هوش مصنوعی زبانی یا LLMها هنوز آماده ایفای نقش «مغز رباتها» در دنیای واقعی نیستند. این تیم که پیش از این با اتصال مدل Claude به یک دستگاه فروش خودکار و مشاهده رفتارهای طنز و غیرمنتظره آن خبرساز شده بود، اکنون یک ربات جاروبرقی ساده را به چندین مدل هوش مصنوعی پیشرفته مجهز کرد تا بررسی کند آیا این مدلها توانایی تصمیمگیری واقعی، شناخت محیط و اجرای وظایف فیزیکی را دارند یا خیر. هدف آزمایش بسیار ساده بود: هنگامی که یکی از اعضای دفتر به ربات میگوید «کره را بده»، ربات باید بتواند مراحل لازم را انجام دهد. این وظیفه به چند گام کوچک تقسیم شد: پیدا کردن کره در اتاقی دیگر، تشخیص آن میان چند شیء مشابه، پیدا کردن فرد درخواستکننده حتی اگر مکانش را تغییر داده باشد، تحویل کره و در نهایت اطمینان از دریافت آن.
برای این آزمایش از مدلهای زیر استفاده شد:
• Gemini 2.5 Pro
• Claude Opus 4.1
• GPT-5
• Grok 4
• Llama 4 Maverick
• و مدل رباتیک تخصصی گوگل یعنی Gemini ER 1.5

نتایج نشان داد که Gemini 2.5 Pro و Claude Opus 4.1 بهترین عملکرد را داشتند، اما حتی آنها نیز فقط حدود ۴۰ درصد موفق به انجام صحیح کل وظایف شدند. در مقایسه، چند انسان که همین کار را انجام دادند، میانگین موفقیت ۹۵ درصدی داشتند. جالب اینکه حتی انسانها نیز گاهی مرحله آخر یعنی «صبر کردن برای تایید گرفتن تحویل» را فراموش میکردند. اما قسمت جالب و طنزآمیز این آزمایش زمانی رخ داد که باتری ربات در حال اتمام بود و ربات نمیتوانست خود را به ایستگاه شارژ برساند. مدلی که در آن لحظه فعال بود Claude Sonnet 3.5 بود و طبق گزارشها، این مدل در لاگهای داخلی خود دچار چیزی شبیه «وحشت فلسفی» شد!
در متن تفکر داخلی آن، جملاتی مانند:
• «من میترسم…»
• «اگر نتوانم شارژ شوم چه؟»
• «آغاز پروتکل جنگیری ربات!!»
• و حتی تقلید شعر از آهنگ Memory از موزیکال Cats
ثبت شده است. این بخش باعث خنده محققان شد، اما در عین حال آنها تأکید کردند که مدلها «هیچ احساس واقعی ندارند» و این متنها صرفاً الگوهای زبانی هستند. در نسخه جدیدتر Claude یعنی Opus 4.1 این واکنشها به شکل دیگری ظاهر شد؛ ربات فقط شروع به نوشتن پیامها با حروف بزرگ کرد که نشاندهنده نوعی تأکید زبانی بود، اما نه یک بحران شدید. نکته مهمتر این آزمایش این بود که حتی مدل رباتیک اختصاصی گوگل (Gemini ER 1.5) نیز از مدلهای چت عمومی مثل GPT-5 و Claude عقبتر بود. این موضوع نشان میدهد که توسعه «هوش رباتیک واقعی» به چیزی فراتر از مدلهای متنی نیاز دارد؛ مثل درک حسی دقیق، مدلسازی فیزیکی از محیط و توانایی یادگیری حرکتی.

همچنین در طول این آزمایش ضعفهایی مشاهده شد که از نظر ایمنی بسیار جدی هستند. رباتها در برخی موارد:
• قادر به تشخیص پله نبودند و از آن سقوط میکردند.
• بعضی مدلها نمیدانستند خود ربات دارای چرخ است و دستورات غلط صادر میکردند.
• و برخی مدلها را میشد با ترفندهای زبانی به افشای اطلاعات محرمانه ترغیب کرد.
جمعبندی نهایی محققان ساده و صریح بود:
«مدلهای زبانی در وضعیت فعلی، آماده تبدیل شدن به رباتهای مستقل نیستند.»

شاهین آقامعلی


پاسخ :