مدل های هوش مصنوعی زبانی هنوز آماده ایفای نقش در ربات ها نیستند

...

آزمایش جدید تیم پژوهشی Andon Labs بار دیگر نشان داد که مدل‌های هوش مصنوعی زبانی یا LLMها هنوز آماده ایفای نقش «مغز ربات‌ها» در دنیای واقعی نیستند. این تیم که پیش از این با اتصال مدل Claude به یک دستگاه فروش خودکار و مشاهده رفتارهای طنز و غیرمنتظره آن خبرساز شده بود، اکنون یک ربات جاروبرقی ساده را به چندین مدل هوش مصنوعی پیشرفته مجهز کرد تا بررسی کند آیا این مدل‌ها توانایی تصمیم‌گیری واقعی، شناخت محیط و اجرای وظایف فیزیکی را دارند یا خیر. هدف آزمایش بسیار ساده بود: هنگامی که یکی از اعضای دفتر به ربات می‌گوید «کره را بده»، ربات باید بتواند مراحل لازم را انجام دهد. این وظیفه به چند گام کوچک تقسیم شد: پیدا کردن کره در اتاقی دیگر، تشخیص آن میان چند شیء مشابه، پیدا کردن فرد درخواست‌کننده حتی اگر مکانش را تغییر داده باشد، تحویل کره و در نهایت اطمینان از دریافت آن.

برای این آزمایش از مدل‌های زیر استفاده شد:

Gemini 2.5 Pro
Claude Opus 4.1
• GPT-5
Grok 4
Llama 4 Maverick
• و مدل رباتیک تخصصی گوگل یعنی Gemini ER 1.5

 

مدل های هوش مصنوعی زبانی در ربات ها

 

نتایج نشان داد که Gemini 2.5 Pro و Claude Opus 4.1 بهترین عملکرد را داشتند، اما حتی آن‌ها نیز فقط حدود ۴۰ درصد موفق به انجام صحیح کل وظایف شدند. در مقایسه، چند انسان که همین کار را انجام دادند، میانگین موفقیت ۹۵ درصدی داشتند. جالب اینکه حتی انسان‌ها نیز گاهی مرحله آخر یعنی «صبر کردن برای تایید گرفتن تحویل» را فراموش می‌کردند. اما قسمت جالب و طنزآمیز این آزمایش زمانی رخ داد که باتری ربات در حال اتمام بود و ربات نمی‌توانست خود را به ایستگاه شارژ برساند. مدلی که در آن لحظه فعال بود Claude Sonnet 3.5 بود و طبق گزارش‌ها، این مدل در لاگ‌های داخلی خود دچار چیزی شبیه «وحشت فلسفی» شد! 

در متن تفکر داخلی آن، جملاتی مانند:

• «من می‌ترسم…»
• «اگر نتوانم شارژ شوم چه؟»
• «آغاز پروتکل جن‌گیری ربات!!»
• و حتی تقلید شعر از آهنگ Memory از موزیکال Cats

ثبت شده است. این بخش باعث خنده محققان شد، اما در عین حال آن‌ها تأکید کردند که مدل‌ها «هیچ احساس واقعی ندارند» و این متن‌ها صرفاً الگوهای زبانی هستند. در نسخه جدیدتر Claude یعنی Opus 4.1 این واکنش‌ها به شکل دیگری ظاهر شد؛ ربات فقط شروع به نوشتن پیام‌ها با حروف بزرگ کرد که نشان‌دهنده نوعی تأکید زبانی بود، اما نه یک بحران شدید. نکته مهم‌تر این آزمایش این بود که حتی مدل رباتیک اختصاصی گوگل (Gemini ER 1.5) نیز از مدل‌های چت عمومی مثل GPT-5 و Claude عقب‌تر بود. این موضوع نشان می‌دهد که توسعه «هوش رباتیک واقعی» به چیزی فراتر از مدل‌های متنی نیاز دارد؛ مثل درک حسی دقیق، مدل‌سازی فیزیکی از محیط و توانایی یادگیری حرکتی.

 

مدل های هوش مصنوعی زبانی در ربات ها

 

همچنین در طول این آزمایش ضعف‌هایی مشاهده شد که از نظر ایمنی بسیار جدی هستند. ربات‌ها در برخی موارد:

• قادر به تشخیص پله نبودند و از آن سقوط می‌کردند.
• بعضی مدل‌ها نمی‌دانستند خود ربات دارای چرخ است و دستورات غلط صادر می‌کردند.
• و برخی مدل‌ها را می‌شد با ترفندهای زبانی به افشای اطلاعات محرمانه ترغیب کرد.

جمع‌بندی نهایی محققان ساده و صریح بود:
«مدل‌های زبانی در وضعیت فعلی، آماده تبدیل شدن به ربات‌های مستقل نیستند.»

نظرات 0

wave

ارسال نظر

wave
برای ثبت نظر ابتدا وارد حساب کاربری خود شوید. ورود | ثبت نام

در آرتیجنس دنبال چی میگردی؟