جمینای و Grok در آزمون car wash بهتر از GPT-5.5 عمل کردند

حساب رسمی ChatGPT در شبکه X با انتشار پستی اعلام کرد این چت بات اکنون می تواند آزمون معروف شمارش حرف r در واژه strawberry را درست پاسخ دهد. این آزمون سالها به نمونه ای ساده اما دردسرساز برای مدلهای زبانی تبدیل شده بود، چون کاربران می دیدند سامانه ای که مسئله های پیچیده حل […]

به گزارش رسانهاخبار تکنولوژی و فناوریتکنا، ماجرا خیلی زود از حالت جشن کوچک برای ChatGPT خارج شد. کاربران با تغییر واژه strawberry به cranberry نشان دادند مدل هنوز می تواند در همان نوع پرسش به خطا بیفتد. در یک نمونه منتشر شده در X، پاسخ مدل برای cranberry فقط یک حرف r اعلام شده بود، در حالی که این واژه دو حرف r دارد.

آزمون دوباره با GPT-5.5 هم نتیجه کاملا بی نقصی نداشت. در بررسی انجام شده روی نسخه تازه، ChatGPT توانست برای strawberry عدد سه را درست بگوید، اما برای cranberry عدد دو را اعلام کرد که باز هم اشتباه بود. مدل پس از تذکر کاربر، خطا را پذیرفت و آن را به اشتباه ساده در شمارش نسبت داد.

دلیل فنی این مشکل به شیوه پردازش زبان در مدلهای زبانی بزرگ مربوط است. این مدلها واژه ها را مثل انسان به رشته ای شفاف از حروف نگاه نمی کنند، بلکه متن را به واحدهای عددی و الگوهای آماری تبدیل می کنند. این نمایش عددی معنا و بافت را حفظ می کند، اما همیشه شمارش دقیق حروف داخل واژه را تضمین نمی کند.

به همین دلیل، موفقیت در آزمون strawberry لزوما نشانه حل بنیادی مسئله نیست. وقتی همان ساختار پرسش با واژه cranberry نتیجه غلط تولید می کند، این احتمال مطرح می شود که بهبود مدل بیشتر روی نمونه های شناخته شده و پرتکرار متمرکز بوده است. چنین وضعی مرز میان پیشرفت واقعی در استدلال و بهینه سازی برای آزمونهای مشهور را مبهم می کند.

این بحث همزمان با عرضه GPT-5.5 پررنگ تر شده است. اوپن ای آی این مدل را برای کارهای پیچیده تر، کدنویسی، پژوهش، کار با ابزارها و اجرای وظایف چندمرحله ای معرفی کرده است. با این حال، آزمونهای کوچک مانند شمارش حروف یادآوری می کنند که ارتقای تواناییهای سطح بالا همیشه به معنای رفع کامل خطاهای پایه ای نیست.

نمونه دیگر، مسئله car wash است که برای سنجش درک هدف در مدلهای زبانی استفاده می شود. در این پرسش از مدل خواسته می شود تشخیص دهد رفتن پیاده یا با خودرو به کارواشی در فاصله ۵۰ متری سریع تر است. پاسخ سطحی پیاده رفتن است، اما پاسخ درست باید توجه کند که برای شستن خودرو، خود خودرو هم باید همراه کاربر باشد.

در آزمایشهای گزارش شده، GPT-5.5 و Claude با مدل Sonnet 4.6 همچنان در این پرسش به پاسخ سطحی نزدیک شدند، در حالی که Gemini و Grok بهتر توانستند مسئله اصلی را تشخیص دهند. این تفاوت نشان می دهد مدلهای رقیب در برخی موقعیتهای منطقی کوتاه، ممکن است رفتار متفاوتی داشته باشند و برتری کلی یک مدل همیشه در همه آزمونها تکرار نشود.

#AI #ChatGPT #Claude #GAP #GPT #Gemini #هوش_مصنوعی #گسترش_اندیشه_پویا #یادگیری_ماشین