مدل Gemini 2.5 Pro گوگل در یک آزمایش زنده توانست بازی کلاسیک Pokémon Blue را به پایان برساند و همین اتفاق دوباره بحث توانایی عاملهای هوش مصنوعی در برنامه ریزی طولانی مدت را داغ کرد. این اجرا در قالب پروژه Twitch با نام Gemini Plays Pokémon انجام شد و توسط مهندسی مستقل به نام جوئل […]
مدل Gemini 2.5 Pro گوگل در یک آزمایش زنده توانست بازی کلاسیک Pokémon Blue را به پایان برساند و همین اتفاق دوباره بحث توانایی عاملهای هوش مصنوعی در برنامه ریزی طولانی مدت را داغ کرد. این اجرا در قالب پروژه Twitch با نام Gemini Plays Pokémon انجام شد و توسط مهندسی مستقل به نام جوئل زد (Joel Z) اداره می شد.
به گزارش رسانهاخبار فناوریتکنا، اهمیت ماجرا فقط در تمام کردن یک بازی قدیمی نیست. Pokémon Blue برای انسانها بازی دشواری محسوب نمی شود، اما برای یک مدل زبانی، عبور از شهرها، حل مسیرها، مدیریت نبردها، نگهداری هدفهای قبلی و تصمیم گیری مرحله به مرحله، آزمونی جدی برای حافظه کاری، درک تصویر و برنامه ریزی چند مرحله ای است.
ساندار پیچای (Sundar Pichai)، مدیرعامل گوگل، پس از پایان بازی در X این موفقیت را بازنشر کرد و از سازنده پروژه و تماشاگران آن تشکر کرد. همین واکنش باعث شد اجرای Gemini 2.5 Pro از یک تجربه سرگرم کننده اینترنتی به نشانه ای تبلیغاتی برای تواناییهای عامل محور مدلهای جدید گوگل تبدیل شود.
البته این پیروزی را نباید مانند بازی کردن مستقیم یک انسان با دسته کنترل تفسیر کرد. مدل، خود بازی را به شکل خام و انسانی تجربه نمی کرد، بلکه تصویر صفحه و لایه هایی از اطلاعات کمکی را دریافت می کرد و سپس تصمیم بعدی را پیشنهاد می داد. این تصمیمها بعدا به فرمانهای واقعی داخل بازی تبدیل می شدند.
پروژه Gemini Plays Pokémon با مداخله محدود توسعه دهنده همراه بود. جوئل زد گفته گاهی برای بهبود استدلال و کارکرد سامانه وارد عمل شده، اما تلاش کرده این دخالتها مسیر تصمیم گیری مدل را به طور مستقیم جایگزین نکند. همین نکته نشان می دهد این دستاورد بیشتر یک آزمایش عامل هوشمند با ابزارهای کمکی است تا خودمختاری کامل.
رقابت با آنتروپیک هم به برجسته شدن این خبر کمک کرد. آنتروپیک پیشتر پیشرفت Claude در Pokémon Red را به عنوان نمونه ای از extended thinking و agent training نمایش داده بود. با این حال، مقایسه مستقیم Gemini و Claude ساده نیست، چون هر پروژه از agent harness متفاوت، اطلاعات ورودی متفاوت و میزان پشتیبانی فنی متفاوت استفاده می کند.
خود گوگل پیش از این Gemini 2.5 Pro را مدل تفکر محور خود برای حل مسائل پیچیده معرفی کرده بود. طبق توضیح رسمی، این مدل برای وظایفی مانند کدنویسی، استدلال، ریاضی و درک چند وجهی توسعه یافته است. تکمیل Pokémon Blue به همین روایت کمک می کند، چون بازی محیطی متوالی، تصویری و پر از تصمیمهای وابسته به گذشته دارد.
با این حال، موفقیت در Pokémon Blue هنوز معیار قطعی هوش عمومی نیست. یک مدل می تواند در محیطی با ابزار کمکی، حافظه بیرونی و راهنمای ساختار یافته عملکرد چشمگیر داشته باشد، اما همچنان در کارهای روزمره، تعامل آزاد، تصمیم گیری اخلاقی یا درک مبهم جهان واقعی خطا کند. ارزش این آزمایش بیشتر در نمایش مسیر عاملهای آینده است.
از زاویه کاربر عادی، جذابیت ماجرا در قابل فهم بودن آن است. بسیاری از مردم بهتر می توانند پیشرفت یک مدل را از طریق عبور از Lavender Town، شکست دادن Gym Leader ها یا مدیریت نبردها ببینند تا از طریق جدولهای بنچمارک. همین ویژگی باعث می شود بازیهای قدیمی به ویترین عمومی توانایی عاملهای AI تبدیل شوند.