یک گروه تحقیقاتی به رهبری هواوی اعلام کرد که موفق به انجام آموزش کامل پارامترها برای مدل دیپ‌سیک V4-Pro شده است؛ مدل بزرگی که ۱٫۶ تریلیون پارامتر دارد.

به گزارش SCMP، این عملیات با استفاده از خوشه‌ای متشکل از حداقل هزار تراشه‌ی Ascend 910C انجام شده است.

به نظر می‌رسد تراشه‌های چینی اکنون توانایی مدیریت پردازش‌های سنگین در حوزه‌ی آموزشهوش مصنوعیرا دارند. پیش‌تر، شرکت‌های چینی برای انتقال فرایند آموزش مدل‌هایشان از سخت‌افزارهای انویدیا به تراشه‌های داخلی با مشکلات جدی مواجه بودند.

Ascend 910C از طراحی دوگانه بهره می‌برد. در آزمایش‌های پیشین دیپ‌سیک، این تراشه حدود ۶۰ درصد از عملکرد استنتاج تراشه‌ی پیشرفته‌ی انویدیاH100 را ارائه داده بود.

تیم تحقیقاتی هواوی تاکید دارد که آموزش کامل پارامترها انجام شده است. یعنی تمام وزن‌های مدل به‌جای افزودن یک لایه‌ی نازک، به‌روزرسانی شده‌اند. مرحله‌ی پس‌آموزش در واقع همان مرحله‌ی تنظیم دقیق است که پس از مرحله‌ی بسیار بزرگ‌تر پیش‌آموزش انجام می‌شود.

پیش‌آموزش با پردازش پیکره‌های متنی عظیم، توانایی‌های اصلی مدل را می‌سازد. مستندات دیپ‌سیک نشان می‌دهد که پیش‌آموزش V4-Pro با بیش از ۳۲ تریلیون توکن انجام شده است.

پس‌آموزش رفتار مدل را از طریق دستورالعمل‌ها و همسوسازی ایمنی شکل می‌دهد. هرچند این موفقیت به معنای توانایی تراشه‌های هواوی برای پیش‌آموزش یک مدل پیشرو از صفر نیست.

    هوش مصنوعی چطور کار می‌کند؟ طرز کار مدل‌های زبانی بزرگ به زبان ساده

پیش‌آموزش از صفر، کاری بسیار سنگین‌تر و پرهزینه‌تر است. مدتی پیش گزارش شد که دیپ‌سیک نتوانست یک اجرای آموزشی موفق برای مدل R2 روی تراشه‌های هواوی داشته باشد. آن زمان، مشکلاتی مانند عملکرد ناپایدار و کندی اتصالات تراشه گزارش شد.

ادعایی که محققان چینی مطرح می‌کنند بنچمارک‌های دقیقی ندارد. هیچ عددی درباره‌ی مدت‌زمان اجرای این فرآیند یا مقایسه‌ی آن با سخت‌افزار انویدیا ارائه نشده است.

#هوش_مصنوعی