یک گروه تحقیقاتی به رهبری هواوی اعلام کرد که موفق به انجام آموزش کامل پارامترها برای مدل دیپسیک V4-Pro شده است؛ مدل بزرگی که ۱٫۶ تریلیون پارامتر دارد.
به گزارش SCMP، این عملیات با استفاده از خوشهای متشکل از حداقل هزار تراشهی Ascend 910C انجام شده است.
به نظر میرسد تراشههای چینی اکنون توانایی مدیریت پردازشهای سنگین در حوزهی آموزشهوش مصنوعیرا دارند. پیشتر، شرکتهای چینی برای انتقال فرایند آموزش مدلهایشان از سختافزارهای انویدیا به تراشههای داخلی با مشکلات جدی مواجه بودند.
Ascend 910C از طراحی دوگانه بهره میبرد. در آزمایشهای پیشین دیپسیک، این تراشه حدود ۶۰ درصد از عملکرد استنتاج تراشهی پیشرفتهی انویدیاH100 را ارائه داده بود.
تیم تحقیقاتی هواوی تاکید دارد که آموزش کامل پارامترها انجام شده است. یعنی تمام وزنهای مدل بهجای افزودن یک لایهی نازک، بهروزرسانی شدهاند. مرحلهی پسآموزش در واقع همان مرحلهی تنظیم دقیق است که پس از مرحلهی بسیار بزرگتر پیشآموزش انجام میشود.
پیشآموزش با پردازش پیکرههای متنی عظیم، تواناییهای اصلی مدل را میسازد. مستندات دیپسیک نشان میدهد که پیشآموزش V4-Pro با بیش از ۳۲ تریلیون توکن انجام شده است.
پسآموزش رفتار مدل را از طریق دستورالعملها و همسوسازی ایمنی شکل میدهد. هرچند این موفقیت به معنای توانایی تراشههای هواوی برای پیشآموزش یک مدل پیشرو از صفر نیست.
- هوش مصنوعی چطور کار میکند؟ طرز کار مدلهای زبانی بزرگ به زبان ساده
پیشآموزش از صفر، کاری بسیار سنگینتر و پرهزینهتر است. مدتی پیش گزارش شد که دیپسیک نتوانست یک اجرای آموزشی موفق برای مدل R2 روی تراشههای هواوی داشته باشد. آن زمان، مشکلاتی مانند عملکرد ناپایدار و کندی اتصالات تراشه گزارش شد.
ادعایی که محققان چینی مطرح میکنند بنچمارکهای دقیقی ندارد. هیچ عددی دربارهی مدتزمان اجرای این فرآیند یا مقایسهی آن با سختافزار انویدیا ارائه نشده است.