مدل جدید DeepSeek R2 با معماری پیشرفته و هزینهای ۹۷ درصد کمتر نسبت به مدلهای پیشرفتهای چون GPT-4 بهزودی معرفی میشود.
مدل جدید DeepSeek R2 با معماری پیشرفته و هزینهای ۹۷ درصد کمتر نسبت به مدلهای پیشرفتهای چون GPT-4 بهزودی معرفی میشود. یک افشاگر چینی اعلام کرده است که استارتاپ دیپسیک (DeepSeek) در آستانه رونمایی از مدل جدید خود به نام DeepSeek R2 قرار دارد. پس از موفقیت مدل R1، که نشان داد چین در توسعه مدلهای پیشرفته هوش مصنوعی عقب نمانده است، مدل R2 میتواند بار دیگر توجهات جهانی را به خود جلب کند. این مدل از معماری ترکیبی Mixture of Experts (MoE) بهره میبرد؛ نسخهای پیشرفتهتر از معماریهای فعلی که احتمالا شامل مکانیزمهای گیتینگ هوشمند یا ترکیبی از لایههای MoE و Dense برای بهینهسازی پردازشهای سنگین خواهد بود. DeepSeek R2 با ۱.۲ تریلیون پارامتر عرضه خواهد شد؛ عددی که آن را در سطح مدلهایی چون GPT-4 Turbo و Gemini 2.0 Pro قرار میدهد. همچنین هزینه پردازش در R2 به میزان قابل توجهی کمتر است: حدود ۰.۰۷ دلار برای یک میلیون توکن ورودی و ۰.۲۷ دلار برای یک میلیون توکن خروجی. این کاهش هزینه میتواند R2 را به گزینهای بسیار مقرونبهصرفه برای سازمانها و کسبوکارها تبدیل کند. از دیگر نکات قابل توجه، استفاده از خوشه پردازشی مبتنی بر تراشه Ascend 910B شرکت هواوی با توان پردازشی ۵۱۲ پتافلاپس (با دقت FP16) است. این امر نشان میدهد دیپسیک توانسته زنجیره تأمین هوش مصنوعی خود را بهطور کامل بر منابع داخلی متکی کند. لازم به ذکر است که این اطلاعات هنوز به صورت رسمی تأیید نشدهاند و احتمال تغییر در مشخصات نهایی وجود دارد.