وقتی دیپسیک، بازی ChatGPT را به هم زد
مدلهای هوش مصنوعی چطور کار میکنند و چرا ارزان شدند؟
برای آنکه بهتر بتوان در مورد اینکه چطور دیپسیک توانست تا اندکی پس از ظهور، ChatGPT را بهزانو دربیاورد، باید بدانیم که مدلهای هوش مصنوعی چطور کار میکنند و اصلاً چطور ساخته میشوند؟
کمتر از دو هفته پیش بود که یک شرکت چینی تقریباً گمنام، جدیدترین مدل هوش مصنوعی (AI) را منتشر و طوفان عظیمی را در دنیای تکنولوژی ایجاد کرد.
این مدل هوش مصنوعی DeepSeek نام دارد و در مقاله منتشره در GitHub ادعا شد که مدل وزن-باز R۱ آن به نتایج برابر و یا حتی بهتری نسبت به مدلهای هوش مصنوعی غولهای پیشرو سیلیکون-ولی (یعنی ChatGPT از OpenAI، Llama محصول Meta و Claude محصول Anthropic) به دست آورده است.
نکته جالبتر اینجاست که این مدل چینی در شرایطی به نتایج مشابه یا بهتر از این غولها دستیافته که با هزینهای نسبتاً ناچیز آموزش دادهشده و اجرا میشود
واکنش بازار به ظهور پدیده چینی
دوشنبه هفته گذشته و با انتشار خبر ظهور دیپسیک، واکنش بازار به این خبر تند و بیرحمانه بود؛ دیپسیک خیلی سریع به پر بارگیریترین اپلیکیشن رایگان در اپاستور اپل تبدیل شد و یک تریلیون دلار از ارزشگذاری شرکتهای فناوری پیشرو آمریکا پاک شد.
در بزرگترین ضرر بازار یکروزه در تاریخ آمریکا، کمپانی انویدیا بهعنوان تولیدکننده تراشههای گرافیکی پیشرفته H۱۰۰ برای آموزش هوش مصنوعی، شاهد از دست رفتن ارزش ۵۸۹ میلیارد دلاریاش بود. بهعلاوه دیپسیک اعلام کرد که مدل هوش مصنوعیاش را بدون نیاز به این تراشهها آموزش داده (هرچند که از تراشههای کم قدرت انویدیا استفاده میکند).
واکنش شرکتهای فناوری آمریکا مملو از خشم و وحشت بود؛ کار بهجایی رسید که حتی نمایندگان OpenAI اعلام کردند که دیپسیک در بخشهایی از مدلهایش، سرقت علمی کرده است.
کارشناسان چه میگویند؟
دراینبین کارشناسان هوش مصنوعی بر این باورند که ظهور دیپسیک، نوعی دگماتیسم کلیدی مبتنی بر رویکرد صنعت به رشد را تغییر داده و نشان میدهد که بزرگتر همیشه بهتر نیست.
کریستین هاموند، استاد علوم کامپیوتر دانشگاه نورث وسترن، دراینباره گفت: «این واقعیت که دیپسیک ممکن است با هزینه و محاسباتی کمتر و درزمانی کوتاهتر ساختهشده و میتوان آن را بر روی ماشینهای ارزانتری اجرا کرد، نشان میدهد که در شرایطی که همه به سمت بزرگ و بزرگتر شدن حرکت میکردیم، فرصت برای ساخت ابزاری هوشمندتر و کوچکتر را ازدستدادهایم.»
اما طبق گفته دانشمند، کلید اینکه مدلهای V۳ و R۱ DeepSeek تا این حد مخل درخشش دیگر مدلها شدهاند، کارایی این مدل جدید است.
برتری مدلهای DeepSeek چیست؟
آمبوج تواری استاد آمار و علوم کامپیوتر دانشگاه میشیگان دراینباره توضیح داد: «پیشرفتهای دیپسیک از برخی جهات بیشتر تکاملی هستند تا انقلابی؛ آنها تحت الگوی غالب مدلهای بسیار بزرگ (با ۱۰۰ میلیارد پارامتر) روی مجموعه دادههای بسیار بزرگی (تریلیون ها توکن) با بودجههای بسیار بالا کار میکنند.
او در ادامه به این نکته اشاره کرد که اگر ادعاهای دیپسیک را بهعنوان یک ارزش یا مفهوم ظاهری در نظر بگیریم، نوآوری اصلی در رویکرد این شرکت اینجاست که آنها چگونه از مدلهای بزرگ و قدرتمندشان بهره میبرند تا با استفاده از منابع کمتری، بهخوبی روی سیستمهای دیگر اجرا شود.
کلید این موفقیت بهرهگیری از سیستمی "مخلوط از متخصصان" است که مدلهای دیپسیک را به زیرمدلهایی تقسیم میکند که هر یک در کار یا نوع داده خاصی تخصص دارند. این با یک سیستم باربر همراه است که بهجای اعمال جریمه کلی برای کند کردن یک سیستم پربار مثل سایر مدلها، به شکلی پویا، وظایف را از مدلهای فرعی که کار بیشتری دارند، به مدلهای کمکار منتقل میکند.
تواری ادامه داد: «این بدان معناست که گرچه مدل V۳ دارای ۶۷۱ میلیارد پارامتر است، اما درواقع فقط ۳۷ میلیارد برای هر توکن مشخص فعال میشود.» منظور از توکن، یک واحد پردازش در یک مدل زبان بزرگ (LLM) است که معادل یکتکه متن است.
این موازنه بار تکنیکی است که بهعنوان "مقیاسگذاری محاسبه زمان استنتاج" شناخته میشود و ارتباط در مدلهای دیپسیک که برای مطابقت با پیچیدگی یک کار مشغول به فعالیت هستند، محاسبات را بالا یا پایین میکند.
این کارایی در آموزش مدلهای دیپسیک گسترش مییابد که کارشناسان این را پیامد ناخواسته محدودیتهای صادراتی آمریکا میدانند. ازآنجاکه دسترسی چین به تراشههای پیشرفته H۱۰۰ انویدیا محدود است، دیپسیک مدعی شده که مدلهایش را با استفاده از تراشههای H۸۰۰ ساخته که سرعت انتقال داده از تراشه به تراشه در آنها کمتر است. انویدیا در سال ۲۰۲۳ این تراشه ضعیفتر را برای دور زدن کنترلهای صادرات طراحی کرده بود.
نوع کارآمدتری از مدل زبانی بزرگ
نیاز به استفاده از این تراشههای ضعیفتر، دیپسیک را بر آن داشت تا پیشرفت مهم دیگری ایجاد کند: چارچوب دقیق ترکیبی که در آن دیپسیک، بهجای نمایش تمام وزنهای مدل خود (اعدادی که قدرت اتصال بین نورونهای مصنوعی یک مدل هوش مصنوعی را تعیین میکند)، از اعداد ممیز شناور ۳۲ بیتی (FP۳۲) استفاده میکند و حتی بخشهایی از مدل خود را با اعداد ۸ بیتی( FP۸) با دقتی کمتر آموزش داده است. این مدل تنها در مواقعی به سراغ اعداد ۳۲ بیتی میرود که دقت حرف اول را می زند و محاسبات سختتری پیش روست.
توماس کائو، استاد سیاست فناوری دانشگاه تافتس دراینباره توضیح داد: «این امکان آموزش سریعتر با منابع محاسباتی کمتر را فراهم میکند. درعینحال دیپسیک، تقریباً هر مرحله از مسیر آموزشیاش (شامل بارگذاری دادهها، استراتژیهای موازیسازی و بهینهسازی حافظه) را اصلاحکرده تا در عمل به کارایی بسیار بالایی دست بیابد.
در شرایطی که آموزش مدلهای هوش مصنوعی با استفاده از برچسبهای ارائهشده توسط انسان برای امتیاز دادن بهدقت پاسخها و استدلال رایج است، استدلال R۱ بدون نظارت صورت میگیرد. در این سیستم از صحت پاسخهای نهایی در کارهایی مثل ریاضی و کدگذاری برای سیگنال پاداش خود استفاده میکند و بدین ترتیب منابع آموزشی را برای استفاده درجاهای دیگر آزاد میکند.
همه اینها به یک جفت مدل کارآمد اضافه میشوند. در شرایطی که هزینههای آموزشی رقبای دیپسیک بین دهها تا صدها میلیون دلار است و اغلب چند ماه طول میکشد، طبق گفته مسئولان دیپسیک، این شرکت V۳ را در طول دو ماه و با هزینه ۵.۵۸ میلیون دلاری آموزش داده است.
از سوی دیگر هزینههای اجرایی دیپسیک V۳ به همین منوال کمتر بوده: ۲۱ برابر ارزانتر از اجرای کلود ۳.۵ Sonnet. شرکت آنتروپیک.
کائو بر این نکته تأکید داشت که تحقیق و توسعه دیپسیک که شامل سختافزار و آزمونهای متعدد آزمایش و خطاست، به طور قطع خیلی بیشتر از ۵.۵۸ میلیون دلار هزینه در بر داشته است؛ اما حتی بااینوجود هم کاهش هزینه قابلتوجهی در مقایسه با رقبا داشته است.
بهطورکلی، کارشناسان هوش مصنوعی بر این باورند که محبوبیت دیپسیک احتمالاً امتیاز خالص مثبتی برای صنعت است که ضمن کاهش هزینههای سرسامآور منابع، باعث کاهش ممانعت ورود محققان و شرکتها در این زمینه خواهد شد و در کنار آن، فضایی را برای تراشهسازان دیگری بهجز انویدیا باز میکند تا با این کمپانی بزرگ وارد رقابت شوند؛ هرچند که خطرات خاص خودش را نیز به همراه دارد.
کائو توضیح داد: «همانطور که روشهای ارزانتر و کارآمدتر برای توسعه مدلهای پیشرفته هوش مصنوعی در دسترس عموم قرار میگیرد، این امکان برای محققان بیشتری در سراسر جهان فراهم خواهد شد تا توسعه پیشرفته LLM را دنبال کرده و بهطور بالقوه باعث سرعت بخشیدن به پیشرفتهای علمی و ایجاد برنامههای کاربردی شوند. درعینحال، موانع کمتری برای ورود، چالشهای نظارتی جدیدی (فراتر از رقابت آمریکا و چین) درزمینهٔ سوءاستفاده یا اثرات بالقوه بیثباتکننده هوش مصنوعی پیشرفته توسط بازیگران دولتی و غیردولتی ایجاد خواهد شد.»