|
کد‌خبر: 324168

وقتی دیپ‌سیک، بازی ChatGPT را به هم زد

مدل‌های هوش مصنوعی چطور کار می‌کنند و چرا ارزان شدند؟

برای آنکه بهتر بتوان در مورد اینکه چطور دیپ‌سیک توانست تا اندکی پس از ظهور، ChatGPT را به‌زانو دربیاورد، باید بدانیم که مدل‌های هوش مصنوعی چطور کار می‌کنند و اصلاً چطور ساخته می‌شوند؟

کمتر از دو هفته پیش بود که یک شرکت چینی تقریباً گمنام، جدیدترین مدل هوش مصنوعی (AI) را منتشر و طوفان عظیمی را در دنیای تکنولوژی ایجاد کرد.

این مدل هوش مصنوعی DeepSeek نام دارد و در مقاله منتشره در GitHub ادعا شد که مدل وزن-باز R۱ آن به نتایج برابر و یا حتی بهتری نسبت به مدل‌های هوش مصنوعی غول‌های پیشرو سیلیکون-ولی (یعنی ChatGPT از OpenAI، Llama محصول Meta و Claude محصول Anthropic) به دست آورده است.

نکته جالب‌تر اینجاست که این مدل چینی در شرایطی به نتایج مشابه یا بهتر از این غول‌ها دست‌یافته که با هزینه‌ای نسبتاً ناچیز آموزش داده‌شده و اجرا می‌شود

واکنش بازار به ظهور پدیده چینی

دوشنبه هفته گذشته و با انتشار خبر ظهور دیپ‌سیک، واکنش بازار به این خبر تند و بی‌رحمانه بود؛ دیپ‌سیک خیلی سریع به پر بارگیری‌ترین اپلیکیشن رایگان در اپ‌استور اپل تبدیل شد و یک تریلیون دلار از ارزش‌گذاری شرکت‌های فناوری پیشرو آمریکا پاک شد.

در بزرگ‌ترین ضرر بازار یک‌روزه در تاریخ آمریکا، کمپانی انویدیا به‌عنوان تولیدکننده تراشه‌های گرافیکی پیشرفته H۱۰۰ برای آموزش هوش مصنوعی، شاهد از دست رفتن ارزش ۵۸۹ میلیارد دلاری‌اش بود. به‌علاوه دیپ‌سیک اعلام کرد که مدل هوش مصنوعی‌اش را بدون نیاز به این تراشه‌ها آموزش داده (هرچند که از تراشه‌های کم قدرت انویدیا استفاده می‌کند).

واکنش شرکت‌های فناوری آمریکا مملو از خشم و وحشت بود؛ کار به‌جایی رسید که حتی نمایندگان OpenAI اعلام کردند که دیپ‌سیک در بخش‌هایی از مدل‌هایش، سرقت علمی کرده است.

کارشناسان چه می‌گویند؟

دراین‌بین کارشناسان هوش مصنوعی بر این باورند که ظهور دیپ‌سیک، نوعی دگماتیسم کلیدی مبتنی بر رویکرد صنعت به رشد را تغییر داده و نشان می‌دهد که بزرگ‌تر همیشه بهتر نیست.

کریستین هاموند، استاد علوم کامپیوتر دانشگاه نورث وسترن، دراین‌باره گفت: «این واقعیت که دیپ‌سیک ممکن است با هزینه و محاسباتی کمتر و درزمانی کوتاه‌تر ساخته‌شده و می‌توان آن را بر روی ماشین‌های ارزان‌تری اجرا کرد، نشان می‌دهد که در شرایطی که همه به سمت بزرگ‌ و بزرگ‌تر شدن حرکت می‌کردیم، فرصت برای ساخت ابزاری هوشمندتر و کوچک‌تر را ازدست‌داده‌ایم.»

اما طبق گفته دانشمند، کلید اینکه مدل‌های V۳ و R۱ DeepSeek تا این حد مخل درخشش دیگر مدل‌ها شده‌اند، کارایی این مدل جدید است.

برتری مدل‌های DeepSeek چیست؟

آمبوج تواری استاد آمار و علوم کامپیوتر دانشگاه میشیگان دراین‌باره توضیح داد: «پیشرفت‌های دیپ‌سیک از برخی جهات بیشتر تکاملی هستند تا انقلابی؛ آن‌ها تحت الگوی غالب مدل‌های بسیار بزرگ (با ۱۰۰ میلیارد پارامتر) روی مجموعه داده‌های بسیار بزرگی (تریلیون ها توکن) با بودجه‌های بسیار بالا کار می‌کنند.

او در ادامه به این نکته اشاره کرد که اگر ادعاهای دیپ‌سیک را به‌عنوان یک ارزش یا مفهوم ظاهری در نظر بگیریم، نوآوری اصلی در رویکرد این شرکت اینجاست که آن‌ها چگونه از مدل‌های بزرگ و قدرتمندشان بهره می‌برند تا با استفاده از منابع کمتری، به‌خوبی روی سیستم‌های دیگر اجرا شود.

کلید این موفقیت بهره‌گیری از سیستمی "مخلوط از متخصصان" است که مدل‌های دیپ‌سیک را به زیرمدل‌هایی تقسیم می‌کند که هر یک در کار یا نوع داده خاصی تخصص دارند. این با یک سیستم باربر همراه است که به‌جای اعمال جریمه کلی برای کند کردن یک سیستم پربار مثل سایر مدل‌ها، به شکلی پویا، وظایف را از مدل‌های فرعی که کار بیشتری دارند، به مدل‌های کم‌کار منتقل می‌کند.

تواری ادامه داد: «این بدان معناست که گرچه مدل V۳ دارای ۶۷۱ میلیارد پارامتر است، اما درواقع فقط ۳۷ میلیارد برای هر توکن مشخص فعال می‌شود.» منظور از توکن، یک واحد پردازش در یک مدل زبان بزرگ (LLM) است که معادل یک‌تکه متن است.

این موازنه بار تکنیکی است که به‌عنوان "مقیاس‌گذاری محاسبه زمان استنتاج" شناخته می‌شود و ارتباط در مدل‌های دیپ‌سیک که برای مطابقت با پیچیدگی یک کار مشغول به فعالیت هستند، محاسبات را بالا یا پایین می‌کند.

این کارایی در آموزش مدل‌های دیپ‌سیک گسترش می‌یابد که کارشناسان این را پیامد ناخواسته محدودیت‌های صادراتی آمریکا می‌دانند. ازآنجاکه دسترسی چین به تراشه‌های پیشرفته H۱۰۰ انویدیا محدود است، دیپ‌سیک مدعی شده که مدل‌هایش را با استفاده از تراشه‌های H۸۰۰ ساخته که سرعت انتقال داده از تراشه به تراشه در آن‌ها کمتر است. انویدیا در سال ۲۰۲۳ این تراشه ضعیف‌تر را برای دور زدن کنترل‌های صادرات طراحی کرده بود.

نوع کارآمدتری از مدل زبانی بزرگ

نیاز به استفاده از این تراشه‌های ضعیف‌تر، دیپ‌سیک را بر آن داشت تا پیشرفت مهم دیگری ایجاد کند: چارچوب دقیق ترکیبی که در آن دیپ‌سیک، به‌جای نمایش تمام وزن‌های مدل خود (اعدادی که قدرت اتصال بین نورون‌های مصنوعی یک مدل هوش مصنوعی را تعیین می‌کند)، از اعداد ممیز شناور ۳۲ بیتی (FP۳۲) استفاده می‌کند و حتی بخش‌هایی از مدل خود را با اعداد ۸ بیتی( FP۸) با دقتی کمتر آموزش داده است. این مدل تنها در مواقعی به سراغ اعداد ۳۲ بیتی می‌رود که دقت حرف اول را می زند و محاسبات سخت‌تری پیش روست.

توماس کائو، استاد سیاست فناوری دانشگاه تافتس دراین‌باره توضیح داد: «این امکان آموزش سریع‌تر با منابع محاسباتی کمتر را فراهم می‌کند. درعین‌حال دیپ‌سیک، تقریباً هر مرحله از مسیر آموزشی‌اش (شامل بارگذاری داده‌ها، استراتژی‌های موازی‌سازی و بهینه‌سازی حافظه) را اصلاح‌کرده تا در عمل به کارایی بسیار بالایی دست بیابد.

در شرایطی که آموزش مدل‌های هوش مصنوعی با استفاده از برچسب‌های ارائه‌شده توسط انسان برای امتیاز دادن به‌دقت پاسخ‌ها و استدلال رایج است، استدلال R۱ بدون نظارت صورت می‌گیرد. در این سیستم از صحت پاسخ‌های نهایی در کارهایی مثل ریاضی و کدگذاری برای سیگنال پاداش خود استفاده می‌کند و بدین ترتیب منابع آموزشی را برای استفاده درجاهای دیگر آزاد می‌کند.

همه این‌ها به یک جفت مدل کارآمد اضافه می‌شوند. در شرایطی که هزینه‌های آموزشی رقبای دیپ‌سیک بین ده‌ها تا صدها میلیون دلار است و اغلب چند ماه طول می‌کشد، طبق گفته مسئولان دیپ‌سیک، این شرکت V۳ را در طول دو ماه و با هزینه ۵.۵۸ میلیون دلاری آموزش داده است.

از سوی دیگر هزینه‌های اجرایی دیپ‌سیک V۳ به همین منوال کمتر بوده: ۲۱ برابر ارزان‌تر از اجرای کلود ۳.۵ Sonnet. شرکت آنتروپیک.

کائو بر این نکته تأکید داشت که تحقیق و توسعه دیپ‌سیک که شامل سخت‌افزار و آزمون‌های متعدد آزمایش و خطاست، به ‌طور قطع خیلی بیشتر از ۵.۵۸ میلیون دلار هزینه در بر داشته است؛ اما حتی بااین‌وجود هم کاهش هزینه قابل‌توجهی در مقایسه با رقبا داشته است.

به‌طورکلی، کارشناسان هوش مصنوعی بر این باورند که محبوبیت دیپ‌سیک احتمالاً امتیاز خالص مثبتی برای صنعت است که ضمن کاهش هزینه‌های سرسام‌آور منابع، باعث کاهش ممانعت ورود محققان و شرکت‌ها در این زمینه خواهد شد و در کنار آن، فضایی را برای تراشه‌سازان دیگری به‌جز انویدیا باز می‌کند تا با این کمپانی بزرگ وارد رقابت شوند؛ هرچند که خطرات خاص خودش را نیز به همراه دارد.

کائو توضیح داد: «همان‌طور که روش‌های ارزان‌تر و کارآمدتر برای توسعه مدل‌های پیشرفته هوش مصنوعی در دسترس عموم قرار می‌گیرد، این امکان برای محققان بیشتری در سراسر جهان فراهم خواهد شد تا توسعه پیشرفته LLM را دنبال کرده و به‌طور بالقوه باعث سرعت بخشیدن به پیشرفت‌های علمی و ایجاد برنامه‌های کاربردی شوند. درعین‌حال، موانع کمتری برای ورود، چالش‌های نظارتی جدیدی (فراتر از رقابت آمریکا و چین) درزمینهٔ سوءاستفاده یا اثرات بالقوه بی‌ثبات‌کننده هوش مصنوعی پیشرفته توسط بازیگران دولتی و غیردولتی ایجاد خواهد شد.»

 

source: خبرانلاین