دانشگاه استنفورد یک متد بهینه تر برای آموزش هوش مصنوعی ارائه داد

...

• DPO یک تکنیک آموزشی هوش مصنوعی جدید است که بهتر از یادگیری تقویتی از بازخورد انسانی عمل میکند.
• DPO توسط محققان دانشگاه استنفورد و شبکه چان زاکربرگ ایجاد شده است.

محققان هوش مصنوعی از استنفورد تکنیک جدیدی ارائه کرده اند که می تواند آموزش مدل های زبان بزرگ را به شکل ساده انجام دهد. بر اساس این مقاله که توسط Chan Zuckerberg Biohub Network تالیف شده است، تکنیک بهینه سازی ترجیح مستقیم یا (DPO) جایگزین بسیار ساده تری برای یادگیری تقویتی از بازخورد انسانی یام همان (RLF برای همسویی یک مدل با ترجیحات انسانی میشود. به طور سنتی، سازندگان مدل از RHLF برای ایجاد یک مدل بر پایه روش آموزش تقویتی یا همان آموزش بر مبنای پاداش از داده‌های ترجیحی انسان استفاده می‌کنند، سپس از یادگیری تقویتی برای بهینه‌سازی سیاستی مدل برای به حداکثر رساندن پاداش ها برای انتخاب های درست استفاده می‌کنند. با این حال، DPO مستقیماً سیاست را برای برآوردن ترجیحات انسانی با استفاده از یک افت آنتروپی متقابل باینری ساده بهینه می کند. به زبان ساده، DPO مدل را طوری آموزش می‌دهد که تابع پاداش را با رتبه‌بندی‌های انسانی سازگار کند. به این معنی که توسعه‌دهندگان نیازی به جدا کردن جنبه تابع پاداش ندارند و در عوض می‌توانند LLM را مستقیماً برای بهینه‌سازی همان هدف آموزش دهند.DPO  می تواند با کاهش هزینه های محاسباتی در زمان و هزینه سازنده مدل صرفه جویی کند. یکی از محققین این پروژه خاطر نشان کرد که اگرچه هنوز برای اطمینان خیلی زود است، اما من محتاطانه خوشبین هستم که DPO تأثیر زیادی بر LLMها و فراتر از آن در چند سال آینده خواهد داشت.

متد آموزش هوش مصنوعی

DPO بر RLHF برتری دارد:

RLHF می تواند یک فرآیند پیچیده و حتی ناپایدار باشد. با تکیه بر کیفیت و سازگاری بازخوردهای انسانی که گردآوری آن نیازمند منابع است و می تواند منجر به درج سوگیری های بالقوه در قضاوت انسان شود. برای مبارزه با این موضوع، محققان الگوریتمی ساختند که پایدارتر و از نظر محاسباتی سبک تر است. بر اساس این مقاله، DPO می‌تواند مدل‌ها را بسیار بهتر از RLHF با کنترل بیشتر بر احساسات تنظیم کند. به گفته محققان، استقرار آن می‌تواند منجر به بهبود کیفیت پاسخ در خلاصه‌سازی و گفتگوی شود. هنوز کار بیشتری برای آزمایش توانایی های DPO باید انجام شود. محققان پشت آن ممکن است نتایج چشمگیری را ثبت کرده باشند، اما آنها فقط بر روی مدل هایی تا شش میلیارد پارامتر را کار کرده اند.DPO  در حال حاضر در مدل‌های موجود امروزی استفاده می‌شود، از جمله Mixtral از Mistral، یک مدل زبان چندزبانه که در بیشتر معیارها از Llama 2 70B متا بهتر است.Mixtral  ترکیبی از هشت مدل با هم است، مجموعاً 46.7 میلیارد پارامتر، بنابراین مقیاس مدل‌هایی که DPO می‌تواند بهینه‌سازی کند جای سوال دارد. 

نظرات 0

wave

ارسال نظر

wave
برای ثبت نظر ابتدا وارد حساب کاربری خود شوید. ورود | ثبت نام

در آرتیجنس دنبال چی میگردی؟