
• DPO یک تکنیک آموزشی هوش مصنوعی جدید است که بهتر از یادگیری تقویتی از بازخورد انسانی عمل میکند.
• DPO توسط محققان دانشگاه استنفورد و شبکه چان زاکربرگ ایجاد شده است.
محققان هوش مصنوعی از استنفورد تکنیک جدیدی ارائه کرده اند که می تواند آموزش مدل های زبان بزرگ را به شکل ساده انجام دهد. بر اساس این مقاله که توسط Chan Zuckerberg Biohub Network تالیف شده است، تکنیک بهینه سازی ترجیح مستقیم یا (DPO) جایگزین بسیار ساده تری برای یادگیری تقویتی از بازخورد انسانی یام همان (RLF برای همسویی یک مدل با ترجیحات انسانی میشود. به طور سنتی، سازندگان مدل از RHLF برای ایجاد یک مدل بر پایه روش آموزش تقویتی یا همان آموزش بر مبنای پاداش از دادههای ترجیحی انسان استفاده میکنند، سپس از یادگیری تقویتی برای بهینهسازی سیاستی مدل برای به حداکثر رساندن پاداش ها برای انتخاب های درست استفاده میکنند. با این حال، DPO مستقیماً سیاست را برای برآوردن ترجیحات انسانی با استفاده از یک افت آنتروپی متقابل باینری ساده بهینه می کند. به زبان ساده، DPO مدل را طوری آموزش میدهد که تابع پاداش را با رتبهبندیهای انسانی سازگار کند. به این معنی که توسعهدهندگان نیازی به جدا کردن جنبه تابع پاداش ندارند و در عوض میتوانند LLM را مستقیماً برای بهینهسازی همان هدف آموزش دهند.DPO می تواند با کاهش هزینه های محاسباتی در زمان و هزینه سازنده مدل صرفه جویی کند. یکی از محققین این پروژه خاطر نشان کرد که اگرچه هنوز برای اطمینان خیلی زود است، اما من محتاطانه خوشبین هستم که DPO تأثیر زیادی بر LLMها و فراتر از آن در چند سال آینده خواهد داشت.

DPO بر RLHF برتری دارد:
RLHF می تواند یک فرآیند پیچیده و حتی ناپایدار باشد. با تکیه بر کیفیت و سازگاری بازخوردهای انسانی که گردآوری آن نیازمند منابع است و می تواند منجر به درج سوگیری های بالقوه در قضاوت انسان شود. برای مبارزه با این موضوع، محققان الگوریتمی ساختند که پایدارتر و از نظر محاسباتی سبک تر است. بر اساس این مقاله، DPO میتواند مدلها را بسیار بهتر از RLHF با کنترل بیشتر بر احساسات تنظیم کند. به گفته محققان، استقرار آن میتواند منجر به بهبود کیفیت پاسخ در خلاصهسازی و گفتگوی شود. هنوز کار بیشتری برای آزمایش توانایی های DPO باید انجام شود. محققان پشت آن ممکن است نتایج چشمگیری را ثبت کرده باشند، اما آنها فقط بر روی مدل هایی تا شش میلیارد پارامتر را کار کرده اند.DPO در حال حاضر در مدلهای موجود امروزی استفاده میشود، از جمله Mixtral از Mistral، یک مدل زبان چندزبانه که در بیشتر معیارها از Llama 2 70B متا بهتر است.Mixtral ترکیبی از هشت مدل با هم است، مجموعاً 46.7 میلیارد پارامتر، بنابراین مقیاس مدلهایی که DPO میتواند بهینهسازی کند جای سوال دارد.

شاهین آقامعلی


پاسخ :