محققان MIT به مدل‌های هوش مصنوعی تفسیر نمودارها را آموزش می‌دهند

...

پژوهشگران MIT و MIT-IBM Computing Research Lab یک منبع داده‌ای جدید به نام ChartNet معرفی کرده‌اند که برای بهبود توانایی مدل‌های هوش مصنوعی چندوجهی (VLM) در درک و تفسیر نمودارها طراحی شده است. این پروژه با هدف رفع یکی از ضعف‌های مهم مدل‌های زبانی-بصری شکل گرفته؛ ضعفی که باعث می‌شود بسیاری از مدل‌های پیشرفته، هنگام تحلیل نمودارهای مالی، گزارش‌های بازار، و داده‌های علمی، اطلاعات را ناقص یا نادرست استخراج کنند.

به گفته پژوهشگران، ChartNet یک دیتاست عظیم و چندلایه است که بیش از یک میلیون نمودار متنوع را در خود جای داده است. این نمودارها فقط تصویر نیستند، بلکه همراه با کد تولید نمودار، توضیح متنی، جدول داده‌های عددی، و مجموعه‌ای از پرسش‌وپاسخ‌ها ارائه می‌شوند. همین ساختار باعث می‌شود مدل‌های هوش مصنوعی بتوانند ارتباط میان اطلاعات دیداری، زبانی و عددی را بهتر یاد بگیرند و درک دقیق‌تری از نمودارها داشته باشند.

 

درک نمودار با هوش مصنوعی

 

یکی از نوآوری‌های مهم این پژوهش، استفاده از یک فرآیند تولید داده مصنوعی دو مرحله‌ای است. در مرحله اول، سیستم پژوهشگران نمودارهای موجود را به کد تبدیل می‌کند. سپس با تغییر دادن بخش‌هایی مانند نوع نمودار، مقادیر داده، موضوع، رنگ‌ها و عناصر بصری، نسخه‌های جدید و متنوعی از آن تولید می‌شود. این روش امکان ساخت مجموعه‌ای بسیار بزرگ و متنوع را فراهم کرده است، بدون آنکه نیاز به جمع‌آوری دستی میلیون‌ها نمونه باشد. برای حفظ کیفیت، تیم تحقیقاتی یک سیستم کنترل کیفیت خودکار نیز توسعه داده که بررسی می‌کند کدها قابل اجرا باشند و نمودارهای نهایی تمیز، دقیق و معتبر رندر شوند. علاوه بر این، بخشی از داده‌ها توسط کارشناسان انسانی برچسب‌گذاری شده تا اعتبار علمی و کاربردی مجموعه بیشتر شود.

نتایج آزمایش‌ها نشان داده‌اند که آموزش مدل‌هایی مانند IBM Granite Vision و دیگر مدل‌های متن‌باز با ChartNet، عملکرد آن‌ها را در وظایفی مانند استخراج داده از نمودار، بازسازی نمودار، خلاصه‌سازی نمودار و پاسخ به پرسش‌های مربوط به نمودار به‌طور چشمگیری افزایش می‌دهد. نکته مهم‌تر این است که برخی از مدل‌های کوچک‌تر و متن‌باز، پس از آموزش با ChartNet، توانسته‌اند از مدل‌های تجاری بسیار بزرگ‌تر نیز بهتر عمل کنند.

 

درک نمودار با هوش مصنوعی

 

این دستاورد می‌تواند برای شرکت‌های کوچک‌تر و سازمان‌هایی که بودجه محدودی دارند بسیار مهم باشد، زیرا به آن‌ها کمک می‌کند از هوش مصنوعی متن‌باز برای تحلیل روندهای تجاری، بررسی بازارهای مالی و حتی تفسیر نمودارهای علمی استفاده کنند. به گفته محققان، ChartNet می‌تواند به‌عنوان یک «ابزار همه‌کاره» برای آموزش مدل‌های هوش مصنوعی در حوزه درک نمودارها عمل کند. پژوهشگران قصد دارند در آینده ChartNet را با داده‌های پیچیده‌تر گسترش دهند و از بازخورد جامعه علمی نیز برای بهبود آن استفاده کنند. این تحقیق قرار است در کنفرانس IEEE Computer Vision and Pattern Recognition ارائه شود.

منبع خبر: mit

نظرات 0

wave

ارسال نظر

wave
برای ثبت نظر ابتدا وارد حساب کاربری خود شوید. ورود | ثبت نام

در آرتیجنس دنبال چی میگردی؟