
در ماه اوت، متا از مدل ترجمه چندوجهی هوش مصنوعی خود با نام SeamlessM4T رونمایی کرد که از 100 زبان برای ترجمه متن و از 36 زبان برای ترجمه گفتار پشتیبانی میکند. با معماری به روز شده "v2" غول فناوری اکنون در حال توسعه این ابزار است تا ترجمه های محاوره ای را یکپارچه تر و گویاتر کند. اولین مورد از دو ویژگی جدید "SeamlessExpressive" است که عبارات شما را به گفتار ترجمه شده شما منتقل می کند. به این معنی که عبارات ترجمه شده دقیقا با لحن صدا شما تولید میشود. این ویژگی شامل زیر و بمی صدا، لحن عاطفی (هیجان، غم یا زمزمه)، سرعت گفتار و مکث می شود. با در نظر گرفتن اینکه سخنرانیهای ترجمه شده با هوش مصنوعی تا به حال همیشه روباتیک و مصنوعی به نظر میرسیدند، این پیشرفت به طور بالقوه این مشکل را حل خواهد کرد و یک تغییر بزرگ در استفاده از مدل های هوش مصنوعی پردازش زبان طبیعی، هم در زندگی روزمره ما و هم در تولید محتوا به حساب می آید. زبانهای پشتیبانیشده عبارتند از انگلیسی، اسپانیایی، آلمانی، فرانسوی، ایتالیایی و چینی، اگرچه در زمان نگارش این مقاله، صفحه نمایشی ایتالیایی و چینی وجود ندارد.

ویژگی دوم «SeamlessStreaming» است که میتواند شروع به ترجمه یک سخنرانی هم زمان با صحت شخص سخنران میکند، بنابراین به افراد شنونده این امکان میدهد تا ترجمه گفتار سخنران را سریع و به صورت real time بشنوند. با این همه هنوز در این ویژگی یک تأخیر کوتاه و کمتر از دو ثانیه وجود دارد اما حداقل لازم نیست منتظر بمانید تا کسی جمله را به طور کامل تمام کند تا ترجمه آن را بشنوید. به گفته متا، چالش اینجاست که زبانهای مختلف ساختار جملهای متفاوتی دارند، بنابراین متخصصین مجبور شدند الگوریتمی را برای مطالعه ورودی صوتی ایجاد کند تا مدل تصمیم بگیرد که آیا دادههای صوتی کافی برای شروع تولید یک خروجی ترجمه شده را در اختیار دارد یا اینکه باید به گوش دادن ادامه دهد. به نظر میرسد آخرین و بهروزترین توسعه متا در این مجموعه "SeamlessExpressive" باشد. هیچ صحبتی در مورد اینکه چه زمانی عموم مردم قادر به استفاده از این ویژگیهای جدید خواهند بود وجود ندارد؛ اما میتوان تصور کرد که متا روزی این ویژگیها را به عینکهای هوشمند خود اضافه کند و آنها را حتی کاربردیتر از همیشه کند.

شاهین آقامعلی


پاسخ :