» هوش مصنوعی و رباتیک » استارتاپ «میرا موراتی» از نسل جدید مدل‌های هوش مصنوعی تعاملی رونمایی کرد [تماشا کنید]

استارتاپ «میرا موراتی» از نسل جدید مدل‌های هوش مصنوعی تعاملی رونمایی کرد [تماشا کنید]

دیجیاتو digiato اردیبهشت ۲۳, ۱۴۰۵ 2012

شرکت Thinking Machines، استارتاپ هوش مصنوعی تأسیس‌شده توسط «میرا موراتی»، مدیر ارشد فناوری سابق OpenAI، و «جان شولمن»، پژوهشگر و هم‌بنیان‌گذار سابق OpenAI، از نسل جدیدی از مدل‌ها با نام «مدل‌های تعاملی» (Interaction Models) پرده برداشته است. به گفته این شرکت، مدل‌های مذکور به‌جای تکیه بر الگوی رایج عملکرد «نوبتی» در تعامل با کاربر، برای ارتباط همزمان و طبیعی‌تر با متن، صدا و ویدیو طراحی شده‌اند.

مدل‌های هوش مصنوعی فعلی معمولاً پس از پایان ارسال ورودی کاربر شروع به پردازش می‌کنند و هنگام تولید پاسخ نیز از دریافت همزمان ورودی جدید ناتوان هستند. Thinking Machines این محدودیت را مانعی برای همکاری طبیعی انسان و هوش مصنوعی می‌داند و می‌گوید مدل‌های جدید آن تعامل را به‌عنوان بخش اصلی معماری مدل و نه یک لایه نرم‌افزاری بیرونی، در نظر می‌گیرند.

مدل‌های تعاملی چگونه کار می‌کنند؟

Thinking Machines در پست وبلاگی خود توضیح داده که برای رفع این چالش، از تکنیک «توالی استانداردِ متناوب توکن‌ها» فاصله گرفته و به‌جای آن از طراحی جدیدی استفاده کرده که داده‌ها را در بازه‌های ۲۰۰ میلی‌ثانیه‌ای و به‌صورت همزمان در ورودی و خروجی پردازش می‌کند.

این معماری به مدل اجازه می‌دهد به‌صورت لحظه‌ای و همزمان بشنود، صحبت کند و ببیند. در نتیجه، مدل می‌تواند هنگام صحبت کاربر، بازخوردهای کوتاهی ارائه کند یا با مشاهده یک نشانه، درلحظه وارد تعامل شود.

Thinking Machines در پژوهش خود همچنین مدلی با نام «TML-Interaction-Small» را معرفی کرده است. این مدل با معماری «ترکیب متخصصان» (Mixture of Experts یا MoE) و ۲۷۶ میلیارد پارامتر (۱۲ میلیارد پارامتر فعال) ساخته شده است. به گفته شرکت، چون ارائه پاسخ لحظه‌ای معمولاً با استدلال عمیق در تعارض قرار می‌گیرد، معماری این مدل شامل ۲ بخش می‌شود.

بخش اول که همان مدل تعاملی است، مسئول مدیریت گفتگو، حضور در تعامل و پیگیری‌های فوری است. بخش دوم با نام مدل پس‌زمینه، یک ایجنت غیرلحظه‌ای برای استدلال طولانی‌تر، مرور وب یا فراخوانی ابزارهای پیچیده است که خروجی را به مدل تعاملی برمی‌گرداند.

به گفته شرکت، این ساختار به مدل اجازه می‌دهد تا هنگام انجام کارهایی مثل ترجمه زنده یا ساخت نمودار رابط کاربری همچنان به بازخورد کاربر گوش دهد.

Thinking Machines برای ارزیابی کارایی این رویکرد از بنچمارک «FD-bench» استفاده کرده که به‌طور خاص برای سنجش کیفیت تعامل طراحی شده است. براساس نتایج اعلام‌شده، مدل TML-Interaction-Small در چند شاخص از رقبای سریع و تعاملی دیگر بهتر عمل کرده است.

در شاخص تأخیر نوبت‌گیری، این مدل به زمان ۰.۴۰ ثانیه رسیده؛ درحالی‌که Gemini-3.1-flash-live عدد ۰.۵۷ ثانیه و GPT-realtime-2.0 minimal عدد ۱.۱۸ ثانیه را ثبت کرده‌اند. در بخش کیفیت تعامل نیز امتیاز TML-Interaction-Small برابر با ۷۷.۸ بوده است. برای مقایسه امتیازات GPT-realtime-2.0 minimal و Gemini-3.1-flash-live به‌ترتیب برابر با ۴۶.۸ و ۵۴.۳ بوده است.

این شرکت همچنین ادعا کرده مدلش در آزمون‌های تخصصی‌تری مانند RepCount-A برای شمارش تکرارهای فیزیکی در ویدیو و ProactiveVideoQA به‌منظور ارائه پاسخ همزمان برای نشانه‌های بصری، توانسته به‌طور فعال تعامل داشته باشد؛ درحالی‌که به گفته این شرکت، برخی مدل‌های دیگر یا ساکت مانده‌اند یا پاسخ آنها نادرست بوده است.

Thinking Machines اعلام کرده این مدل‌ها هنوز در دسترس عموم یا حتی مشتریان سازمانی قرار نگرفته‌اند. این شرکت گفته است در ماه‌های آینده پیش‌نمایش پژوهشی محدودی برای جمع‌آوری بازخورد ارائه می‌کند و انتشار گسترده‌تر نیز اواخر امسال انجام خواهد شد.