» هوش مصنوعی و رباتیک » غوغای علی‌بابا چین؛ مدل تصویرساز Z-Image-Turbo نانو بنانا را به چالش کشید

غوغای علی‌بابا چین؛ مدل تصویرساز Z-Image-Turbo نانو بنانا را به چالش کشید

غول تکنولوژی چین، علی‌بابا، با معرفی مدل جدید Z-Image-Turbo، بازی را در دنیای تولید تصویر با هوش مصنوعی عوض کرده است. این مدل دقیقاً برای کسانی طراحی شده که سیستم‌ چندان قدرتمندی ندارند اما به تصاویر با کیفیت نیاز دارند.

درحالی که شرکت‌های بزرگ به دنبال مدل‌های غول‌پیکر (مثل مدل ۳۲ میلیاردی FLUX.2) هستند که برای اجرا به سخت‌افزارهای فضایی نیاز دارند، آزمایشگاه Tongyi وابسته به علی‌بابا مسیر متفاوتی را انتخاب کرده است. مدل Z-Image-Turbo با تنها ۶ میلیارد پارامتر، ثابت کرده است که برای رسیدن به کیفیت سینمایی، همیشه «بزرگتر بودن» به معنای «بهتر بودن» نیست.

این مدل به‌طور مستقیم با مدل‌های سبک و باکیفیتی مثل Nano Banana رقابت می‌کند و در بسیاری از بنچمارک‌ها، عملکردی مشابه یا حتی بهتر از رقبای تجاری خود نشان داده است.

یکی از مهم‌ترین ویژگی‌های مدل جدید، سرعت بسیار بالای آن است. این مدل تنها در ۸ مرحله (Step) تصویر نهایی را تولید می‌کند. همچنین در کارت گرافیک‌های قدرتمند، زمان انتظار برای تولید تصویر به زیر یک ثانیه رسیده است.

تصاویر ساخته شده با هوش مصنوعی — غوغای علی‌بابا چین؛ مدل تصویرساز Z-Image-Turbo نانو بنانا را به چالش کشید

نکته قابل‌توجه دیگر اینکه برای اجرای این مدل نیازی به سرورهای گران‌قیمت ندارید. اگر یک کارت گرافیک با کمتر از ۱۶ گیگابایت VRAM (مثل سری RTX 3060 یا 4070) داشته باشید، این مدل به‌خوبی روی سیستم شما کار می‌کند.

برخلاف بسیاری از مدل‌ها که در نوشتن متن داخل تصویر گیج می‌شوند، این مدل در رندر کردن متون (به‌ویژه انگلیسی و چینی) به شکلی کاملاً طبیعی و هماهنگ با نور محیط، عملکرد بسیار خوبی دارد.

علی‌بابا توضیح داده که در این مدل از یک ساختار نوین به نام Single-Stream Diffusion Transformer (S3-DiT) استفاده کرده است. در مدل‌های قدیمی، متن و تصویر در دو مسیر جداگانه پردازش و بعد به هم چسبانده می‌شدند. اما در این مدل، همه ورودی‌ها (متن، نشانه‌های بصری و نویز تصویر) به صورت یک جریان واحد و یکپارچه پردازش می‌شوند.

نحوه استفاده از مدل جدید Z-Image-Turbo

خبر خوب اینکه علی‌بابا مدل جدید خود را تحت لایسنس Apache 2.0 منتشر کرده؛ یعنی استفاده تجاری و شخصی از آن برای همه آزاد و رایگان است. ساده‌ترین راه برای تست کردن آن، مراجعه به وب‌سایت رسمی Z image Turbo است. همچنین می‌توانید از پلتفرم‌هایی مثل Hugging Face استفاده کنید. اگر کمی با پایتون آشنایی دارید، می‌توانید مدل را مستقیماً از Hugging Face دانلود و با چند خط کد اجرا کنید.

تصویر مردی که با هوش مصنوعی ساخته شده — غوغای علی‌بابا چین؛ مدل تصویرساز Z-Image-Turbo نانو بنانا را به چالش کشید

برای اجرای محلی این مدل، شما به یک سیستم با پردازشگر گرافیکی (GPU) مناسب نیاز دارید؛ اگرچه با بهینه‌سازی‌های خاص روی ۸ گیگابایت حافظه گرافیکی هم قابل اجراست، اما برای عملکرد روان و بدون محدودیت، داشتن ۱۶ گیگابایت VRAM و نسخه پایتون ۳.۹ به بالا پیشنهاد می‌شود.

بهینه‌ترین روش برای استفاده از رقیب نانو بنانا، پلتفرم محبوب ComfyUI است. برای این کار کافی است فایل مدل Z-Image-Turbo، انکودر متنی Qwen2-5B و فایل‌های VAE را دانلود کرده و هر کدام را در پوشه مخصوص خود در ComfyUI (یعنی بخش‌های checkpoints ،clip و vae) قرار دهید تا بتوانید قدرت این مدل ۶ میلیاردی را مستقیماً روی سیستم شخصی‌ خود داشته باشید.

به دلیل دقت بالا در رندر متن، این مدل بهترین گزینه برای مواردی مانند طراحی لوگو و پوسترهای تبلیغاتی، تولید محتوا برای فروشگاه‌های آنلاین و ساخت تصاویر واقعی است که به جزئیات دقیق نیاز دارند.