غوغای علیبابا چین؛ مدل تصویرساز Z-Image-Turbo نانو بنانا را به چالش کشید
غول تکنولوژی چین، علیبابا، با معرفی مدل جدید Z-Image-Turbo، بازی را در دنیای تولید تصویر با هوش مصنوعی عوض کرده است. این مدل دقیقاً برای کسانی طراحی شده که سیستم چندان قدرتمندی ندارند اما به تصاویر با کیفیت نیاز دارند.
درحالی که شرکتهای بزرگ به دنبال مدلهای غولپیکر (مثل مدل ۳۲ میلیاردی FLUX.2) هستند که برای اجرا به سختافزارهای فضایی نیاز دارند، آزمایشگاه Tongyi وابسته به علیبابا مسیر متفاوتی را انتخاب کرده است. مدل Z-Image-Turbo با تنها ۶ میلیارد پارامتر، ثابت کرده است که برای رسیدن به کیفیت سینمایی، همیشه «بزرگتر بودن» به معنای «بهتر بودن» نیست.
این مدل بهطور مستقیم با مدلهای سبک و باکیفیتی مثل Nano Banana رقابت میکند و در بسیاری از بنچمارکها، عملکردی مشابه یا حتی بهتر از رقبای تجاری خود نشان داده است.
یکی از مهمترین ویژگیهای مدل جدید، سرعت بسیار بالای آن است. این مدل تنها در ۸ مرحله (Step) تصویر نهایی را تولید میکند. همچنین در کارت گرافیکهای قدرتمند، زمان انتظار برای تولید تصویر به زیر یک ثانیه رسیده است.

نکته قابلتوجه دیگر اینکه برای اجرای این مدل نیازی به سرورهای گرانقیمت ندارید. اگر یک کارت گرافیک با کمتر از ۱۶ گیگابایت VRAM (مثل سری RTX 3060 یا 4070) داشته باشید، این مدل بهخوبی روی سیستم شما کار میکند.
برخلاف بسیاری از مدلها که در نوشتن متن داخل تصویر گیج میشوند، این مدل در رندر کردن متون (بهویژه انگلیسی و چینی) به شکلی کاملاً طبیعی و هماهنگ با نور محیط، عملکرد بسیار خوبی دارد.
علیبابا توضیح داده که در این مدل از یک ساختار نوین به نام Single-Stream Diffusion Transformer (S3-DiT) استفاده کرده است. در مدلهای قدیمی، متن و تصویر در دو مسیر جداگانه پردازش و بعد به هم چسبانده میشدند. اما در این مدل، همه ورودیها (متن، نشانههای بصری و نویز تصویر) به صورت یک جریان واحد و یکپارچه پردازش میشوند.
نحوه استفاده از مدل جدید Z-Image-Turbo
خبر خوب اینکه علیبابا مدل جدید خود را تحت لایسنس Apache 2.0 منتشر کرده؛ یعنی استفاده تجاری و شخصی از آن برای همه آزاد و رایگان است. سادهترین راه برای تست کردن آن، مراجعه به وبسایت رسمی Z image Turbo است. همچنین میتوانید از پلتفرمهایی مثل Hugging Face استفاده کنید. اگر کمی با پایتون آشنایی دارید، میتوانید مدل را مستقیماً از Hugging Face دانلود و با چند خط کد اجرا کنید.

برای اجرای محلی این مدل، شما به یک سیستم با پردازشگر گرافیکی (GPU) مناسب نیاز دارید؛ اگرچه با بهینهسازیهای خاص روی ۸ گیگابایت حافظه گرافیکی هم قابل اجراست، اما برای عملکرد روان و بدون محدودیت، داشتن ۱۶ گیگابایت VRAM و نسخه پایتون ۳.۹ به بالا پیشنهاد میشود.
بهینهترین روش برای استفاده از رقیب نانو بنانا، پلتفرم محبوب ComfyUI است. برای این کار کافی است فایل مدل Z-Image-Turbo، انکودر متنی Qwen2-5B و فایلهای VAE را دانلود کرده و هر کدام را در پوشه مخصوص خود در ComfyUI (یعنی بخشهای checkpoints ،clip و vae) قرار دهید تا بتوانید قدرت این مدل ۶ میلیاردی را مستقیماً روی سیستم شخصی خود داشته باشید.
به دلیل دقت بالا در رندر متن، این مدل بهترین گزینه برای مواردی مانند طراحی لوگو و پوسترهای تبلیغاتی، تولید محتوا برای فروشگاههای آنلاین و ساخت تصاویر واقعی است که به جزئیات دقیق نیاز دارند.
