پیشرفت ۳ هوش مصنوعی بزرگ در تولید تصاویر

مدتی است که با تصاویر تولیدشده توسط هوش مصنوعی زندگی می‌کنیم، اما این هفته، برخی از بازیگران اصلی این حوزه، گام‌های بزرگی رو به جلو برداشته‌اند. به طور خاص در اینجا در مورد به‌روزرسانی‌های مهم میدجرنی(Midjourney)، مدل جدید گوگل و گروک(Grok) صحبت می‌کنیم.

۲۸ مرداد ۱۴۰۳

پیشرفت ۳ هوش مصنوعی بزرگ در تولید تصاویر

به گزارش چابک آنلاین به نقل از ایسنا، هر یک از شرکت‌ها نشان می‌دهند که فناوری با سرعت‌ و در جهات مختلف در حال تکامل است و هر شرکت نشان می‌دهد که پیشرفت‌ها تا کجا پیش رفته است.

با میدجرنی(Midjourney) شروع کنیم که بی سر و صدا یک ویرایشگر وب جدید را اواخر روز پنجشنبه منتشر کرده است که تعدادی از ابزارهای مفید دستکاری تصویر را در یک رابط کاربری جمع می‌کند.

پیش از این، عملکردهایی مانند قاب بندی مجدد، رنگ آمیزی مجدد گسترش مرزهای تصویر و تولید محتوا برای پر کردن آن و بزرگنمایی همگی نیاز به ابزار خاص خود داشتند و در چندین فهرست قرار گرفته بودند و از سازندگان خواسته می‌شد که دائما بین این فهرست‌ها جابه‌جا شوند. این رابط کاربری جدید فرآیند ویرایش منسجم‌تر و ساده‌تری را ارائه می‌دهد.

به گفته دیوید هولز(David Holz)، مدیر عامل میدجرنی در دیسکورد، ویرایشگر وب جدید به گونه‌ای طراحی شده است که ویرایش تصاویر تولید شده با هوش مصنوعی را آسان‌تر و بدون مشکل‌تر می‌کند. او نوشت: ما فکر می‌کنیم که این کار ویرایش تصاویر را بسیار راحت‌تر از قبل می‌کند و گام بزرگی رو به جلو است.

این شرکت همچنین ابزار گزینش جدیدی را معرفی کرده است که مانند یک قلمو دیجیتال کار می‌کند و جایگزین ابزار انتخاب مربعی و بیضی می‌شود.

ویرایشگر جدید برای همه کاربران میدجرنی که پیش از این بیش از ۱۰ تصویر روی پلتفرم تولید کرده‌اند، در دسترس است. واکنش‌های‌ اولیه از سوی جامعه تا حد زیادی مثبت بوده است.

این ویرایشگر دو هفته پس از انتشار میدجرنی ۶.۱ ارائه می‌شود که کیفیت و انسجام تصویر مانند تعداد صحیح انگشتان و همچنین زمان پردازش و درک دقت متن را به طور قابل توجهی بهبود بخشید.

گروک-۲(Grok-2) هیولا را آزاد می‌کند

به‌روزرسانی میدجرنی نیز تنها دو روز پس از انتشار گروک-۲ توسط استارت‌آپ xAI ایلان ماسک ارائه می‌شود که اتفاق بزرگ بعدی این هفته است.

محبوبیت قابلیت‌های تولید تصویر گروک به دلیل کیفیت تصویر چشمگیر و قابلیت استفاده رایگان، به سرعت در حال افزایش است.

بزرگترین بحث در مورد گروک-۲ فقط کیفیت آن نیست، بلکه دستورالعمل‌های ظاهرا تعریف نشده آن است. برخلاف بسیاری از تولیدکننده‌های تصویر هوش مصنوعی، به نظر می‌رسد گروک-۲ از نظر دستورالعمل‌های مربوط به مالکیت معنوی، خشونت و سایر محتواها چیز کمی برای گفتن دارد.

مردم پیش از این محدودیت‌های آن را آزمایش کرده‌اند و انواع تصاویر وحشتناک و عجیب و غریب را ایجاد کرده‌اند که روزهای اولیه تولید تصویر هوش مصنوعی را تداعی می‌کند. اما اگر به سخنان ماسک اعتقاد دارید، فقدان دستورالعمل‌های گروک-۲ هدفمند به نظر می‌رسد و در نهایت می‌تواند به چگونگی تکامل این فناوری در آینده شکل دهد.

گوگل با ایمجن ۳(Imagen 3) خود وارد رقابت شد

در نهایت، گوگل مدل جدید هوش مصنوعی ایمجن ۳(3 Imagen) خود را معرفی کرد که در روز پنجشنبه برای همه کاربران آمریکایی منتشر شد. گوگل آن را «با کیفیت‌ترین مدل تبدیل متن به تصویر» خود می‌نامد که اکنون می‌تواند «جزئیات بهتر، نور غنی‌تر و مصنوعات کمتری نسبت به مدل‌های قبلی» تولید کند. گوگل همچنین می‌گوید که ایمجن ۳ در رندر کردن متن بهتر است و اکنون در نسخه‌های مختلفی ارائه می‌شود.