آیا میخواهید یاد بگیرید چگونه با هوش مصنوعی استیبل دیفیوژن کار کنید؟ این یک راهنمای مقدماتی برای افرادی است که هیچ تجربهای از کار با استیبل دیفیوژن یا سایر هوش مصنوعی های تولیدکننده تصویر ندارند. در این مقاله به صورت کلی با استیبل دیفیوژن آشنا خواهید شد و نکات پایه ای را یاد میگیرید.
استیبل دیفیوژن (Stable Diffusion) چیست؟
هوش مصنوعی استیبل دیفیوژن یک نرم افزار برای تولید تصاویر با استفاده از هوش مصنوعی است. تصاویری که این هوش مصنوعی می سازد میتوانند فتورئالیستی (عکسهای واقعی) باشند، مانند تصاویری که با دوربین گرفته شدهاند، یا در سبک هنری بهگونهای که توسط یک هنرمند حرفهای خلق شدهاند.
بهترین بخش استیبل دیفیوژن این است که این نرمافزار رایگان است و میتوانید آن را روی کامپیوتر خود اجرا کنید.
چگونه از استیبل دیفیوژن (Stable Diffusion) استفاده کنیم؟
برای ساخت تصویر با استیبل دیفیوژن، بعد از نصب و راه اندازی آن باید به آن یک پرامپت (متن) بدهید که تصویر مورد نظرتان را به صورت کامل و دقیق توصیف کند. برای مثال:
chocolate house, in focus, blur background
خانه شکلاتی، در فوکوس، پسزمینه بلور،
استیبل دیفیوژن این پرامپت را به تصاویری مانند تصاویر زیر تبدیل میکند.
میتوانید هرچقدر که میخواهید با این پرامپت تصاویر مختلفی را تولید کنید.
مزایای استیبل دیفیوژن (Stable Diffusion) چیست؟
هوش مصنوعی های مختلفی برای تبدیل متن به عکس وجود دارند مانند DALLE و MidJourney.
اما چرا استیبل دیفیوژن؟
مزایای هوش مصنوعی استیبل دیفیوژن عبارتند از:
– (Open source) منبع باز: به علت خاصیت متن باز بودن این هوش مصنوعی، مدل ها و ابزار های بسیار زیادی توسط بقیه افراد برای استیبل دیفیوژن ساخته شده است. این قضیه انعطاف و قدرت بینظیری برای این هوش مصنوعی ایجاد کرده است.
– طراحی شده برای کامپیوترهای نسبتا ضعیف: اجرای آن رایگان یا خیلی ارزان می باشد.
آیا استیبل دیفیوژن (Stable Diffusion) رایگان است؟
استیبل دیفیوژن را زمانی که روی کامپیوترهای شخصی (ویندوز یا مک) خود اجرا میکنید رایگان است. اما اگر سیستم شخصی شما سخت افزار بسیار ضعیف و قدیمی دارد که توانایی اجرای استیبل دیفیوژن را نداشته باشد، باید از سرویسهای اینترنتی که کارت گرافیک ابری به شما اجاره می دهند استفاده کنید. استفاده از این سرویسها (کارت گرافیکهای ابری) آنلاین تقریبا هزینه کمی دارد.
استیبل دیفیوژن (Stable Diffusion) چه کاری میتواند انجام دهد؟
۱. تولید تصویر از متن (text to image)
مهمترین استفاده از استیبل دیفیوژن تولید تصویر از متن (txt2img) است. در اینجا چند نمونه از تصاویری که میتوانید با استیبل دیفیوژن تولید کنید آورده شده است.
– سبک انیمه (Anime)
– سبک Photorealistic (عکس واقعی)
– منظره (Landscape)
– فانتزی (Fantasy)
– سبک هنری (Artistic)
– حیوانات (Animals)
۲. تولید عکس از یک عکس دیگر (image to image)
درقابلیت عکس به عکس با دادن یک عکس به استیبل دیفیوژن و نوشتن یک پرامپت (متن) برای آن میتوانیم عکس جدیدی تولید کنیم که مربوط به متن ما و در عین حال الگو گرفته از عکسی است که به هوش مصنوعی دادیم.
در زیر یک نمونه از تبدیل نقاشیِ یک موز به یک موز فوتورئالیستی آورده شده است.
۳. ویرایش عکس
میتوانید با استفاده از inpainting بخشی از یک عکسی که با هوش مصنوعی تولید شده یا عکسی دیگر را بازتولید کنید. این موضوع شبیه به عملکرد جدید generative fill درفتوشاپ است، اما در فتوشاپ هم محدودیت زمانی و هم تعدادی داریم و باید پول پرداخت کنیم، اما در استیبل دیفیوژن کاملا رایگان وبدون هیچ محدودیت زمانی و تعدادی در تولید عکس می باشد.
۴. ساخت ویدئو
دو روش اصلی برای ساخت ویدئو با استیبل دیفیوژن وجود دارد: (۱) Deforum که در آن از یک پرامپت متنی برای ساخت ویدئو استفاده میکنیم (۲) از یک ویدئوی دیگر برای تولید یک ویدئوی جدید استفاده میکنیم.
- Deforum یک روش محبوب برای ساخت ویدئو از یک پرامپت متنی است. شاید در موردش شنیده باشید.
- روش دوم این است که یک ویدئو را با استفاده از استیبل دیفیوژن استایلدهی کنید.
این نکته مهم را هم اینجا باید خاطرنشان کنیم که تولید ویدئو با استیبل دیفیوژن یک موضوع پیشرفتهتر و کار حرفه ای تری است پس قبل از اینکه برای تولید ویدئو با استیبل دیفیوژن اقدام کنید بهتر است تولید تصویر از متن و تصویر به تصویر را به خوبی تمرین کرده باشید و یاد گرفته باشید.
چگونه از هوش مصنوعی استیبل دیفیوژن (Stable Diffusion) استفاده کنیم؟
برای کسایی که کاملا مبتدی هستند، من توصیه میکنم از یک تولیدکننده عکس (هوش مصنوعی) آنلاین رایگان استفاده کنید. میتوانید بدون دردسرِ تنظیمات سخت، شروع به تولید عکس کنید. نمونه هایی از این سرویس های آنلاین میتوان به سایت لئوناردو (Leonardo) اشاره کرد.
اما اگر میخواهید به صورت کاملا رایگان از استیبل دیفیوژن روی سیستم شخصی خودتان استفاده نمایید و از تمام امکانات آن بهره ببرید پیشنهاد میکنیم از رابط های کاربری مثل AUTOMATIC1111 و Fooocus استفاده کنید.
AUTOMATIC1111 یک رابط کاربری محبوب برای هوش مصنوعی استیبل دیفیوژن است. که به ۲ صورت میتوانید آن را اجرا کنید :
۱) اجرا بر روی سرورها و کارت گرافیک های ابری Google Colab (راهنمای نصب آن را از اینجا ببینید)
۲) اجرای آن روی کامپیوتر شخصی که اگر کامپیوتر مناسبی دارید گزینه خوبی است. (راهنمای نصب AUTOMATIC1111 برای ویندوز را ببینید.)
روشهای رایج برای رفع نقصها در تصاویر
وقتی تصاویر خیرهکنندهای از هوش مصنوعی در شبکههای اجتماعی به اشتراک گذاشته میشوند، احتمالاً مراحل پردازش های دوباره ای هم داشتند. یعنی اینکه تصویری که شما در فضای مجازی یا سایت ها میبینید لزوما خروجیِ یک پرامپت نیست و شاید دوباره و سه باره یا حتی بیشتر هوش مصنوعی روی تصویر اول کار کرده است تا به نتیجه نهایی رسیدیم. در این بخش به برخی از پردازش های بعد از تولید اولیه عکس میپردازیم.
بازسازی چهره
سمت چپ: تصویر اصلی. سمت راست: پس از بازسازی چهره.
در جامعه هنرمندان هوش مصنوعی تقریبا همه میدانند که استیبل دیفیوژن در تولید چهرهها خوب نیست. خیلی رایج است که چهرههای تولید شده توسط هوش مصنوعی دارای اشکالاتی باشند، فرم بد یا جزئیات بهم ریخته داشته باشند.
برای رفع این مشکل از مدلهای هوش مصنوعی استفاده میکنیم که مشخصا برای بازسازی چهرهها آموزش دیدهاند (train شدند) ، مثلاً CodeFormer که رابط کاربری AUTOMATIC1111 از آن پشتیبانی داخلی دارد. همچنین روش های دیگری نیز برای رفع این مشکل وجود دارد از جمله اینپینتیگ که در ادامه توضیح داده شده است.
رفع اشکالات کوچک با inpainting
بهدست آوردن تصویری که مد نظر دارید ، در اولین تلاش دشوار است. بهتر این است که عکسی با ترکیببندی و پرامپت خوب تولید کنید. سپس اشکالات عکس را با inpainting اصلاح کنید.
در زیر مثالی از تصویر قبل و بعد از inpainting آورده شده است. استفاده از همان پرامپتِ اصلی برای inpainting ، نود درصد مواقع جواب میدهد.
سمت چپ: تصویر اصلی با این ایراد است که شخص اضافی در تصویر داریم که نمیخواستیم وجود داشته باشد. سمت راست: این شخص اضافی با inpainting حذف و در واقع پس زمینه به طور هوشمند به عکس ما اضافه شده است.
روشهای دیگری نیز برای رفع اشکالات در عکس وجود دارد.
پرامپتهای منفی
شما آنچه را که میخواهید ببینید در پرامپت قرار میدهید وآنچه را که نمیخواهید ببینید در پرامپت منفی قرار میدهید. همه مدلهای استیبل دیفیوژن از پرامپتهای منفی پشتیبانی نمیکنند. اما برای مدلهای v1 مناسبند و برای مدلهای v2 ضروری هستند. برای یک شخص مبتدی استفاده از یک پرامپت منفیِ عمومی ضرری ندارد.
چگونه با استیبل دیفیوژن (Stable Diffusion) تصاویر بزرگ چاپ کنیم؟
اندازه اصلی استیبل دیفیوژن یا همان native resolution برای مدلهای ورژن ۱، ۵۱۲*۵۱۲ پیکسل است. شما نباید در مدل های استیبل دیفیوژن که برا پایه ورژن ۱.۵ ساخته شده اند، تصاویری با عرض و ارتفاعی که بیش از حد از ۵۱۲ بزرگتر هستند استفاده کنید. از تنظیمات اندازه زیر برای تولید تصویر اولیه استفاده کنید.
-تصویر منظره: ارتفاع را ۵۱۲ پیکسل تنظیم کنید. عرض را بالاتر تنظیم کنید، مثلاً ۷۶۸ پیکسل (نسبت ابعاد ۲:۳)
– تصویر پرتره: عرض را به ۵۱۲ پیکسل تنظیم کنید. ارتفاع را بالاتر تنظیم کنید، مثلاً ۷۶۸ پیکسل (نسبت ابعاد ۳:۲)
اگر عرض و ارتفاع اولیه را خیلی بالا تنظیم کنید، سوژه های تکراری مشاهده خواهید کرد.(مثلا ۲ سر دو بدن یا بیشتر).
گام بعدی بزرگنمایی یا Upscale تصویر است. رابط کاربری رایگان AUTOMATIC1111 از برخی از بزرگ کننده های (Upscalers) محبوب هوش مصنوعی پشتیبانی میکند.
چگونه ترکیببندی تصویر را کنترل کنیم؟
هوش مصنوعی استیبل دیفیوژن به سرعت در حال پیشرفت است. چند راه برای این کار وجود دارد.
تصویر به تصویر
شما میتوانید از استیبل دیفیوژن بخواهید که تقریباً از یک تصویر ورودی(input image) هنگام تولید یک تصویر جدید الگو بگیرد. به اینکار، تصویر به تصویر میگویند. در زیر مثالی از استفاده از تصویر ورودی یک عقاب برای تولید یک اژدها آورده شده است. ترکیببندی تصویر خروجی از تصویر ورودی الگو میگیرد.
عمق به تصویر (Depth-to-image)
عمق به تصویر یک روش دیگر برای کنترل ترکیببندی از طریق یک تصویر ورودی است. میتواند پیشزمینه و پسزمینه تصویر ورودی را تشخیص دهد. تصویر خروجی از همان پیشزمینه و پسزمینه پیروی خواهد کرد. در زیر مثالی آورده شده است.
تولید موضوعات خاص
افراد واقعی
میتوانید با استفاده از استیبل دیفیوژن افرادی با سبک عکاسی واقعی تولید کنید. بیایید چند نمونه را ببینیم.
این موضوع به استفاده از پرامپت مناسب و مدل خاصی که برای تولید انسانهای واقعی با سبک عکاسی آموزش دیده است (train شده است)، بستگی دارد. یعنی شما برای تولید عکسی که به سبک تصاویر واقعی باشد باید از مدلی استفاده کنید که به طور خاص برای تولید چنین عکس هایی train شده یا آموزش دیده است.
حیوانات
حیوانات موضوعات محبوبی در بین کاربران استیبل دیفیوژن هستند.
در اینجا چند نمونه آورده شده است.