استیبل دیفیوژن چیست و چطور از آن استفاده کنیم؟

آیا می‌خواهید یاد بگیرید چگونه با هوش مصنوعی استیبل دیفیوژن کار کنید؟ این یک راهنمای مقدماتی برای افرادی است که هیچ تجربه‌ای از کار با استیبل دیفیوژن یا سایر هوش مصنوعی های تولیدکننده تصویر ندارند. در این مقاله به صورت کلی با استیبل دیفیوژن آشنا خواهید شد و نکات پایه ای را یاد میگیرید.

استیبل دیفیوژن (Stable Diffusion) چیست؟

هوش مصنوعی استیبل دیفیوژن یک نرم افزار برای تولید تصاویر با استفاده از هوش مصنوعی است. تصاویری که این هوش مصنوعی می سازد می‌توانند فتورئالیستی (عکس‌های واقعی) باشند، مانند تصاویری که با دوربین گرفته شده‌اند، یا در سبک هنری به‌گونه‌ای که توسط یک هنرمند حرفه‌ای خلق شده‌اند.

بهترین بخش استیبل دیفیوژن این است که این نرم‌افزار رایگان است و می‌توانید آن را روی کامپیوتر خود اجرا کنید.‌

چگونه از استیبل دیفیوژن (Stable Diffusion) استفاده کنیم؟

برای ساخت تصویر با استیبل دیفیوژن، بعد از نصب و راه اندازی آن باید به آن یک پرامپت (متن) بدهید که تصویر مورد نظرتان را به صورت کامل و دقیق توصیف کند. برای مثال:

chocolate house, in focus, blur background

خانه شکلاتی، در فوکوس، پس‌زمینه بلور،

استیبل دیفیوژن این پرامپت را به تصاویری مانند تصاویر زیر تبدیل می‌کند.

می‌توانید هرچقدر که میخواهید با این پرامپت تصاویر مختلفی را تولید کنید.

مزایای استیبل دیفیوژن (Stable Diffusion) چیست؟

هوش مصنوعی های مختلفی برای تبدیل متن به عکس وجود دارند مانند DALLE و MidJourney.

اما چرا استیبل دیفیوژن؟

مزایای هوش مصنوعی استیبل دیفیوژن عبارتند از:

– (Open source) منبع باز: به علت خاصیت متن باز بودن این هوش مصنوعی، مدل ها و ابزار های بسیار زیادی توسط بقیه افراد برای استیبل دیفیوژن ساخته شده است. این قضیه انعطاف و قدرت بینظیری برای این هوش مصنوعی ایجاد کرده است.

– طراحی شده برای کامپیوتر‌های نسبتا ضعیف: اجرای آن رایگان یا خیلی ارزان می باشد.

آیا استیبل دیفیوژن (Stable Diffusion) رایگان است؟

استیبل دیفیوژن را زمانی که روی کامپیوتر‌های شخصی (ویندوز یا مک) خود اجرا می‌کنید رایگان است. اما اگر سیستم شخصی شما سخت افزار بسیار ضعیف و قدیمی دارد که توانایی اجرای استیبل دیفیوژن را نداشته باشد، باید از سرویس‌های اینترنتی که کارت گرافیک ابری به شما اجاره می دهند استفاده کنید. استفاده از این سرویس‌ها (کارت گرافیک‌های ابری) آنلاین تقریبا هزینه کمی دارد.

استیبل دیفیوژن (Stable Diffusion) چه کاری می‌تواند انجام دهد؟

۱. تولید تصویر از متن (text to image)

مهمترین استفاده از استیبل دیفیوژن تولید تصویر از متن (txt2img) است. در اینجا چند نمونه از تصاویری که می‌توانید با استیبل دیفیوژن تولید کنید آورده شده است.

– سبک انیمه (Anime)

– سبک Photorealistic (عکس واقعی)

– منظره (Landscape)

– فانتزی (Fantasy)

– سبک هنری (Artistic)

– حیوانات (Animals)

۲. تولید عکس از یک عکس دیگر (image to image)

درقابلیت عکس به عکس با دادن یک عکس به استیبل دیفیوژن و نوشتن یک پرامپت (متن) برای آن میتوانیم عکس جدیدی تولید کنیم که مربوط به متن ما و در عین حال الگو گرفته از عکسی است که به هوش مصنوعی دادیم.

در زیر یک نمونه از تبدیل نقاشیِ یک موز به یک موز فوتورئالیستی آورده شده است.

۳. ویرایش عکس

می‌توانید با استفاده از inpainting بخشی از یک عکسی که با هوش مصنوعی تولید شده یا عکسی دیگر را بازتولید کنید. این موضوع شبیه به عملکرد جدید generative fill درفتوشاپ است، اما در فتوشاپ هم محدودیت زمانی و هم تعدادی داریم و باید پول پرداخت کنیم، اما در استیبل دیفیوژن کاملا رایگان وبدون هیچ محدودیت زمانی و تعدادی در تولید عکس می باشد.

۴. ساخت ویدئو

دو روش اصلی برای ساخت ویدئو با استیبل دیفیوژن وجود دارد: (۱) Deforum که در آن از یک پرامپت متنی برای ساخت ویدئو استفاده میکنیم (۲) از یک ویدئوی دیگر برای تولید یک ویدئوی جدید استفاده میکنیم.

Deforum یک روش محبوب برای ساخت ویدئو از یک پرامپت متنی است. شاید در موردش شنیده باشید.
روش دوم این است که یک ویدئو را با استفاده از استیبل دیفیوژن استایل‌دهی کنید.

این نکته مهم را هم اینجا باید خاطرنشان کنیم که تولید ویدئو با استیبل دیفیوژن یک موضوع پیشرفته‌تر و کار حرفه ای تری است پس قبل از اینکه برای تولید ویدئو با استیبل دیفیوژن اقدام کنید بهتر است تولید تصویر از متن و تصویر به تصویر را به خوبی تمرین کرده باشید و یاد گرفته باشید.

چگونه از هوش مصنوعی استیبل دیفیوژن (Stable Diffusion) استفاده کنیم؟

برای کسایی که کاملا مبتدی هستند، من توصیه می‌کنم از یک تولیدکننده عکس (هوش مصنوعی) آنلاین رایگان استفاده کنید. می‌توانید بدون دردسرِ تنظیمات سخت، شروع به تولید عکس کنید. نمونه هایی از این سرویس های آنلاین میتوان به سایت لئوناردو (Leonardo) اشاره کرد.

اما اگر میخواهید به صورت کاملا رایگان از استیبل دیفیوژن روی سیستم شخصی خودتان استفاده نمایید و از تمام امکانات آن بهره ببرید پیشنهاد میکنیم از رابط های کاربری مثل AUTOMATIC1111 و Fooocus استفاده کنید.

AUTOMATIC1111 یک رابط کاربری محبوب برای هوش مصنوعی استیبل دیفیوژن است. که به ۲ صورت میتوانید آن را اجرا کنید :

۱) اجرا بر روی سرورها و کارت گرافیک های ابری Google Colab (راهنمای نصب آن را از اینجا ببینید)

۲) اجرای آن روی کامپیوتر شخصی که اگر کامپیوتر مناسبی دارید گزینه خوبی است. (راهنمای نصب AUTOMATIC1111 برای ویندوز را ببینید.)

روش‌های رایج برای رفع نقص‌ها در تصاویر

وقتی تصاویر خیره‌کننده‌ای از هوش مصنوعی در شبکه‌های اجتماعی به اشتراک گذاشته می‌شوند، احتمالاً مراحل پردازش های دوباره ای هم داشتند. یعنی اینکه تصویری که شما در فضای مجازی یا سایت ها میبینید لزوما خروجیِ یک پرامپت نیست و شاید دوباره و سه باره یا حتی بیشتر هوش مصنوعی روی تصویر اول کار کرده است تا به نتیجه نهایی رسیدیم. در این بخش به برخی از پردازش های بعد از تولید اولیه عکس میپردازیم.

بازسازی چهره

سمت چپ: تصویر اصلی. سمت راست: پس از بازسازی چهره.

در جامعه هنرمندان هوش مصنوعی تقریبا همه میدانند که استیبل دیفیوژن در تولید چهره‌ها خوب نیست. خیلی رایج است که چهره‌های تولید شده توسط هوش مصنوعی دارای اشکالاتی باشند، فرم بد یا جزئیات بهم ریخته داشته باشند.

برای رفع این مشکل از مدل‌های هوش مصنوعی استفاده میکنیم که مشخصا برای بازسازی چهره‌ها آموزش دیده‌اند (train شدند) ، مثلاً CodeFormer که رابط کاربری AUTOMATIC1111 از آن پشتیبانی داخلی دارد. همچنین روش های دیگری نیز برای رفع این مشکل وجود دارد از جمله اینپینتیگ که در ادامه توضیح داده شده است.

رفع اشکالات کوچک با inpainting

به‌دست آوردن تصویری که مد نظر دارید ، در اولین تلاش دشوار است. بهتر این است که عکسی با ترکیب‌بندی و پرامپت خوب تولید کنید. سپس اشکالات عکس را با inpainting اصلاح کنید.

در زیر مثالی از تصویر قبل و بعد از inpainting آورده شده است. استفاده از همان پرامپتِ اصلی برای inpainting ، نود درصد مواقع جواب میدهد.

سمت چپ: تصویر اصلی با این ایراد است که شخص اضافی در تصویر داریم که نمیخواستیم وجود داشته باشد. سمت راست: این شخص اضافی با inpainting حذف و در واقع پس زمینه به طور هوشمند به عکس ما اضافه شده‌ است.

روش‌های دیگری نیز برای رفع اشکالات در عکس وجود دارد.

پرامپت‌های منفی

شما آنچه را که می‌خواهید ببینید در پرامپت قرار می‌دهید وآنچه را که نمی‌خواهید ببینید در پرامپت منفی قرار می‌دهید. همه مدل‌های استیبل دیفیوژن از پرامپت‌های منفی پشتیبانی نمی‌کنند. اما برای مدل‌های v1 مناسبند و برای مدل‌های v2 ضروری هستند. برای یک شخص مبتدی استفاده از یک پرامپت منفیِ عمومی ضرری ندارد.

چگونه با استیبل دیفیوژن (Stable Diffusion) تصاویر بزرگ چاپ کنیم؟

اندازه اصلی استیبل دیفیوژن یا همان native resolution برای مدل‌های ورژن ۱، ۵۱۲*۵۱۲ پیکسل است. شما نباید در مدل های استیبل دیفیوژن که برا پایه ورژن ۱.۵ ساخته شده اند، تصاویری با عرض و ارتفاعی که بیش از حد از ۵۱۲ بزرگتر هستند استفاده کنید. از تنظیمات اندازه زیر برای تولید تصویر اولیه استفاده کنید.

-تصویر منظره: ارتفاع را ۵۱۲ پیکسل تنظیم کنید. عرض را بالاتر تنظیم کنید، مثلاً ۷۶۸ پیکسل (نسبت ابعاد ۲:۳)

– تصویر پرتره: عرض را به ۵۱۲ پیکسل تنظیم کنید. ارتفاع را بالاتر تنظیم کنید، مثلاً ۷۶۸ پیکسل (نسبت ابعاد ۳:۲)

اگر عرض و ارتفاع اولیه را خیلی بالا تنظیم کنید، سوژه های تکراری مشاهده خواهید کرد.(مثلا ۲ سر دو بدن یا بیشتر).

گام بعدی بزرگ‌نمایی یا Upscale تصویر است. رابط کاربری رایگان AUTOMATIC1111 از برخی از بزرگ کننده های (Upscalers) محبوب هوش مصنوعی پشتیبانی میکند.

چگونه ترکیب‌بندی تصویر را کنترل کنیم؟

هوش مصنوعی استیبل دیفیوژن به سرعت در حال پیشرفت است. چند راه برای این کار وجود دارد.

تصویر به تصویر

شما می‌توانید از استیبل دیفیوژن بخواهید که تقریباً از یک تصویر ورودی(input image) هنگام تولید یک تصویر جدید الگو بگیرد. به اینکار، تصویر به تصویر می‌گویند. در زیر مثالی از استفاده از تصویر ورودی یک عقاب برای تولید یک اژدها آورده شده است. ترکیب‌بندی تصویر خروجی از تصویر ورودی الگو میگیرد.

عمق به تصویر (Depth-to-image)

عمق به تصویر یک روش دیگر برای کنترل ترکیب‌بندی از طریق یک تصویر ورودی است. می‌تواند پیش‌زمینه و پس‌زمینه تصویر ورودی را تشخیص دهد. تصویر خروجی از همان پیش‌زمینه و پس‌زمینه پیروی خواهد کرد. در زیر مثالی آورده شده است.

تولید موضوعات خاص

افراد واقعی

می‌توانید با استفاده از استیبل دیفیوژن افرادی با سبک عکاسی واقعی تولید کنید. بیایید چند نمونه را ببینیم.

این موضوع به استفاده از پرامپت مناسب و مدل خاصی که برای تولید انسان‌های واقعی با سبک عکاسی آموزش دیده است (train شده است)، بستگی دارد. یعنی شما برای تولید عکسی که به سبک تصاویر واقعی باشد باید از مدلی استفاده کنید که به طور خاص برای تولید چنین عکس هایی train شده یا آموزش دیده است.

حیوانات

حیوانات موضوعات محبوبی در بین کاربران استیبل دیفیوژن هستند.

در اینجا چند نمونه آورده شده است.