Stable Diffusion: Perbedaan antara revisi
Mengganti Astronaut_Riding_a_Horse_(SD_3.5).webp dengan Astronaut_Riding_a_Horse_(SD3.5).webp (berkas dipindahkan oleh CommonsDelinker; alasan: File renamed: [[: |
|||
(18 revisi perantara oleh 4 pengguna tidak ditampilkan) | |||
Baris 4: | Baris 4: | ||
| logo = |
| logo = |
||
| logo caption = |
| logo caption = |
||
| screenshot = Astronaut Riding a Horse ( |
| screenshot = Astronaut Riding a Horse (SD3.5).webp |
||
| screenshot size = 250px |
| screenshot size = 250px |
||
| caption = Sebuah gambar yang dihasilkan oleh Stable Diffusion berdasarkan kalimat "Sebuah foto astronot mengendarai seekor kuda" |
| caption = Sebuah gambar yang dihasilkan oleh Stable Diffusion berdasarkan kalimat "Sebuah foto astronot mengendarai seekor kuda" |
||
Baris 10: | Baris 10: | ||
| developer = Stability AI |
| developer = Stability AI |
||
| released = 22 Agustus 2022 |
| released = 22 Agustus 2022 |
||
| latest release version = |
| latest release version = SD 3.5 (model)<ref name="release-sd3.5">{{cite web|url=https://stability.ai/news/introducing-stable-diffusion-3-5|title=Stable Diffusion 3.5|website=stability.ai|access-date=October 23, 2024|archive-date=October 23, 2024|archive-url=https://archive.today/20241023040750/https://stability.ai/news/introducing-stable-diffusion-3-5|url-status=live}}</ref> |
||
| latest release date = |
| latest release date = 23 Oktober 2024 |
||
| repo = {{url|https://github.com/Stability-AI/stablediffusion}} |
| repo = {{url|https://github.com/Stability-AI/stablediffusion}} |
||
| programming language = [[Python (programming language)|Python]]<ref>{{cite web |author1 = Ryan O'Connor | title = How to Run Stable Diffusion Locally to Generate Images | url = https://www.assemblyai.com/blog/how-to-run-stable-diffusion-locally-to-generate-images/ | access-date = May 4, 2023 | date = August 23, 2022}}</ref> |
| programming language = [[Python (programming language)|Python]]<ref>{{cite web |author1 = Ryan O'Connor | title = How to Run Stable Diffusion Locally to Generate Images | url = https://www.assemblyai.com/blog/how-to-run-stable-diffusion-locally-to-generate-images/ | access-date = May 4, 2023 | date = August 23, 2022}}</ref> |
||
Baris 20: | Baris 20: | ||
}} |
}} |
||
'''Stable Diffusion''' adalah sebuah [[model teks-ke-gambar]], bagian dari [[pemelajaran dalam]] |
'''Stable Diffusion''' adalah sebuah [[model teks-ke-gambar]] berbasis [[kecerdasan buatan]], bagian dari [[pemelajaran dalam]] yang dirilis pada tahun 2022.<ref>{{Cite web|last=Setiyawan|first=Iwan|date=2023-03-06|title=Hak Cipta dan Kebebasan Berkarya di AI|url=https://www.kompas.id/baca/foto/2023/03/04/hak-cipta-dan-kebebasan-berkarya-di-ai|website=kompas.id|language=id|access-date=2023-08-18}}</ref> Umumnya digunakan untuk menghasilkan gambar berdasarkan deskripsi teks, namun dapat juga digunakan untuk hal terkait seperti teknik inpainting, outpainting, dan menghasilkan keluaran gambar-ke-gambar yang dipandu oleh [[perintah kalimat]].<ref name=":0">{{Cite web|title=Diffuse The Rest - a Hugging Face Space by huggingface|url=https://huggingface.co/spaces/huggingface/diffuse-the-rest|website=huggingface.co|archive-url=https://web.archive.org/web/20220905141431/https://huggingface.co/spaces/huggingface/diffuse-the-rest|archive-date=2022-09-05|access-date=2022-09-05|url-status=live}}</ref> Model Ini dikembangkan oleh para peneliti dari kelompok CompVis di [[Universitas Ludwig Maximilian München]] dan Runway dengan dukungan komputasi oleh Stability AI dan kumpulan data latih dari sejumlah organisasi nirlaba.<ref name="sifted_financialtimes">{{Cite web|title=Leaked deck raises questions over Stability AI's Series A pitch to investors|url=https://sifted.eu/articles/stability-ai-fundraise-leak|website=sifted.eu|access-date=2023-06-20|url-status=live}}</ref><ref name="lmu_lauch">{{Cite web|title=Revolutionizing image generation by AI: Turning text into images|url=https://www.lmu.de/en/newsroom/news-overview/news/revolutionizing-image-generation-by-ai-turning-text-into-images.html|website=www.lmu.de|access-date=2023-06-21|url-status=live}}</ref><ref>{{Cite web|last=Mostaque|first=Emad|date=November 2, 2022|title=Stable Diffusion came from the Machine Vision & Learning research group (CompVis) @LMU_Muenchen|url=https://twitter.com/EMostaque/status/1587844074064822274?lang=en|website=Twitter|language=en|access-date=2023-06-22|url-status=live}}</ref> |
||
Stable Diffusion adalah model difusi laten, sebuah jenis jaringan |
Stable Diffusion adalah model difusi laten, sebuah jenis [[jaringan saraf tiruan]] generatif. Bobot kode dan modelnya telah dirilis secara publik,<ref name="stable-diffusion-github">{{Cite web|date=17 September 2022|title=Stable Diffusion Repository on GitHub|url=https://github.com/CompVis/stable-diffusion|publisher=CompVis - Machine Vision and Learning Research Group, LMU Munich|access-date=17 September 2022}}</ref> dan dapat berjalan di sebagian besar perangkat keras tipe konsumen yang dilengkapi dengan [[Unit pemroses grafis|kartu grafis]] sederhana dengan minimal kapasitas memori grafis sebesar 8 GB. Ini berbeda dari model teks-ke-gambar sebelumnya seperti [[DALL-E]] dan [[Midjourney]] yang hanya dapat diakses melalui [[Komputasi awan|layanan komputasi awan]].<ref name="pcworld">{{Cite web|title=The new killer app: Creating AI art will absolutely crush your PC|url=https://www.pcworld.com/article/916785/creating-ai-art-local-pc-stable-diffusion.html|website=PCWorld|archive-url=https://web.archive.org/web/20220831065139/https://www.pcworld.com/article/916785/creating-ai-art-local-pc-stable-diffusion.html|archive-date=2022-08-31|access-date=2022-08-31|url-status=live}}</ref> |
||
== Sejarah pengembangan == |
== Sejarah pengembangan == |
||
Pengembangan Stable Diffusion didanai dan didukung oleh perusahaan rintisan Stability AI.<ref name="forbes">{{Cite web|title=The AI Founder Taking Credit For Stable Diffusion's Success Has A History Of Exaggeration|url=https://www.forbes.com/sites/kenrickcai/2023/06/04/stable-diffusion-emad-mostaque-stability-ai-exaggeration/?sh=347a8fcb75c5|website=www.forbes.com|access-date=2023-06-20|url-status=live}}</ref><ref name="CNN-Getty2">{{Cite web|last=Korn|first=Jennifer|date=2023-01-17|title=Getty Images suing the makers of popular AI art tool for allegedly stealing photos|url=https://www.cnn.com/2023/01/17/tech/getty-images-stability-ai-lawsuit/index.html|website=CNN|language=en|access-date=2023-01-22}}</ref> Lisensi teknis untuk model tersebut dirilis oleh kelompok CompVis di Universitas Ludwig Maximilian München. Pengembangan dipimpin oleh Patrick Esser dari Runway dan Robin Rombach dari CompVis, yang termasuk di antara para peneliti yang sebelumnya menemukan arsitektur model difusi laten yang digunakan oleh Stable Diffusion. |
Pengembangan Stable Diffusion didanai dan didukung oleh perusahaan rintisan Stability AI.<ref name="forbes">{{Cite web|title=The AI Founder Taking Credit For Stable Diffusion's Success Has A History Of Exaggeration|url=https://www.forbes.com/sites/kenrickcai/2023/06/04/stable-diffusion-emad-mostaque-stability-ai-exaggeration/?sh=347a8fcb75c5|website=www.forbes.com|access-date=2023-06-20|url-status=live}}</ref><ref name="CNN-Getty2">{{Cite web|last=Korn|first=Jennifer|date=2023-01-17|title=Getty Images suing the makers of popular AI art tool for allegedly stealing photos|url=https://www.cnn.com/2023/01/17/tech/getty-images-stability-ai-lawsuit/index.html|website=CNN|language=en|access-date=2023-01-22}}</ref> Lisensi teknis untuk model tersebut dirilis oleh kelompok CompVis di Universitas Ludwig Maximilian München. Pengembangan dipimpin oleh Patrick Esser dari Runway dan Robin Rombach dari CompVis, yang termasuk di antara para peneliti yang sebelumnya menemukan arsitektur model difusi laten yang digunakan oleh Stable Diffusion. Stability AI juga memberikan apresiasi terhadap [[EleutherAI]] dan [[LAION]] (organisasi nirlaba [[Jerman]] yang mengumpulkan kumpulan data tempat pelatihan Stable Diffusion) sebagai pendukung proyek. |
||
Pada Oktober 2022, Stability AI berhasil mengumpulkan US$101 juta dalam program pendanaan yang dipimpin oleh Lightspeed Venture Partners dan Coatue Management.<ref>{{Cite web|last=Wiggers|first=Kyle|date=17 October 2022|title=Stability AI, the startup behind Stable Diffusion, raises $101M|url=https://techcrunch.com/2022/10/17/stability-ai-the-startup-behind-stable-diffusion-raises-101m/|website=Techcrunch|language=en|access-date=2022-10-17}}</ref> |
Pada Oktober 2022, Stability AI berhasil mengumpulkan US$101 juta dalam program pendanaan yang dipimpin oleh Lightspeed Venture Partners dan Coatue Management.<ref>{{Cite web|last=Wiggers|first=Kyle|date=17 October 2022|title=Stability AI, the startup behind Stable Diffusion, raises $101M|url=https://techcrunch.com/2022/10/17/stability-ai-the-startup-behind-stable-diffusion-raises-101m/|website=Techcrunch|language=en|access-date=2022-10-17}}</ref> |
||
Baris 32: | Baris 32: | ||
== Teknologi == |
== Teknologi == |
||
[[Berkas:Stable_Diffusion_architecture.png|ka|jmpl| Diagram arsitektur difusi laten yang digunakan oleh Stable Diffusion]] |
[[Berkas:Stable_Diffusion_architecture.png|ka|jmpl| Diagram arsitektur difusi laten yang digunakan oleh Stable Diffusion]] |
||
[[Berkas:X-Y_plot_of_algorithmically-generated_AI_art_of_European-style_castle_in_Japan_demonstrating_DDIM_diffusion_steps.png|ka|jmpl|300x300px| Proses denoising yang digunakan |
[[Berkas:X-Y_plot_of_algorithmically-generated_AI_art_of_European-style_castle_in_Japan_demonstrating_DDIM_diffusion_steps.png|ka|jmpl|300x300px| Proses denoising yang digunakan oleh Stable Diffusion. Model menghasilkan gambar dengan denoise acak secara iteratif hingga sejumlah langkah telah tercapai, dipandu oleh enkoder teks CLIP, menghasilkan gambar yang diinginkan yang menggambarkan representasi dari konsep terlatih.]] |
||
=== Arsitektur === |
=== Arsitektur === |
||
Baris 38: | Baris 38: | ||
Stable Diffusion menggunakan sebuah jenis model difusi yang disebut model difusi laten yang dikembangkan oleh kelompok CompVis di Universitas Ludwig Maximilian München.<ref name="stable-diffusion-github">{{Cite web|date=17 September 2022|title=Stable Diffusion Repository on GitHub|url=https://github.com/CompVis/stable-diffusion|publisher=CompVis - Machine Vision and Learning Research Group, LMU Munich|access-date=17 September 2022}}</ref> |
Stable Diffusion menggunakan sebuah jenis model difusi yang disebut model difusi laten yang dikembangkan oleh kelompok CompVis di Universitas Ludwig Maximilian München.<ref name="stable-diffusion-github">{{Cite web|date=17 September 2022|title=Stable Diffusion Repository on GitHub|url=https://github.com/CompVis/stable-diffusion|publisher=CompVis - Machine Vision and Learning Research Group, LMU Munich|access-date=17 September 2022}}</ref> |
||
Dengan 860 juta parameter di U-Net dan 123 juta di enkoder teks, Stable Diffusion dianggap relatif ringan menurut standar tahun 2022, dan tidak seperti model difusi lainnya, model ini dapat berjalan pada kartu grafis tipe konsumen. |
Dengan 860 juta parameter di U-Net dan 123 juta di enkoder teks, Stable Diffusion dianggap relatif ringan menurut standar tahun 2022, dan tidak seperti model difusi lainnya, model ini dapat berjalan pada kartu grafis tipe konsumen.<ref>{{Cite web|title=Stable diffusion pipelines|url=https://huggingface.co/docs/diffusers/v0.5.1/en/api/pipelines/stable_diffusion|website=huggingface.co}}</ref> |
||
=== Data latih === |
=== Data latih === |
||
Stable Diffusion dilatih pada pasangan gambar dan teks yang diambil dari LAION-5B, sebuah kumpulan data yang tersedia untuk umum yang berasal dari data [[Common Crawl]] yang diambil dari web, di mana 5 miliar pasangan gambar-teks diklasifikasikan berdasarkan bahasa dan disaring ke dalam kumpulan data terpisah berdasarkan resolusi, kemungkinan terdapatnya [[Penandaairan digital|tanda air digital]], dan skor "estetika" yang diprediksi (misalnya kualitas visual secara subjektif). <ref name="Waxy">{{Cite web|last=Baio|first=Andy|date=2022-08-30|title=Exploring 12 Million of the 2.3 Billion Images Used to Train Stable Diffusion's Image Generator|url=https://waxy.org/2022/08/exploring-12-million-of-the-images-used-to-train-stable-diffusions-image-generator/|website=Waxy.org|language=en-US|access-date=2022-11-02}}</ref> Kumpulan data ini dibuat oleh [[LAION]], organisasi nirlaba Jerman yang menerima dana dari Stability AI. |
Stable Diffusion dilatih pada pasangan gambar dan teks yang diambil dari LAION-5B, sebuah kumpulan data yang tersedia untuk umum yang berasal dari data [[Common Crawl]] yang diambil dari web, di mana 5 miliar pasangan gambar-teks diklasifikasikan berdasarkan bahasa dan disaring ke dalam kumpulan data terpisah berdasarkan resolusi, kemungkinan terdapatnya [[Penandaairan digital|tanda air digital]], dan skor "estetika" yang diprediksi (misalnya kualitas visual secara subjektif). <ref name="Waxy">{{Cite web|last=Baio|first=Andy|date=2022-08-30|title=Exploring 12 Million of the 2.3 Billion Images Used to Train Stable Diffusion's Image Generator|url=https://waxy.org/2022/08/exploring-12-million-of-the-images-used-to-train-stable-diffusions-image-generator/|website=Waxy.org|language=en-US|access-date=2022-11-02}}</ref> Kumpulan data ini dibuat oleh [[LAION]], organisasi nirlaba Jerman yang menerima dana dari Stability AI.<ref name="Waxy" /><ref>{{Cite web|title=This artist is dominating AI-generated art. And he's not happy about it.|url=https://www.technologyreview.com/2022/09/16/1059598/this-artist-is-dominating-ai-generated-art-and-hes-not-happy-about-it/|website=MIT Technology Review|language=en|access-date=2022-11-02}}</ref> Model Stable Diffusion dilatih pada tiga [[himpunan bagian]] LAION-5B yaitu laion2B-en, laion-high-resolution, dan laion-aesthetics v2 5+.<ref name="Waxy" /> Analisis pihak ketiga terhadap data latih model menunjukan sekitar 47% dari ukuran sampel gambar berasal dari 100 domain web berbeda, dengan [[Pinterest]] mengambil 8,5% bagian, diikuti oleh situs web seperti [[WordPress]], [[Blogger (layanan)|Blogspot]], [[Flickr]], [[DeviantArt]], dan [[Wikimedia Commons]].<ref>{{Cite web|last=Ivanovs|first=Alex|date=2022-09-08|title=Stable Diffusion: Tutorials, Resources, and Tools|url=https://stackdiary.com/stable-diffusion-resources/|website=Stack Diary|language=en-US|access-date=2022-11-02}}</ref><ref name="Waxy" /> |
||
=== Prosedur pelatihan === |
=== Prosedur pelatihan === |
||
Baris 49: | Baris 49: | ||
=== Keterbatasan === |
=== Keterbatasan === |
||
Stable Diffusion memiliki masalah dengan degradasi dan ketidakakuratan dalam skenario tertentu. Rilis awal model ini dilatih pada kumpulan data yang terdiri dari gambar beresolusi 512×512, yang berarti bahwa kualitas gambar yang dihasilkan menurun drastis saat spesifikasi pengguna menyimpang dari resolusi 512×512 yang "diharapkan";<ref name="diffusers">{{Cite web|title=Stable Diffusion with 🧨 Diffusers|url=https://huggingface.co/blog/stable_diffusion|website=huggingface.co|access-date=2022-10-31}}</ref> |
Stable Diffusion memiliki masalah dengan degradasi dan ketidakakuratan dalam skenario tertentu. Rilis awal model ini dilatih pada kumpulan data yang terdiri dari gambar beresolusi 512×512, yang berarti bahwa kualitas gambar yang dihasilkan menurun drastis saat spesifikasi pengguna menyimpang dari resolusi 512×512 yang "diharapkan";<ref name="diffusers">{{Cite web|title=Stable Diffusion with 🧨 Diffusers|url=https://huggingface.co/blog/stable_diffusion|website=huggingface.co|access-date=2022-10-31}}</ref> versi 2.0 dari model Stable Diffusion kemudian memperkenalkan kemampuan untuk menghasilkan gambar secara alami pada resolusi 768×768.<ref name="release2.0">{{Cite web|title=Stable Diffusion 2.0 Release|url=https://stability.ai/blog/stable-diffusion-v2-release|website=stability.ai|archive-url=https://web.archive.org/web/20221210062729/https://stability.ai/blog/stable-diffusion-v2-release|archive-date=December 10, 2022|url-status=live}}</ref> Tantangan lain adalah dalam menghasilkan anggota tubuh manusia karena kualitas data anggota tubuh yang buruk di data LAION (umumnya terlihat pada tangan).<ref>{{Cite web|title=LAION|url=https://laion.ai/|website=laion.ai|language=en|access-date=2022-10-31}}</ref> Keterbatasan pada Stable Diffusion mulai diatasi secara perlahan dengan model versi SDXL yang dirilis pada tanggal 26 Juli 2023, SDXL mendukung gambar beresolusi 1024x1024 dan menghasilkan anggota tubuh dan teks yang lebih sempurna.<ref>{{Cite web|title=Announcing SDXL 1.0|url=https://stability.ai/blog/stable-diffusion-sdxl-1-announcement|website=Stability AI|language=en-GB|access-date=2023-08-18}}</ref> |
||
Keterjangkauan untuk pengembang individu juga bisa menjadi masalah. Untuk menyesuaikan model untuk kasus penggunaan baru yang tidak termasuk dalam kumpulan data, seperti membuat karakter [[anime]] ("waifu difusion"), |
Keterjangkauan untuk pengembang individu juga bisa menjadi masalah. Untuk menyesuaikan model untuk kasus penggunaan baru yang tidak termasuk dalam kumpulan data, seperti membuat karakter [[anime]] ("waifu difusion"),<ref>{{Cite web|title=hakurei/waifu-diffusion · Hugging Face|url=https://huggingface.co/hakurei/waifu-diffusion|website=huggingface.co|access-date=2022-10-31}}</ref> data baru dan pelatihan lebih lanjut diperlukan. Adaptasi penyempurnaan terhadap Stable Diffusion yang dibuat melalui pelatihan ulang tambahan telah digunakan untuk berbagai kasus penggunaan yang berbeda, mulai dari pencitraan medis hingga [[Riffusion|musik yang dihasilkan dengan algoritma]].<ref>{{Cite web|last=Seth Forsgren|last2=Hayk Martiros|title=Riffusion - Stable diffusion for real-time music generation|url=https://www.riffusion.com/about|website=Riffusion|archive-url=https://web.archive.org/web/20221216092717/https://www.riffusion.com/about|archive-date=December 16, 2022|url-status=live}}</ref> Namun, proses penyempurnaan ini sensitif terhadap kualitas data baru; gambar beresolusi rendah atau resolusi yang berbeda dari data asli tidak hanya dapat gagal mempelajari tugas baru tetapi juga menurunkan kinerja model secara keseluruhan. Bahkan ketika model dilatih lebih lanjut terhadap kumpulan gambar berkualitas tinggi, sulit bagi individu untuk menjalankan model dalam perangkat elektronik tipe konsumen. Misalnya, proses pelatihan waifu-diffusion membutuhkan minimal kapasitas memori grafis sebesar 30 GB,<ref>{{Citation|last=Mercurio|first=Anthony|title=Waifu Diffusion|date=2022-10-31|url=https://github.com/harubaru/waifu-diffusion/blob/6bf942eb6368ebf6bcbbb24b6ba8197bda6582a0/docs/en/training/README.md|access-date=2022-10-31}}</ref> yang melebihi sumber daya yang disediakan di kartu grafis tipe konsumen.<ref>{{Cite web|last=Smith|first=Ryan|title=NVIDIA Quietly Launches GeForce RTX 3080 12GB: More VRAM, More Power, More Money|url=https://www.anandtech.com/show/17204/nvidia-quietly-launches-geforce-rtx-3080-12gb-more-vram-more-power-more-money|website=www.anandtech.com|access-date=2022-10-31}}</ref> |
||
Pencipta Stable Diffusion mengakui potensi [[bias algoritma]], karena model tersebut dilatih pada gambar yang kebanyakan memiliki deskripsi bahasa Inggris.<ref name="stable-diffusion-model-card-1-4">{{Cite web|title=CompVis/stable-diffusion-v1-4 · Hugging Face|url=https://huggingface.co/CompVis/stable-diffusion-v1-4|website=huggingface.co|access-date=2022-11-02}}</ref> Akibatnya, gambar yang dihasilkan memperkuat bias sosial yang berasal dari perspektif budaya Barat, karena pembuatnya |
Pencipta Stable Diffusion mengakui potensi [[bias algoritme|bias algoritma]], karena model tersebut dilatih pada gambar yang kebanyakan memiliki deskripsi bahasa Inggris.<ref name="stable-diffusion-model-card-1-4">{{Cite web|title=CompVis/stable-diffusion-v1-4 · Hugging Face|url=https://huggingface.co/CompVis/stable-diffusion-v1-4|website=huggingface.co|access-date=2022-11-02}}</ref> Akibatnya, gambar yang dihasilkan memperkuat bias sosial yang berasal dari perspektif budaya Barat, karena pembuatnya model tersebut kekurangan data dari komunitas dan budaya lain.<ref name="stable-diffusion-model-card-1-4" /> |
||
=== Penyempurnaan oleh pengguna akhir === |
=== Penyempurnaan oleh pengguna akhir === |
||
Baris 59: | Baris 59: | ||
* "Embedding" dapat dilatih dari kumpulan gambar yang disediakan oleh pengguna, dan memungkinkan model menghasilkan gambar yang mirip secara visual setiap kali nama sematan digunakan dalam perintah pembuatan.<ref>{{Cite web|last=Dave James|date=October 28, 2022|title=I thrashed the RTX 4090 for 8 hours straight training Stable Diffusion to paint like my uncle Hermann|url=https://www.pcgamer.com/nvidia-rtx-4090-stable-diffusion-training-aharon-kahana/|website=[[PC Gamer]]|archive-url=https://web.archive.org/web/20221109154310/https://www.pcgamer.com/nvidia-rtx-4090-stable-diffusion-training-aharon-kahana/|archive-date=November 9, 2022|url-status=live}}</ref> Penyematan didasarkan pada konsep "inversi tekstual" yang dikembangkan oleh para peneliti dari [[Universitas Tel Aviv]] pada tahun 2022 dengan dukungan dari [[NVIDIA|Nvidia]], di mana representasi vektor untuk token tertentu yang digunakan oleh pembuat enkode teks model ditautkan ke kata-kata semu baru. Penyematan dapat digunakan untuk mengurangi bias dalam model aslinya, atau meniru gaya visual tertentu. |
* "Embedding" dapat dilatih dari kumpulan gambar yang disediakan oleh pengguna, dan memungkinkan model menghasilkan gambar yang mirip secara visual setiap kali nama sematan digunakan dalam perintah pembuatan.<ref>{{Cite web|last=Dave James|date=October 28, 2022|title=I thrashed the RTX 4090 for 8 hours straight training Stable Diffusion to paint like my uncle Hermann|url=https://www.pcgamer.com/nvidia-rtx-4090-stable-diffusion-training-aharon-kahana/|website=[[PC Gamer]]|archive-url=https://web.archive.org/web/20221109154310/https://www.pcgamer.com/nvidia-rtx-4090-stable-diffusion-training-aharon-kahana/|archive-date=November 9, 2022|url-status=live}}</ref> Penyematan didasarkan pada konsep "inversi tekstual" yang dikembangkan oleh para peneliti dari [[Universitas Tel Aviv]] pada tahun 2022 dengan dukungan dari [[NVIDIA|Nvidia]], di mana representasi vektor untuk token tertentu yang digunakan oleh pembuat enkode teks model ditautkan ke kata-kata semu baru. Penyematan dapat digunakan untuk mengurangi bias dalam model aslinya, atau meniru gaya visual tertentu. |
||
* "Hypernetwork" adalah jaringan saraf pra-pelatihan kecil yang diterapkan ke berbagai titik dalam jaringan saraf yang lebih besar, dan mengacu pada teknik yang dibuat oleh pengembang [[NovelAI]] Kurumuz pada tahun 2021, awalnya ditujukan untuk [[Transformer (model pembelajaran mesin)|model transformator]] pembuatan teks |
* "Hypernetwork" adalah jaringan saraf pra-pelatihan kecil yang diterapkan ke berbagai titik dalam jaringan saraf yang lebih besar, dan mengacu pada teknik yang dibuat oleh pengembang [[NovelAI]] Kurumuz pada tahun 2021, awalnya ditujukan untuk [[Transformer (model pembelajaran mesin)|model transformator]] pembuatan teks. Hypernetwork mengarahkan hasil ke arah tertentu, memungkinkan model berbasis Stable Diffusion untuk meniru gaya seni [[seniman]] tertentu, bahkan jika seniman tersebut tidak dikenali oleh model aslinya; mereka memproses gambar dengan menemukan area kunci yang penting seperti rambut dan mata, lalu menambal area tersebut di ruang laten sekunder.<ref>{{Cite web|date=October 11, 2022|title=NovelAI Improvements on Stable Diffusion|url=https://blog.novelai.net/novelai-improvements-on-stable-diffusion-e10d38db82ac|website=NovelAI|archive-url=https://archive.today/20221027041603/https://blog.novelai.net/novelai-improvements-on-stable-diffusion-e10d38db82ac|archive-date=October 27, 2022|url-status=live}}</ref> |
||
* [[DreamBooth]] adalah model generasi pembelajaran mendalam yang dikembangkan oleh para peneliti dari [[Google|Google Research]] dan [[Universitas Boston]] pada tahun 2022 yang dapat menyempurnakan model untuk menghasilkan keluaran yang dipersonalisasi dan presisi yang menggambarkan subjek tertentu, mengikuti pelatihan melalui serangkaian gambar yang menggambarkan subjek tersebut.<ref>{{Cite web|last=Yuki Yamashita|date=September 1, 2022|title=愛犬の合成画像を生成できるAI 文章で指示するだけでコスプレ 米Googleが開発|url=https://www.itmedia.co.jp/news/articles/2209/01/news041.html|website=ITmedia Inc.|language=ja|archive-url=https://web.archive.org/web/20220831232021/https://www.itmedia.co.jp/news/articles/2209/01/news041.html|archive-date=August 31, 2022|url-status=live}}</ref> |
* [[DreamBooth]] adalah model generasi pembelajaran mendalam yang dikembangkan oleh para peneliti dari [[Google|Google Research]] dan [[Universitas Boston]] pada tahun 2022 yang dapat menyempurnakan model untuk menghasilkan keluaran yang dipersonalisasi dan presisi yang menggambarkan subjek tertentu, mengikuti pelatihan melalui serangkaian gambar yang menggambarkan subjek tersebut.<ref>{{Cite web|last=Yuki Yamashita|date=September 1, 2022|title=愛犬の合成画像を生成できるAI 文章で指示するだけでコスプレ 米Googleが開発|url=https://www.itmedia.co.jp/news/articles/2209/01/news041.html|website=ITmedia Inc.|language=ja|archive-url=https://web.archive.org/web/20220831232021/https://www.itmedia.co.jp/news/articles/2209/01/news041.html|archive-date=August 31, 2022|url-status=live}}</ref> |
||
Baris 75: | Baris 75: | ||
| image2 = Algorithmically-generated landscape artwork of forest with Shinto shrine using negative prompt for green trees.png |
| image2 = Algorithmically-generated landscape artwork of forest with Shinto shrine using negative prompt for green trees.png |
||
| image3 = Algorithmically-generated landscape artwork of forest with Shinto shrine using negative prompt for round stones.png |
| image3 = Algorithmically-generated landscape artwork of forest with Shinto shrine using negative prompt for round stones.png |
||
| footer = Sebuah demonstrasi terhadap efek |
| footer = Sebuah demonstrasi terhadap efek perintah negatif terhadap pembuatan gambar |
||
*'''Atas''': tanpa |
*'''Atas''': tanpa perintah negatif |
||
*'''Tengah''': "pohon hijau" |
*'''Tengah''': "pohon hijau" |
||
*'''Bawah''': "batu halus bulat, batu kasar bulat" |
*'''Bawah''': "batu halus bulat, batu kasar bulat" |
||
Baris 85: | Baris 85: | ||
Setiap generasi txt2img akan melibatkan nilai benih tertentu yang memengaruhi gambar keluaran. Pengguna dapat memilih untuk mengacak nilai benih untuk menjelajahi keluaran yang berbeda, atau menggunakan benih yang sama untuk mendapatkan keluaran gambar yang serupa dengan gambar yang dihasilkan sebelumnya.<ref name="diffusers">{{Cite web|title=Stable Diffusion with 🧨 Diffusers|url=https://huggingface.co/blog/stable_diffusion|website=huggingface.co|access-date=2022-10-31}}</ref> Pengguna juga dapat menyesuaikan jumlah langkah inferensi untuk sampler; nilai yang lebih tinggi membutuhkan durasi waktu yang lebih lama, namun nilai yang lebih kecil dapat menyebabkan timbulnya cacat visual pada keluaran.<ref name="diffusers" /> Opsi lain yang dapat dikonfigurasi adalah nilai skala panduan bebas pengklasifikasi, memungkinkan pengguna untuk menyesuaikan seberapa dekat gambar keluaran sesuai dengan perintah.<ref name=":5">{{Cite arXiv}}</ref> Kasus penggunaan yang lebih eksperimental mungkin memilih nilai yang lebih rendah, sementara kasus penggunaan yang ditujukan untuk keluaran yang lebih spesifik mungkin menggunakan nilai yang lebih tinggi.<ref name="diffusers" /> |
Setiap generasi txt2img akan melibatkan nilai benih tertentu yang memengaruhi gambar keluaran. Pengguna dapat memilih untuk mengacak nilai benih untuk menjelajahi keluaran yang berbeda, atau menggunakan benih yang sama untuk mendapatkan keluaran gambar yang serupa dengan gambar yang dihasilkan sebelumnya.<ref name="diffusers">{{Cite web|title=Stable Diffusion with 🧨 Diffusers|url=https://huggingface.co/blog/stable_diffusion|website=huggingface.co|access-date=2022-10-31}}</ref> Pengguna juga dapat menyesuaikan jumlah langkah inferensi untuk sampler; nilai yang lebih tinggi membutuhkan durasi waktu yang lebih lama, namun nilai yang lebih kecil dapat menyebabkan timbulnya cacat visual pada keluaran.<ref name="diffusers" /> Opsi lain yang dapat dikonfigurasi adalah nilai skala panduan bebas pengklasifikasi, memungkinkan pengguna untuk menyesuaikan seberapa dekat gambar keluaran sesuai dengan perintah.<ref name=":5">{{Cite arXiv}}</ref> Kasus penggunaan yang lebih eksperimental mungkin memilih nilai yang lebih rendah, sementara kasus penggunaan yang ditujukan untuk keluaran yang lebih spesifik mungkin menggunakan nilai yang lebih tinggi.<ref name="diffusers" /> |
||
Fitur text2img tambahan disediakan oleh penerapan [[Bagian depan dan bagian belakang (komputasi)|front-end]] Stable Diffusion, yang memungkinkan pengguna untuk mengubah bobot yang diberikan ke bagian tertentu dari perintah teks. Metode alternatif untuk menyesuaikan bobot ke bagian perintah adalah "perintah negatif". Perintah negatif adalah fitur yang disertakan dalam beberapa implementasi front-end, termasuk layanan komputasi awan DreamStudio milik Stability AI, dan memungkinkan pengguna untuk menentukan hal yang harus dihindari model selama pembuatan gambar. |
Fitur text2img tambahan disediakan oleh penerapan [[Bagian depan dan bagian belakang (komputasi)|front-end]] Stable Diffusion, yang memungkinkan pengguna untuk mengubah bobot yang diberikan ke bagian tertentu dari perintah teks. Metode alternatif untuk menyesuaikan bobot ke bagian perintah adalah "perintah negatif". Perintah negatif adalah fitur yang disertakan dalam beberapa implementasi front-end, termasuk layanan komputasi awan DreamStudio dan Clipdrop milik Stability AI dan layanan eksternal NightCafe Studio, dan memungkinkan pengguna untuk menentukan hal yang harus dihindari model selama pembuatan gambar. Perintah yang ditentukan mungkin merupakan fitur gambar yang tidak diinginkan yang seharusnya ada dalam keluaran gambar karena perintah positif yang diberikan oleh pengguna, atau karena bagaimana awalnya model dilatih, dengan contoh umum berupa tangan manusia yang berantakan.<ref name="webui_showcase">{{cite web|date=10 November 2022|title=Stable Diffusion web UI|url=https://github.com/AUTOMATIC1111/stable-diffusion-webui-feature-showcase|website=GitHub}}</ref><ref name="release2.1">{{Cite web|title=Stable Diffusion v2.1 and DreamStudio Updates 7-Dec 22|url=https://stability.ai/blog/stablediffusion2-1-release7-dec-2022|website=stability.ai|archive-url=https://web.archive.org/web/20221210062732/https://stability.ai/blog/stablediffusion2-1-release7-dec-2022|archive-date=December 10, 2022|url-status=live}}</ref> |
||
=== Modifikasi gambar === |
=== Modifikasi gambar === |
||
{{Multiple image |
|||
⚫ | Stable Diffusion juga menyertakan fitur lain, "img2img", yang menggunakan perintah teks, hubungan ke gambar yang ada, dan nilai kekuatan antara 0,0 dan 1,0. Fitur ini mengeluarkan gambar baru berdasarkan gambar yang sudah ada yang juga menampilkan elemen yang disediakan dalam perintah teks. Nilai kekuatan menunjukkan jumlah noise yang ditambahkan ke gambar keluaran. Nilai kekuatan yang lebih tinggi menghasilkan lebih banyak variasi dalam gambar |
||
| direction = vertical |
|||
| align = right |
|||
| total_width = 200 |
|||
| image1 = NightCitySphere (SD1.5).jpg |
|||
| image2 = NightCitySphere (SDXL).jpg |
|||
| footer = Sebuah demonstrasi terhadap penggunaan fitur img2img terhadap gambar |
|||
*'''Atas''': Gambar orisinil yang dibuat di Stable Diffusion 1.5 |
|||
*'''Bawah''': Gambar hasil modifikasi yang dibuat di Stable Diffusion XL |
|||
}} |
|||
⚫ | Stable Diffusion juga menyertakan fitur lain, "img2img", yang menggunakan perintah teks, hubungan ke gambar yang ada, dan nilai kekuatan antara 0,0 dan 1,0. Fitur ini mengeluarkan gambar baru berdasarkan gambar yang sudah ada yang juga menampilkan elemen yang disediakan dalam perintah teks. Nilai kekuatan menunjukkan jumlah noise yang ditambahkan ke gambar keluaran. Nilai kekuatan yang lebih tinggi menghasilkan lebih banyak variasi dalam gambar.<ref name="stable-diffusion-github">{{Cite web|date=17 September 2022|title=Stable Diffusion Repository on GitHub|url=https://github.com/CompVis/stable-diffusion|publisher=CompVis - Machine Vision and Learning Research Group, LMU Munich|access-date=17 September 2022}}</ref> |
||
⚫ | Kemampuan img2img untuk menambahkan noise ke gambar asli membuatnya berpotensi berguna untuk [[anonimisasi data]] dan [[augmentasi data]], di mana karakteristik visual data gambar diubah dan dianonimkan.<ref name=":1">{{Cite arXiv|last=Luzi|first=Lorenzo|date=2022-10-21|title=Boomerang: Local sampling on image manifolds using diffusion models}}</ref> Proses yang sama mungkin juga berguna untuk peningkatan resolusi gambar, di mana resolusi gambar ditingkatkan, dengan lebih banyak detil |
||
⚫ | Kemampuan img2img untuk menambahkan noise ke gambar asli membuatnya berpotensi berguna untuk [[anonimisasi data]] dan [[augmentasi data]], di mana karakteristik visual data gambar diubah dan dianonimkan.<ref name=":1">{{Cite arXiv|last=Luzi|first=Lorenzo|date=2022-10-21|title=Boomerang: Local sampling on image manifolds using diffusion models}}</ref> Proses yang sama mungkin juga berguna untuk peningkatan resolusi gambar, di mana resolusi gambar ditingkatkan, dengan lebih banyak detil ditambahkan ke gambar.<ref name=":1" /> Selain itu, Stable Diffusion telah diujicoba sebagai alat untuk kompresi gambar. Dibandingkan dengan format [[JPEG]] dan [[WebP]], metode terbaru yang digunakan untuk kompresi gambar dalam Stable Diffusion memiliki keterbatasan dalam mempertahankan teks dan wajah kecil.<ref>{{Cite web|last=Bühlmann|first=Matthias|date=2022-09-28|title=Stable Diffusion Based Image Compression|url=https://pub.towardsai.net/stable-diffusion-based-image-compresssion-6f1f0a399202|website=Medium|language=en|access-date=2022-11-02}}</ref> |
||
⚫ | Kasus penggunaan tambahan untuk modifikasi gambar melalui img2img ditawarkan oleh banyak implementasi front-end model Stable Diffusion. Inpainting melibatkan modifikasi selektif sebagian dari gambar yang ada |
||
⚫ | Kasus penggunaan tambahan untuk modifikasi gambar melalui img2img ditawarkan oleh banyak implementasi front-end model Stable Diffusion. Inpainting melibatkan modifikasi selektif sebagian dari gambar yang ada dengan lapisan topeng yang disediakan pengguna, yang mengisi ruang bertopeng dengan konten yang baru dibuat berdasarkan kalimat yang diberikan.<ref name="webui_showcase">{{cite web|date=10 November 2022|title=Stable Diffusion web UI|url=https://github.com/AUTOMATIC1111/stable-diffusion-webui-feature-showcase|website=GitHub}}</ref> Model khusus yang untuk kasus penggunaan inpainting dibuat oleh Stability AI bersamaan dengan peluncuran Stable Diffusion 2.0.<ref name="release2.0">{{Cite web|title=Stable Diffusion 2.0 Release|url=https://stability.ai/blog/stable-diffusion-v2-release|website=stability.ai|archive-url=https://web.archive.org/web/20221210062729/https://stability.ai/blog/stable-diffusion-v2-release|archive-date=December 10, 2022|url-status=live}}</ref> Sebaliknya, outpainting memperluas gambar melampaui dimensi aslinya, mengisi ruang kosong sebelumnya dengan konten yang dihasilkan berdasarkan kalimat yang disediakan.<ref name="webui_showcase" /> |
||
Model dengan panduan kedalaman, bernama "depth2img", diperkenalkan dengan rilis Stable Diffusion 2.0 pada 24 November 2022; model ini menyimpulkan kedalaman gambar masukan yang disediakan, dan menghasilkan gambar keluaran baru berdasarkan perintah teks dan informasi kedalaman, yang memungkinkan koherensi dan kedalaman gambar masukan asli dipertahankan dalam keluaran yang dihasilkan.<ref name="release2.0">{{Cite web|title=Stable Diffusion 2.0 Release|url=https://stability.ai/blog/stable-diffusion-v2-release|website=stability.ai|archive-url=https://web.archive.org/web/20221210062729/https://stability.ai/blog/stable-diffusion-v2-release|archive-date=December 10, 2022|url-status=live}}</ref> |
Model dengan panduan kedalaman, bernama "depth2img", diperkenalkan dengan rilis Stable Diffusion 2.0 pada 24 November 2022; model ini menyimpulkan kedalaman gambar masukan yang disediakan, dan menghasilkan gambar keluaran baru berdasarkan perintah teks dan informasi kedalaman, yang memungkinkan koherensi dan kedalaman gambar masukan asli dipertahankan dalam keluaran yang dihasilkan.<ref name="release2.0">{{Cite web|title=Stable Diffusion 2.0 Release|url=https://stability.ai/blog/stable-diffusion-v2-release|website=stability.ai|archive-url=https://web.archive.org/web/20221210062729/https://stability.ai/blog/stable-diffusion-v2-release|archive-date=December 10, 2022|url-status=live}}</ref> |
||
Baris 99: | Baris 110: | ||
ControlNet<ref name="controlnet-paper">{{Cite arXiv|title=Adding Conditional Control to Text-to-Image Diffusion Models|date=10 February 2023}}</ref> adalah sebuah arsitektur jaringan saraf yang dirancang untuk mengelola model difusi dengan memasukkan kondisi tambahan. Ini menduplikasi bobot blok jaringan saraf menjadi salinan "terkunci" dan salinan "dapat dilatih". Salinan "dapat dilatih" mempelajari kondisi yang diinginkan, sedangkan salinan "terkunci" mempertahankan model aslinya. Konvolusi nol" adalah konvolusi 1×1 dengan bobot dan bias diinisialisasi ke nol. Sebelum pelatihan, semua konvolusi nol menghasilkan output nol, mencegah distorsi yang disebabkan oleh ControlNet. Metode ini memungkinkan pelatihan pada perangkat berskala kecil atau bahkan perangkat pribadi. |
ControlNet<ref name="controlnet-paper">{{Cite arXiv|title=Adding Conditional Control to Text-to-Image Diffusion Models|date=10 February 2023}}</ref> adalah sebuah arsitektur jaringan saraf yang dirancang untuk mengelola model difusi dengan memasukkan kondisi tambahan. Ini menduplikasi bobot blok jaringan saraf menjadi salinan "terkunci" dan salinan "dapat dilatih". Salinan "dapat dilatih" mempelajari kondisi yang diinginkan, sedangkan salinan "terkunci" mempertahankan model aslinya. Konvolusi nol" adalah konvolusi 1×1 dengan bobot dan bias diinisialisasi ke nol. Sebelum pelatihan, semua konvolusi nol menghasilkan output nol, mencegah distorsi yang disebabkan oleh ControlNet. Metode ini memungkinkan pelatihan pada perangkat berskala kecil atau bahkan perangkat pribadi. |
||
=== LoRA (Low-Rank Adaptation) === |
|||
⚫ | |||
LoRA (Low-Rank Adaptation) merupakan sebuah teknik yang digunakan dalam pelatihan model pembelajaran mesin, terutama model bahasa besar (Large Language Models/LLMs), untuk mengurangi kompleksitas komputasi dan kebutuhan penyimpanan tanpa mengorbankan performa. LoRA memanfaatkan dekomposisi matriks dengan pangkat rendah untuk memperbarui hanya sebagian dari parameter model yang besar, sehingga mempercepat proses fine-tuning dan membuatnya lebih efisien dalam hal penggunaan sumber daya.<ref>{{Cite journal|last=Yuanzhi Li|first=Edward Hu|date=2021-10-16|title=LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS|url=https://arxiv.org/pdf/2106.09685|journal=LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS|volume=Version 2|pages=26}}</ref> |
|||
⚫ | |||
Dalam model deep learning konvensional, proses fine-tuning sering kali membutuhkan pembaruan seluruh parameter model, yang memerlukan sumber daya komputasi besar dan memori yang tinggi. LoRA mengatasi hal ini dengan memproyeksikan perubahan parameter model ke dalam ruang pangkat rendah, di mana perubahan kecil dan terarah dapat diwakili secara efisien dengan parameter yang lebih sedikit. |
|||
⚫ | |||
Dalam praktiknya, LoRA menguraikan matriks besar dari parameter model menjadi dua matriks dengan pangkat lebih rendah, sehingga memperkecil dimensi parameter yang diperbarui. Dengan demikian, teknik ini mempertahankan performa model yang baik pada berbagai tugas, sekaligus mengurangi overhead komputasi dan memori yang diperlukan selama proses adaptasi atau fine-tuning. |
|||
⚫ | |||
LoRA telah menjadi populer dalam aplikasi seperti penyesuaian model bahasa besar pada domain spesifik, di mana pengurangan sumber daya yang dibutuhkan sangat penting untuk penerapan yang lebih luas dan efisien. |
|||
⚫ | |||
⚫ | |||
⚫ | |||
⚫ | |||
* V1.4, Agustus 2022<ref>{{Cite web|title=CompVis/stable-diffusion-v1-4 · Hugging Face|url=https://huggingface.co/CompVis/stable-diffusion-v1-4|website=huggingface.co|access-date=2023-08-17}}</ref> |
|||
⚫ | |||
⚫ | |||
⚫ | |||
⚫ | |||
== Penggunaan dan kontroversi == |
== Penggunaan dan kontroversi == |
||
Stable Diffusion tidak mengklaim hak atas gambar yang dihasilkan dan secara bebas memberikan hak |
Stable Diffusion tidak mengklaim hak cipta atas gambar yang dihasilkan dan secara bebas memberikan hak cipta pada gambar yang dihasilkan dari model kepada pengguna asalkan konten gambar tidak ilegal atau membahayakan individu. Kebebasan yang diberikan kepada pengguna atas penggunaan gambar telah menyebabkan kontroversi tentang etika kepemilikan, karena Stable Diffusion dan model generatif lainnya dilatih dari gambar yang dilindungi hak cipta tanpa persetujuan pemilik.<ref name=":13">{{Cite web|last=Cai|first=Kenrick|title=Startup Behind AI Image Generator Stable Diffusion Is In Talks To Raise At A Valuation Up To $1 Billion|url=https://www.forbes.com/sites/kenrickcai/2022/09/07/stability-ai-funding-round-1-billion-valuation-stable-diffusion-text-to-image/|website=Forbes|language=en|access-date=2022-10-31}}</ref> |
||
Karena gaya seni dan [[Komposisi (seni rupa)|komposisi]] tidak memiliki hak cipta, seringkali ditafsirkan bahwa pengguna Stable Diffusion yang menghasilkan gambar karya seni tidak dapat dianggap melanggar hak cipta terhadap karya visual yang serupa.<ref name="automaton" /> Namun, individu yang digambarkan dalam gambar yang dihasilkan dapat dilindungi oleh hak kepribadian jika gambar mereka digunakan, dan kekayaan intelektual seperti logo merek yang dapat dikenali masih dilindungi oleh hak merek dagang.<ref name="automaton">{{Cite web|date=August 24, 2022|title=高性能画像生成AI「Stable Diffusion」無料リリース。「kawaii」までも理解し創造する画像生成AI|url=https://automaton-media.com/articles/newsjp/20220824-216074/|website=Automaton Media|language=ja}}</ref> Namun, sejumlah seniman visual menyatakan kekhawatiran bahwa penggunaan luas perangkat lunak sintesis gambar seperti Stable Diffusion dapat berpotensi menyebabkan seniman manusia, bersama dengan fotografer, model, sinematografer, dan aktor, secara bertahap kehilangan viabilitas komersial terhadap pesaing berbasis [[kecerdasan buatan]]. |
Karena gaya seni dan [[Komposisi (seni rupa)|komposisi]] tidak memiliki hak cipta, seringkali ditafsirkan bahwa pengguna Stable Diffusion yang menghasilkan gambar karya seni tidak dapat dianggap melanggar hak cipta terhadap karya visual yang serupa.<ref name="automaton" /> Namun, individu yang digambarkan dalam gambar yang dihasilkan dapat dilindungi oleh hak kepribadian jika gambar mereka digunakan, dan kekayaan intelektual seperti logo merek yang dapat dikenali masih dilindungi oleh hak merek dagang.<ref name="automaton">{{Cite web|date=August 24, 2022|title=高性能画像生成AI「Stable Diffusion」無料リリース。「kawaii」までも理解し創造する画像生成AI|url=https://automaton-media.com/articles/newsjp/20220824-216074/|website=Automaton Media|language=ja}}</ref> Namun, sejumlah seniman visual menyatakan kekhawatiran bahwa penggunaan luas perangkat lunak sintesis gambar seperti Stable Diffusion dapat berpotensi menyebabkan seniman manusia, bersama dengan fotografer, model, sinematografer, dan aktor, secara bertahap kehilangan viabilitas komersial terhadap pesaing berbasis [[kecerdasan buatan]]. |
||
Stable Diffusion lebih permisif dalam jenis konten yang mungkin dihasilkan pengguna, seperti gambar kekerasan atau eksplisit secara seksual, dibandingkan dengan produk kecerdasan buatan generatif |
Stable Diffusion lebih permisif dalam jenis konten yang mungkin dihasilkan pengguna, seperti gambar kekerasan atau eksplisit secara seksual, dibandingkan dengan produk kecerdasan buatan generatif komersial lainnya.<ref name="bijapan">{{Cite web|last=Ryo Shimizu|date=August 26, 2022|title=Midjourneyを超えた? 無料の作画AI「 #StableDiffusion 」が「AIを民主化した」と断言できる理由|url=https://www.businessinsider.jp/post-258369|website=Business Insider Japan|language=ja}}</ref> Mengatasi kekhawatiran bahwa model tersebut dapat digunakan untuk tujuan yang tidak pantas, CEO Stability AI, Emad Mostaque, berpendapat bahwa "[itu] adalah tanggung jawab masyarakat, apakah mereka etis, bermoral, dan legal dalam cara mereka mengoperasikan teknologi ini", dan menempatkan kemampuan Stable Diffusion ke tangan publik akan menghasilkan teknologi yang memberikan manfaat, terlepas dari potensi konsekuensi negatifnya. Selain itu, Mostaque berpendapat bahwa niat dibalik tersedianya Stable Diffusion secara terbuka adalah untuk mengakhiri kontrol dan dominasi korporasi atas teknologi tersebut, yang sebelumnya hanya mengembangkan sistem kecerdasan buatan tertutup untuk sintesis gambar.<ref name="bijapan" /> Hal ini tercermin dari fakta bahwa batasan yang diterapkan oleh Stability AI pada konten yang dihasilkan pengguna dapat dengan mudah dilewati karena ketersediaan kode sumber.<ref name=":13">{{Cite web|last=Cai|first=Kenrick|title=Startup Behind AI Image Generator Stable Diffusion Is In Talks To Raise At A Valuation Up To $1 Billion|url=https://www.forbes.com/sites/kenrickcai/2022/09/07/stability-ai-funding-round-1-billion-valuation-stable-diffusion-text-to-image/|website=Forbes|language=en|access-date=2022-10-31}}</ref> |
||
== Gugatan == |
== Gugatan == |
||
Pada Januari 2023, tiga seniman: Sarah Andersen, Kelly McKernan, dan Karla Ortiz mengajukan gugatan [[pelanggaran hak cipta]] terhadap Stability AI, [[Midjourney]], dan [[DeviantArt]], mengklaim bahwa perusahaan-perusahaan tersebut telah melanggar hak jutaan artis dengan melatih model kecerdasan buatan pada lima miliar gambar diambil dari web tanpa persetujuan dari seniman aslinya. |
Pada Januari 2023, tiga seniman: Sarah Andersen, Kelly McKernan, dan Karla Ortiz mengajukan gugatan [[pelanggaran hak cipta]] terhadap Stability AI, [[Midjourney]], dan [[DeviantArt]], mengklaim bahwa perusahaan-perusahaan tersebut telah melanggar hak jutaan artis dengan melatih model kecerdasan buatan pada lima miliar gambar diambil dari web tanpa persetujuan dari seniman aslinya.<ref>{{Cite web|last=Vincent|first=James|date=January 16, 2023|title=AI art tools Stable Diffusion and Midjourney targeted with copyright lawsuit|url=https://www.theverge.com/2023/1/16/23557098/generative-ai-art-copyright-legal-lawsuit-stable-diffusion-midjourney-deviantart|website=The Verge}}</ref> Di bulan yang sama, Stability AI juga digugat oleh [[Getty Images]] karena menggunakan gambarnya dalam data pelatihan.<ref name="CNN-Getty">{{Cite web|last=Korn|first=Jennifer|date=2023-01-17|title=Getty Images suing the makers of popular AI art tool for allegedly stealing photos|url=https://www.cnn.com/2023/01/17/tech/getty-images-stability-ai-lawsuit/index.html|website=CNN|language=en|access-date=2023-01-22}}</ref> |
||
Pada Juli 2023, Hakim Distrik AS [[William Orrick III|William Orrick]] menolak sebagian besar tuntutan hukum yang diajukan oleh Andersen, McKernan, dan Ortiz tetapi mengizinkan mereka mengajukan keluhan baru.<ref name="Reuters-SDLawsuit">{{Cite news|last=Brittain|first=Blake|date=2023-07-19|title=US judge finds flaws in artists' lawsuit against AI companies|url=https://www.reuters.com/legal/litigation/us-judge-finds-flaws-artists-lawsuit-against-ai-companies-2023-07-19/|work=Reuters|language=en|access-date=2023-08-06}}</ref> |
Pada Juli 2023, Hakim Distrik AS [[William Orrick III|William Orrick]] menolak sebagian besar tuntutan hukum yang diajukan oleh Andersen, McKernan, dan Ortiz tetapi mengizinkan mereka mengajukan keluhan baru.<ref name="Reuters-SDLawsuit">{{Cite news|last=Brittain|first=Blake|date=2023-07-19|title=US judge finds flaws in artists' lawsuit against AI companies|url=https://www.reuters.com/legal/litigation/us-judge-finds-flaws-artists-lawsuit-against-ai-companies-2023-07-19/|work=Reuters|language=en|access-date=2023-08-06}}</ref> |
||
== Lisensi == |
== Lisensi == |
||
Tidak seperti model lainnya seperti DALL-E, Stable Diffusion membuat kode sumbernya tersedia<ref name="stability">{{Cite web|title=Stable Diffusion Public Release|url=https://stability.ai/blog/stable-diffusion-public-release|website=Stability.Ai|archive-url=https://web.archive.org/web/20220830210535/https://stability.ai/blog/stable-diffusion-public-release|archive-date=2022-08-30|access-date=2022-08-31|url-status=live}}</ref><ref name="stable-diffusion-github">{{Cite web|date=17 September 2022|title=Stable Diffusion Repository on GitHub|url=https://github.com/CompVis/stable-diffusion|publisher=CompVis - Machine Vision and Learning Research Group, LMU Munich|access-date=17 September 2022}}</ref> beserta dengan model (bobot pralatih). Lisensi yang berlaku adalah Creative ML OpenRAIL-M |
Tidak seperti model lainnya seperti DALL-E, Stable Diffusion membuat kode sumbernya tersedia<ref name="stability">{{Cite web|title=Stable Diffusion Public Release|url=https://stability.ai/blog/stable-diffusion-public-release|website=Stability.Ai|archive-url=https://web.archive.org/web/20220830210535/https://stability.ai/blog/stable-diffusion-public-release|archive-date=2022-08-30|access-date=2022-08-31|url-status=live}}</ref><ref name="stable-diffusion-github">{{Cite web|date=17 September 2022|title=Stable Diffusion Repository on GitHub|url=https://github.com/CompVis/stable-diffusion|publisher=CompVis - Machine Vision and Learning Research Group, LMU Munich|access-date=17 September 2022}}</ref> beserta dengan model (bobot pralatih). Lisensi yang berlaku adalah Creative ML OpenRAIL-M, sebuah lisensi kecerdasan buatan yang memiliki misi "bertanggung jawab sampai ke model".<ref>{{Cite web|date=18 August 2022|title=From RAIL to Open RAIL: Topologies of RAIL Licenses|url=https://www.licenses.ai/blog/2022/8/18/naming-convention-of-responsible-ai-licenses|website=Responsible AI Licenses (RAIL)|language=en-US|access-date=2023-02-20}}</ref> Lisensi ini melarang sejumlah kasus penggunaan, seperti tindakan kriminal, [[fitnah]], [[pelecehan]], [[doksing]], "mengeksploitasi ... anak di bawah umur", memberikan nasihat medis, membuat kewajiban hukum secara otomatis, memproduksi bukti hukum, dan "mendiskriminasi atau melakukan tindakan kekerasan terhadap individu dan kelompok berdasarkan ... perilaku sosial atau ... karakteristik pribadi atau kepribadian ... [atau] kategori dan karakteristik yang dilindungi hukum".<ref name="washingtonpost">{{Cite news|date=2022-08-30|title=Ready or not, mass video deepfakes are coming|url=https://www.washingtonpost.com/technology/2022/08/30/deep-fake-video-on-agt/|work=The Washington Post|archive-url=https://web.archive.org/web/20220831115010/https://www.washingtonpost.com/technology/2022/08/30/deep-fake-video-on-agt/|archive-date=2022-08-31|access-date=2022-08-31|url-status=live}}</ref><ref>{{Cite web|title=License - a Hugging Face Space by CompVis|url=https://huggingface.co/spaces/CompVis/stable-diffusion-license|website=huggingface.co|archive-url=https://web.archive.org/web/20220904215616/https://huggingface.co/spaces/CompVis/stable-diffusion-license|archive-date=2022-09-04|access-date=2022-09-05|url-status=live}}</ref> Pengguna memiliki hak cipta terhadap gambar keluaran dan diperkenankan menggunakannya secara komersial.<ref>{{Cite web|last=Katsuo Ishida|date=August 26, 2022|title=言葉で指示した画像を凄いAIが描き出す「Stable Diffusion」 ~画像は商用利用も可能|url=https://forest.watch.impress.co.jp/docs/review/1434893.html|website=Impress Corporation|language=ja}}</ref> |
||
== Lihat pula == |
== Lihat pula == |
||
* [[15.ai]] |
|||
* [[Seni kecerdasan buatan|Seni kecerdasan buatan]] |
* [[Seni kecerdasan buatan|Seni kecerdasan buatan]] |
||
* [[Craiyon]] |
|||
* [[Hugging Face]] |
* [[Hugging Face]] |
||
* [[Imagen (Google Brain)]] |
|||
== Referensi == |
== Referensi == |
||
<references |
<references responsive="1"></references> |
||
</references> |
|||
== Pranala luar == |
== Pranala luar == |
||
Baris 145: | Baris 157: | ||
{{Authority control}} |
{{Authority control}} |
||
[[Kategori:Kecerdasan buatan]] |
|||
[[Kategori:Perangkat lunak 2022]] |
[[Kategori:Perangkat lunak 2022]] |
||
[[Kategori:Pemelajaran dalam]] |
[[Kategori:Pemelajaran dalam]] |
Revisi terkini sejak 3 November 2024 17.46
Stable Diffusion | |||||||
---|---|---|---|---|---|---|---|
Tipe | model teks-ke-gambar, latent variable model (en) dan diffusion model (en) | ||||||
Versi pertama | 22 Agustus 2022 | ||||||
Versi stabil | |||||||
Genre | model teks-ke-gambar | ||||||
Lisensi | Creative ML OpenRAIL-M | ||||||
Eponim | diffusion model (en) | ||||||
| |||||||
Sumber kode | |||||||
| |||||||
Stable Diffusion adalah sebuah model teks-ke-gambar berbasis kecerdasan buatan, bagian dari pemelajaran dalam yang dirilis pada tahun 2022.[3] Umumnya digunakan untuk menghasilkan gambar berdasarkan deskripsi teks, namun dapat juga digunakan untuk hal terkait seperti teknik inpainting, outpainting, dan menghasilkan keluaran gambar-ke-gambar yang dipandu oleh perintah kalimat.[4] Model Ini dikembangkan oleh para peneliti dari kelompok CompVis di Universitas Ludwig Maximilian München dan Runway dengan dukungan komputasi oleh Stability AI dan kumpulan data latih dari sejumlah organisasi nirlaba.[5][6][7]
Stable Diffusion adalah model difusi laten, sebuah jenis jaringan saraf tiruan generatif. Bobot kode dan modelnya telah dirilis secara publik,[8] dan dapat berjalan di sebagian besar perangkat keras tipe konsumen yang dilengkapi dengan kartu grafis sederhana dengan minimal kapasitas memori grafis sebesar 8 GB. Ini berbeda dari model teks-ke-gambar sebelumnya seperti DALL-E dan Midjourney yang hanya dapat diakses melalui layanan komputasi awan.[9]
Sejarah pengembangan
[sunting | sunting sumber]Pengembangan Stable Diffusion didanai dan didukung oleh perusahaan rintisan Stability AI.[10][11] Lisensi teknis untuk model tersebut dirilis oleh kelompok CompVis di Universitas Ludwig Maximilian München. Pengembangan dipimpin oleh Patrick Esser dari Runway dan Robin Rombach dari CompVis, yang termasuk di antara para peneliti yang sebelumnya menemukan arsitektur model difusi laten yang digunakan oleh Stable Diffusion. Stability AI juga memberikan apresiasi terhadap EleutherAI dan LAION (organisasi nirlaba Jerman yang mengumpulkan kumpulan data tempat pelatihan Stable Diffusion) sebagai pendukung proyek.
Pada Oktober 2022, Stability AI berhasil mengumpulkan US$101 juta dalam program pendanaan yang dipimpin oleh Lightspeed Venture Partners dan Coatue Management.[12]
Teknologi
[sunting | sunting sumber]Arsitektur
[sunting | sunting sumber]Stable Diffusion menggunakan sebuah jenis model difusi yang disebut model difusi laten yang dikembangkan oleh kelompok CompVis di Universitas Ludwig Maximilian München.[8]
Dengan 860 juta parameter di U-Net dan 123 juta di enkoder teks, Stable Diffusion dianggap relatif ringan menurut standar tahun 2022, dan tidak seperti model difusi lainnya, model ini dapat berjalan pada kartu grafis tipe konsumen.[13]
Data latih
[sunting | sunting sumber]Stable Diffusion dilatih pada pasangan gambar dan teks yang diambil dari LAION-5B, sebuah kumpulan data yang tersedia untuk umum yang berasal dari data Common Crawl yang diambil dari web, di mana 5 miliar pasangan gambar-teks diklasifikasikan berdasarkan bahasa dan disaring ke dalam kumpulan data terpisah berdasarkan resolusi, kemungkinan terdapatnya tanda air digital, dan skor "estetika" yang diprediksi (misalnya kualitas visual secara subjektif). [14] Kumpulan data ini dibuat oleh LAION, organisasi nirlaba Jerman yang menerima dana dari Stability AI.[14][15] Model Stable Diffusion dilatih pada tiga himpunan bagian LAION-5B yaitu laion2B-en, laion-high-resolution, dan laion-aesthetics v2 5+.[14] Analisis pihak ketiga terhadap data latih model menunjukan sekitar 47% dari ukuran sampel gambar berasal dari 100 domain web berbeda, dengan Pinterest mengambil 8,5% bagian, diikuti oleh situs web seperti WordPress, Blogspot, Flickr, DeviantArt, dan Wikimedia Commons.[16][14]
Prosedur pelatihan
[sunting | sunting sumber]Model ini awalnya dilatih pada subset laion2B-en dan laion-high-resolution, dengan beberapa putaran terakhir pelatihan dilakukan terhadap LAION-Aesthetics v2 5+, subset dari sekitar 600 juta gambar dengan judul yang diprediksi oleh LAION-Aesthetics Predictor V2 bahwa rata-rata manusia akan memberikan skor setidaknya 5 dari 10 berdasarkan penilaian seberapa besar mereka menyukainya.[17][14][18] Subset LAION-Aesthetics v2 5+ juga mengecualikan gambar yang memiliki beresolusi rendah dan gambar yang diidentifikasi oleh LAION-5B-WatermarkDetection memiliki tanda air digital dengan probabilitas lebih dari 80%.[14]
Model ini dilatih menggunakan 256 kartu grafis Nvidia A100 di Amazon Web Services dengan total 150.000 jam kartu grafis, dengan biaya sebesar US$600.000.[19][20][21]
Keterbatasan
[sunting | sunting sumber]Stable Diffusion memiliki masalah dengan degradasi dan ketidakakuratan dalam skenario tertentu. Rilis awal model ini dilatih pada kumpulan data yang terdiri dari gambar beresolusi 512×512, yang berarti bahwa kualitas gambar yang dihasilkan menurun drastis saat spesifikasi pengguna menyimpang dari resolusi 512×512 yang "diharapkan";[22] versi 2.0 dari model Stable Diffusion kemudian memperkenalkan kemampuan untuk menghasilkan gambar secara alami pada resolusi 768×768.[23] Tantangan lain adalah dalam menghasilkan anggota tubuh manusia karena kualitas data anggota tubuh yang buruk di data LAION (umumnya terlihat pada tangan).[24] Keterbatasan pada Stable Diffusion mulai diatasi secara perlahan dengan model versi SDXL yang dirilis pada tanggal 26 Juli 2023, SDXL mendukung gambar beresolusi 1024x1024 dan menghasilkan anggota tubuh dan teks yang lebih sempurna.[25]
Keterjangkauan untuk pengembang individu juga bisa menjadi masalah. Untuk menyesuaikan model untuk kasus penggunaan baru yang tidak termasuk dalam kumpulan data, seperti membuat karakter anime ("waifu difusion"),[26] data baru dan pelatihan lebih lanjut diperlukan. Adaptasi penyempurnaan terhadap Stable Diffusion yang dibuat melalui pelatihan ulang tambahan telah digunakan untuk berbagai kasus penggunaan yang berbeda, mulai dari pencitraan medis hingga musik yang dihasilkan dengan algoritma.[27] Namun, proses penyempurnaan ini sensitif terhadap kualitas data baru; gambar beresolusi rendah atau resolusi yang berbeda dari data asli tidak hanya dapat gagal mempelajari tugas baru tetapi juga menurunkan kinerja model secara keseluruhan. Bahkan ketika model dilatih lebih lanjut terhadap kumpulan gambar berkualitas tinggi, sulit bagi individu untuk menjalankan model dalam perangkat elektronik tipe konsumen. Misalnya, proses pelatihan waifu-diffusion membutuhkan minimal kapasitas memori grafis sebesar 30 GB,[28] yang melebihi sumber daya yang disediakan di kartu grafis tipe konsumen.[29]
Pencipta Stable Diffusion mengakui potensi bias algoritma, karena model tersebut dilatih pada gambar yang kebanyakan memiliki deskripsi bahasa Inggris.[20] Akibatnya, gambar yang dihasilkan memperkuat bias sosial yang berasal dari perspektif budaya Barat, karena pembuatnya model tersebut kekurangan data dari komunitas dan budaya lain.[20]
Penyempurnaan oleh pengguna akhir
[sunting | sunting sumber]Untuk mengatasi keterbatasan proses pelatihan awal model, pengguna akhir dapat memilih untuk melakukan pelatihan tambahan untuk menyempurnakan keluaran agar sesuai dengan kasus penggunaan yang lebih spesifik. Ada tiga metode di mana penyempurnaan oleh pengguna akhir dapat diterapkan:
- "Embedding" dapat dilatih dari kumpulan gambar yang disediakan oleh pengguna, dan memungkinkan model menghasilkan gambar yang mirip secara visual setiap kali nama sematan digunakan dalam perintah pembuatan.[30] Penyematan didasarkan pada konsep "inversi tekstual" yang dikembangkan oleh para peneliti dari Universitas Tel Aviv pada tahun 2022 dengan dukungan dari Nvidia, di mana representasi vektor untuk token tertentu yang digunakan oleh pembuat enkode teks model ditautkan ke kata-kata semu baru. Penyematan dapat digunakan untuk mengurangi bias dalam model aslinya, atau meniru gaya visual tertentu.
- "Hypernetwork" adalah jaringan saraf pra-pelatihan kecil yang diterapkan ke berbagai titik dalam jaringan saraf yang lebih besar, dan mengacu pada teknik yang dibuat oleh pengembang NovelAI Kurumuz pada tahun 2021, awalnya ditujukan untuk model transformator pembuatan teks. Hypernetwork mengarahkan hasil ke arah tertentu, memungkinkan model berbasis Stable Diffusion untuk meniru gaya seni seniman tertentu, bahkan jika seniman tersebut tidak dikenali oleh model aslinya; mereka memproses gambar dengan menemukan area kunci yang penting seperti rambut dan mata, lalu menambal area tersebut di ruang laten sekunder.[31]
- DreamBooth adalah model generasi pembelajaran mendalam yang dikembangkan oleh para peneliti dari Google Research dan Universitas Boston pada tahun 2022 yang dapat menyempurnakan model untuk menghasilkan keluaran yang dipersonalisasi dan presisi yang menggambarkan subjek tertentu, mengikuti pelatihan melalui serangkaian gambar yang menggambarkan subjek tersebut.[32]
Kemampuan
[sunting | sunting sumber]Model Stable Diffusion mendukung kemampuan untuk menghasilkan gambar baru dengan menggunkan perintah teks yang berisikan elemen-elemen yang akan disertakan atau dikecualikan dari keluaran.[33] Gambar yang sudah ada dapat digambar ulang oleh model untuk menambahkan elemen baru yang berdasarkan sebuah perintah teks (proses ini dikenal sebagai "pembuatan gambar terpandu"[34]) melalui mekanisme difusi-denoising.[35] Juga, model ini memungkinkan penggunaan perintah untuk mengubah gambar yang ada dengan teknik inpainting dan outpainting, ketika digunakan dengan antarmuka yang sesuai, yang mana tersedia dalam berbagai macam implementasi dengan sumber terbuka.[36]
Stable Diffusion disarankan untuk dijalankan dengan 10 GB atau lebih memori grafis, namun pengguna yang memiliki kapasitas memori grafis lebih sedikit dapat memilih untuk memuat bobot dengan presisi float16 ketimbang bobot bawaan dengan presisi float32 dengan kompromi pada performa model yang lebih rendah.[37]
Pembuatan teks ke gambar
[sunting | sunting sumber]Fitur pembuatan teks ke gambar dalam Stable Diffusion, yang dikenal sebagai "txt2img", menggunakan perintah teks dengan sejumlah parameter opsi yang mencakup jenis pengambilan sampel, dimensi gambar keluaran, dan nilai benih. Perintah mengeluarkan berkas gambar berdasarkan interpretasi model dari kalimat.[8] Gambar yang dihasilkan ditandai dengan tanda air digital yang tidak kasat mata untuk memungkinkan pengguna mengidentifikasi gambar yang dihasilkan oleh Stable Diffusion,[8] meskipun tanda air ini dapat pudar jika gambar diubah ukurannya atau diputar.[38]
Setiap generasi txt2img akan melibatkan nilai benih tertentu yang memengaruhi gambar keluaran. Pengguna dapat memilih untuk mengacak nilai benih untuk menjelajahi keluaran yang berbeda, atau menggunakan benih yang sama untuk mendapatkan keluaran gambar yang serupa dengan gambar yang dihasilkan sebelumnya.[22] Pengguna juga dapat menyesuaikan jumlah langkah inferensi untuk sampler; nilai yang lebih tinggi membutuhkan durasi waktu yang lebih lama, namun nilai yang lebih kecil dapat menyebabkan timbulnya cacat visual pada keluaran.[22] Opsi lain yang dapat dikonfigurasi adalah nilai skala panduan bebas pengklasifikasi, memungkinkan pengguna untuk menyesuaikan seberapa dekat gambar keluaran sesuai dengan perintah.[39] Kasus penggunaan yang lebih eksperimental mungkin memilih nilai yang lebih rendah, sementara kasus penggunaan yang ditujukan untuk keluaran yang lebih spesifik mungkin menggunakan nilai yang lebih tinggi.[22]
Fitur text2img tambahan disediakan oleh penerapan front-end Stable Diffusion, yang memungkinkan pengguna untuk mengubah bobot yang diberikan ke bagian tertentu dari perintah teks. Metode alternatif untuk menyesuaikan bobot ke bagian perintah adalah "perintah negatif". Perintah negatif adalah fitur yang disertakan dalam beberapa implementasi front-end, termasuk layanan komputasi awan DreamStudio dan Clipdrop milik Stability AI dan layanan eksternal NightCafe Studio, dan memungkinkan pengguna untuk menentukan hal yang harus dihindari model selama pembuatan gambar. Perintah yang ditentukan mungkin merupakan fitur gambar yang tidak diinginkan yang seharusnya ada dalam keluaran gambar karena perintah positif yang diberikan oleh pengguna, atau karena bagaimana awalnya model dilatih, dengan contoh umum berupa tangan manusia yang berantakan.[36][40]
Modifikasi gambar
[sunting | sunting sumber]Stable Diffusion juga menyertakan fitur lain, "img2img", yang menggunakan perintah teks, hubungan ke gambar yang ada, dan nilai kekuatan antara 0,0 dan 1,0. Fitur ini mengeluarkan gambar baru berdasarkan gambar yang sudah ada yang juga menampilkan elemen yang disediakan dalam perintah teks. Nilai kekuatan menunjukkan jumlah noise yang ditambahkan ke gambar keluaran. Nilai kekuatan yang lebih tinggi menghasilkan lebih banyak variasi dalam gambar.[8]
Kemampuan img2img untuk menambahkan noise ke gambar asli membuatnya berpotensi berguna untuk anonimisasi data dan augmentasi data, di mana karakteristik visual data gambar diubah dan dianonimkan.[41] Proses yang sama mungkin juga berguna untuk peningkatan resolusi gambar, di mana resolusi gambar ditingkatkan, dengan lebih banyak detil ditambahkan ke gambar.[41] Selain itu, Stable Diffusion telah diujicoba sebagai alat untuk kompresi gambar. Dibandingkan dengan format JPEG dan WebP, metode terbaru yang digunakan untuk kompresi gambar dalam Stable Diffusion memiliki keterbatasan dalam mempertahankan teks dan wajah kecil.[42]
Kasus penggunaan tambahan untuk modifikasi gambar melalui img2img ditawarkan oleh banyak implementasi front-end model Stable Diffusion. Inpainting melibatkan modifikasi selektif sebagian dari gambar yang ada dengan lapisan topeng yang disediakan pengguna, yang mengisi ruang bertopeng dengan konten yang baru dibuat berdasarkan kalimat yang diberikan.[36] Model khusus yang untuk kasus penggunaan inpainting dibuat oleh Stability AI bersamaan dengan peluncuran Stable Diffusion 2.0.[23] Sebaliknya, outpainting memperluas gambar melampaui dimensi aslinya, mengisi ruang kosong sebelumnya dengan konten yang dihasilkan berdasarkan kalimat yang disediakan.[36]
Model dengan panduan kedalaman, bernama "depth2img", diperkenalkan dengan rilis Stable Diffusion 2.0 pada 24 November 2022; model ini menyimpulkan kedalaman gambar masukan yang disediakan, dan menghasilkan gambar keluaran baru berdasarkan perintah teks dan informasi kedalaman, yang memungkinkan koherensi dan kedalaman gambar masukan asli dipertahankan dalam keluaran yang dihasilkan.[23]
ControlNet
[sunting | sunting sumber]ControlNet[43] adalah sebuah arsitektur jaringan saraf yang dirancang untuk mengelola model difusi dengan memasukkan kondisi tambahan. Ini menduplikasi bobot blok jaringan saraf menjadi salinan "terkunci" dan salinan "dapat dilatih". Salinan "dapat dilatih" mempelajari kondisi yang diinginkan, sedangkan salinan "terkunci" mempertahankan model aslinya. Konvolusi nol" adalah konvolusi 1×1 dengan bobot dan bias diinisialisasi ke nol. Sebelum pelatihan, semua konvolusi nol menghasilkan output nol, mencegah distorsi yang disebabkan oleh ControlNet. Metode ini memungkinkan pelatihan pada perangkat berskala kecil atau bahkan perangkat pribadi.
LoRA (Low-Rank Adaptation)
[sunting | sunting sumber]LoRA (Low-Rank Adaptation) merupakan sebuah teknik yang digunakan dalam pelatihan model pembelajaran mesin, terutama model bahasa besar (Large Language Models/LLMs), untuk mengurangi kompleksitas komputasi dan kebutuhan penyimpanan tanpa mengorbankan performa. LoRA memanfaatkan dekomposisi matriks dengan pangkat rendah untuk memperbarui hanya sebagian dari parameter model yang besar, sehingga mempercepat proses fine-tuning dan membuatnya lebih efisien dalam hal penggunaan sumber daya.[44]
Dalam model deep learning konvensional, proses fine-tuning sering kali membutuhkan pembaruan seluruh parameter model, yang memerlukan sumber daya komputasi besar dan memori yang tinggi. LoRA mengatasi hal ini dengan memproyeksikan perubahan parameter model ke dalam ruang pangkat rendah, di mana perubahan kecil dan terarah dapat diwakili secara efisien dengan parameter yang lebih sedikit.
Dalam praktiknya, LoRA menguraikan matriks besar dari parameter model menjadi dua matriks dengan pangkat lebih rendah, sehingga memperkecil dimensi parameter yang diperbarui. Dengan demikian, teknik ini mempertahankan performa model yang baik pada berbagai tugas, sekaligus mengurangi overhead komputasi dan memori yang diperlukan selama proses adaptasi atau fine-tuning.
LoRA telah menjadi populer dalam aplikasi seperti penyesuaian model bahasa besar pada domain spesifik, di mana pengurangan sumber daya yang dibutuhkan sangat penting untuk penerapan yang lebih luas dan efisien.
Rilis
[sunting | sunting sumber]Rilis model meliputi:
- V1.4, Agustus 2022[45]
- V1.5, Oktober 2022[46]
- V2.0, November 2022[47]
- V2.1, Desember 2022[48]
- SDXL 1.0, Juli 2023[49]
Penggunaan dan kontroversi
[sunting | sunting sumber]Stable Diffusion tidak mengklaim hak cipta atas gambar yang dihasilkan dan secara bebas memberikan hak cipta pada gambar yang dihasilkan dari model kepada pengguna asalkan konten gambar tidak ilegal atau membahayakan individu. Kebebasan yang diberikan kepada pengguna atas penggunaan gambar telah menyebabkan kontroversi tentang etika kepemilikan, karena Stable Diffusion dan model generatif lainnya dilatih dari gambar yang dilindungi hak cipta tanpa persetujuan pemilik.[50]
Karena gaya seni dan komposisi tidak memiliki hak cipta, seringkali ditafsirkan bahwa pengguna Stable Diffusion yang menghasilkan gambar karya seni tidak dapat dianggap melanggar hak cipta terhadap karya visual yang serupa.[51] Namun, individu yang digambarkan dalam gambar yang dihasilkan dapat dilindungi oleh hak kepribadian jika gambar mereka digunakan, dan kekayaan intelektual seperti logo merek yang dapat dikenali masih dilindungi oleh hak merek dagang.[51] Namun, sejumlah seniman visual menyatakan kekhawatiran bahwa penggunaan luas perangkat lunak sintesis gambar seperti Stable Diffusion dapat berpotensi menyebabkan seniman manusia, bersama dengan fotografer, model, sinematografer, dan aktor, secara bertahap kehilangan viabilitas komersial terhadap pesaing berbasis kecerdasan buatan.
Stable Diffusion lebih permisif dalam jenis konten yang mungkin dihasilkan pengguna, seperti gambar kekerasan atau eksplisit secara seksual, dibandingkan dengan produk kecerdasan buatan generatif komersial lainnya.[52] Mengatasi kekhawatiran bahwa model tersebut dapat digunakan untuk tujuan yang tidak pantas, CEO Stability AI, Emad Mostaque, berpendapat bahwa "[itu] adalah tanggung jawab masyarakat, apakah mereka etis, bermoral, dan legal dalam cara mereka mengoperasikan teknologi ini", dan menempatkan kemampuan Stable Diffusion ke tangan publik akan menghasilkan teknologi yang memberikan manfaat, terlepas dari potensi konsekuensi negatifnya. Selain itu, Mostaque berpendapat bahwa niat dibalik tersedianya Stable Diffusion secara terbuka adalah untuk mengakhiri kontrol dan dominasi korporasi atas teknologi tersebut, yang sebelumnya hanya mengembangkan sistem kecerdasan buatan tertutup untuk sintesis gambar.[52] Hal ini tercermin dari fakta bahwa batasan yang diterapkan oleh Stability AI pada konten yang dihasilkan pengguna dapat dengan mudah dilewati karena ketersediaan kode sumber.[50]
Gugatan
[sunting | sunting sumber]Pada Januari 2023, tiga seniman: Sarah Andersen, Kelly McKernan, dan Karla Ortiz mengajukan gugatan pelanggaran hak cipta terhadap Stability AI, Midjourney, dan DeviantArt, mengklaim bahwa perusahaan-perusahaan tersebut telah melanggar hak jutaan artis dengan melatih model kecerdasan buatan pada lima miliar gambar diambil dari web tanpa persetujuan dari seniman aslinya.[53] Di bulan yang sama, Stability AI juga digugat oleh Getty Images karena menggunakan gambarnya dalam data pelatihan.[54]
Pada Juli 2023, Hakim Distrik AS William Orrick menolak sebagian besar tuntutan hukum yang diajukan oleh Andersen, McKernan, dan Ortiz tetapi mengizinkan mereka mengajukan keluhan baru.[55]
Lisensi
[sunting | sunting sumber]Tidak seperti model lainnya seperti DALL-E, Stable Diffusion membuat kode sumbernya tersedia[56][8] beserta dengan model (bobot pralatih). Lisensi yang berlaku adalah Creative ML OpenRAIL-M, sebuah lisensi kecerdasan buatan yang memiliki misi "bertanggung jawab sampai ke model".[57] Lisensi ini melarang sejumlah kasus penggunaan, seperti tindakan kriminal, fitnah, pelecehan, doksing, "mengeksploitasi ... anak di bawah umur", memberikan nasihat medis, membuat kewajiban hukum secara otomatis, memproduksi bukti hukum, dan "mendiskriminasi atau melakukan tindakan kekerasan terhadap individu dan kelompok berdasarkan ... perilaku sosial atau ... karakteristik pribadi atau kepribadian ... [atau] kategori dan karakteristik yang dilindungi hukum".[58][59] Pengguna memiliki hak cipta terhadap gambar keluaran dan diperkenankan menggunakannya secara komersial.[60]
Lihat pula
[sunting | sunting sumber]Referensi
[sunting | sunting sumber]- ^ "Stable Diffusion 3.5". stability.ai. Diarsipkan dari versi asli tanggal October 23, 2024. Diakses tanggal October 23, 2024.
- ^ Ryan O'Connor (August 23, 2022). "How to Run Stable Diffusion Locally to Generate Images". Diakses tanggal May 4, 2023.
- ^ Setiyawan, Iwan (2023-03-06). "Hak Cipta dan Kebebasan Berkarya di AI". kompas.id. Diakses tanggal 2023-08-18.
- ^ "Diffuse The Rest - a Hugging Face Space by huggingface". huggingface.co. Diarsipkan dari versi asli tanggal 2022-09-05. Diakses tanggal 2022-09-05.
- ^ "Leaked deck raises questions over Stability AI's Series A pitch to investors". sifted.eu. Diakses tanggal 2023-06-20.
- ^ "Revolutionizing image generation by AI: Turning text into images". www.lmu.de. Diakses tanggal 2023-06-21.
- ^ Mostaque, Emad (November 2, 2022). "Stable Diffusion came from the Machine Vision & Learning research group (CompVis) @LMU_Muenchen". Twitter (dalam bahasa Inggris). Diakses tanggal 2023-06-22.
- ^ a b c d e f "Stable Diffusion Repository on GitHub". CompVis - Machine Vision and Learning Research Group, LMU Munich. 17 September 2022. Diakses tanggal 17 September 2022.
- ^ "The new killer app: Creating AI art will absolutely crush your PC". PCWorld. Diarsipkan dari versi asli tanggal 2022-08-31. Diakses tanggal 2022-08-31.
- ^ "The AI Founder Taking Credit For Stable Diffusion's Success Has A History Of Exaggeration". www.forbes.com. Diakses tanggal 2023-06-20.
- ^ Korn, Jennifer (2023-01-17). "Getty Images suing the makers of popular AI art tool for allegedly stealing photos". CNN (dalam bahasa Inggris). Diakses tanggal 2023-01-22.
- ^ Wiggers, Kyle (17 October 2022). "Stability AI, the startup behind Stable Diffusion, raises $101M". Techcrunch (dalam bahasa Inggris). Diakses tanggal 2022-10-17.
- ^ "Stable diffusion pipelines". huggingface.co.
- ^ a b c d e f Baio, Andy (2022-08-30). "Exploring 12 Million of the 2.3 Billion Images Used to Train Stable Diffusion's Image Generator". Waxy.org (dalam bahasa Inggris). Diakses tanggal 2022-11-02.
- ^ "This artist is dominating AI-generated art. And he's not happy about it". MIT Technology Review (dalam bahasa Inggris). Diakses tanggal 2022-11-02.
- ^ Ivanovs, Alex (2022-09-08). "Stable Diffusion: Tutorials, Resources, and Tools". Stack Diary (dalam bahasa Inggris). Diakses tanggal 2022-11-02.
- ^ Schuhmann, Christoph (2022-11-02), CLIP+MLP Aesthetic Score Predictor, diakses tanggal 2022-11-02
- ^ "LAION-Aesthetics | LAION". laion.ai (dalam bahasa Inggris). Diarsipkan dari versi asli tanggal 2022-08-26. Diakses tanggal 2022-09-02.
- ^ Mostaque, Emad (August 28, 2022). "Cost of construction". Twitter (dalam bahasa Inggris). Diarsipkan dari versi asli tanggal 2022-09-06. Diakses tanggal 2022-09-06.
- ^ a b c "CompVis/stable-diffusion-v1-4 · Hugging Face". huggingface.co. Diakses tanggal 2022-11-02.
- ^ Wiggers, Kyle (2022-08-12). "A startup wants to democratize the tech behind DALL-E 2, consequences be damned". TechCrunch (dalam bahasa Inggris). Diakses tanggal 2022-11-02.
- ^ a b c d "Stable Diffusion with 🧨 Diffusers". huggingface.co. Diakses tanggal 2022-10-31.
- ^ a b c "Stable Diffusion 2.0 Release". stability.ai. Diarsipkan dari versi asli tanggal December 10, 2022.
- ^ "LAION". laion.ai (dalam bahasa Inggris). Diakses tanggal 2022-10-31.
- ^ "Announcing SDXL 1.0". Stability AI (dalam bahasa Inggris). Diakses tanggal 2023-08-18.
- ^ "hakurei/waifu-diffusion · Hugging Face". huggingface.co. Diakses tanggal 2022-10-31.
- ^ Seth Forsgren; Hayk Martiros. "Riffusion - Stable diffusion for real-time music generation". Riffusion. Diarsipkan dari versi asli tanggal December 16, 2022.
- ^ Mercurio, Anthony (2022-10-31), Waifu Diffusion, diakses tanggal 2022-10-31
- ^ Smith, Ryan. "NVIDIA Quietly Launches GeForce RTX 3080 12GB: More VRAM, More Power, More Money". www.anandtech.com. Diakses tanggal 2022-10-31.
- ^ Dave James (October 28, 2022). "I thrashed the RTX 4090 for 8 hours straight training Stable Diffusion to paint like my uncle Hermann". PC Gamer. Diarsipkan dari versi asli tanggal November 9, 2022.
- ^ "NovelAI Improvements on Stable Diffusion". NovelAI. October 11, 2022. Diarsipkan dari versi asli tanggal October 27, 2022.
- ^ Yuki Yamashita (September 1, 2022). "愛犬の合成画像を生成できるAI 文章で指示するだけでコスプレ 米Googleが開発". ITmedia Inc. (dalam bahasa Jepang). Diarsipkan dari versi asli tanggal August 31, 2022.
- ^ "Stable Diffusion Repository on GitHub". CompVis - Machine Vision and Learning Research Group, LMU Munich. 17 September 2022. Diakses tanggal 17 September 2022.
- ^ Meng, Chenlin; He, Yutong; Song, Yang; Song, Jiaming; Wu, Jiajun; Zhu, Jun-Yan; Ermon, Stefano (August 2, 2021). "SDEdit: Guided Image Synthesis and Editing with Stochastic Differential Equations". arΧiv:2108.01073 [cs.CV].
- ^ "Stable Diffusion Repository on GitHub". CompVis - Machine Vision and Learning Research Group, LMU Munich. 17 September 2022. Diakses tanggal 17 September 2022.
- ^ a b c d "Stable Diffusion web UI". GitHub. 10 November 2022.
- ^ "Stable Diffusion with 🧨 Diffusers". huggingface.co. Diakses tanggal 2022-10-31.
- ^ invisible-watermark, Shield Mountain, 2022-11-02, diakses tanggal 2022-11-02
- ^ A bot will complete this citation soon. Click here to jump the queue. MISSING LINK. .
- ^ "Stable Diffusion v2.1 and DreamStudio Updates 7-Dec 22". stability.ai. Diarsipkan dari versi asli tanggal December 10, 2022.
- ^ a b Luzi, Lorenzo (2022-10-21). "Boomerang: Local sampling on image manifolds using diffusion models". MISSING LINK. .
- ^ Bühlmann, Matthias (2022-09-28). "Stable Diffusion Based Image Compression". Medium (dalam bahasa Inggris). Diakses tanggal 2022-11-02.
- ^ A bot will complete this citation soon. Click here to jump the queue"Adding Conditional Control to Text-to-Image Diffusion Models". 10 February 2023. MISSING LINK. .
- ^ Yuanzhi Li, Edward Hu (2021-10-16). "LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS". LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS. Version 2: 26.
- ^ "CompVis/stable-diffusion-v1-4 · Hugging Face". huggingface.co. Diakses tanggal 2023-08-17.
- ^ "runwayml/stable-diffusion-v1-5 · Hugging Face". huggingface.co. Diakses tanggal 2023-08-17.
- ^ "stabilityai/stable-diffusion-2 · Hugging Face". huggingface.co. Diakses tanggal 2023-08-17.
- ^ "stabilityai/stable-diffusion-2-1 · Hugging Face". huggingface.co. Diakses tanggal 2023-08-17.
- ^ "stabilityai/stable-diffusion-xl-base-1.0 · Hugging Face". huggingface.co. Diakses tanggal 2023-08-17.
- ^ a b Cai, Kenrick. "Startup Behind AI Image Generator Stable Diffusion Is In Talks To Raise At A Valuation Up To $1 Billion". Forbes (dalam bahasa Inggris). Diakses tanggal 2022-10-31.
- ^ a b "高性能画像生成AI「Stable Diffusion」無料リリース。「kawaii」までも理解し創造する画像生成AI". Automaton Media (dalam bahasa Jepang). August 24, 2022.
- ^ a b Ryo Shimizu (August 26, 2022). "Midjourneyを超えた? 無料の作画AI「 #StableDiffusion 」が「AIを民主化した」と断言できる理由". Business Insider Japan (dalam bahasa Jepang).
- ^ Vincent, James (January 16, 2023). "AI art tools Stable Diffusion and Midjourney targeted with copyright lawsuit". The Verge.
- ^ Korn, Jennifer (2023-01-17). "Getty Images suing the makers of popular AI art tool for allegedly stealing photos". CNN (dalam bahasa Inggris). Diakses tanggal 2023-01-22.
- ^ Brittain, Blake (2023-07-19). "US judge finds flaws in artists' lawsuit against AI companies". Reuters (dalam bahasa Inggris). Diakses tanggal 2023-08-06.
- ^ "Stable Diffusion Public Release". Stability.Ai. Diarsipkan dari versi asli tanggal 2022-08-30. Diakses tanggal 2022-08-31.
- ^ "From RAIL to Open RAIL: Topologies of RAIL Licenses". Responsible AI Licenses (RAIL) (dalam bahasa Inggris). 18 August 2022. Diakses tanggal 2023-02-20.
- ^ "Ready or not, mass video deepfakes are coming". The Washington Post. 2022-08-30. Diarsipkan dari versi asli tanggal 2022-08-31. Diakses tanggal 2022-08-31.
- ^ "License - a Hugging Face Space by CompVis". huggingface.co. Diarsipkan dari versi asli tanggal 2022-09-04. Diakses tanggal 2022-09-05.
- ^ Katsuo Ishida (August 26, 2022). "言葉で指示した画像を凄いAIが描き出す「Stable Diffusion」 ~画像は商用利用も可能". Impress Corporation (dalam bahasa Jepang).