画像生成AIで何ができるのか ――Stable Diffusionを試してみよう

生成AIブームがもたらしたもの

2023年のIT・インターネット界隈、さらにはビジネスの分野の主役の1つとなったのが生成AIです。

生成AIとは、その名のとおりさまざまなコンテンツを生み出すことができるAIです。ただ指示通り生み出すのではなく、自身で学習を進めながら生成・創作を行える点で、今注目を集めています。

コンピュータが普及し、ITを活用する社会に変容し始めた1990年代後半~2000年代前半にかけて、⁠これからの人間の仕事はすべてコンピュータに置き換わる」といった論調が生まれましたが、生成AIが登場した今、⁠これからの人間の仕事はすべてAIに置き換わる」といった論調が生まれ、また、さまざまなメディアでも取り上げられるようになっています。

2022年末、突如として現れたChatGPT

今の生成AIブームのきっかけとなったのは、2022年OpenAIがリリースしたChatGPTです。Webブラウザへ文章(プロンプト)を入力し、ChatGPTに質問をすると回答してくれる、というものでした。

その精度や文章表現などから、プロンプトを入力した人間側が本当に受け答えをしてくれるように感じたことで注目を集め、さらに、OpenAIの開発スピードの高さ、関連する大手企業の追従や連携などと重なり、⁠生成AI」の存在を世の中に知らしめることになりました。

生成AIが扱えるのはテキストだけではない:画像生成AIいろいろ

当初、ChatGPTではテキストのみの扱いでしたが、これは入力する情報がテキストで、回答もテキストで対応されていたからです。

しかし、生成AIで扱える技術はそれだけではありません。デジタルデータになるものであれば、インプット・アウトプット、さまざまなものが対象となります。2024年4月現在では、テキストのプロンプトから、画像や音声、音楽、さらに、今は動画の生成まで行えるようになっています。

とくに画像生成の分野は、クリエイティブの世界においてとても大きなインパクトを与えています。以下は、Microsoftが開発する生成AI、CopilotImage Creator from Microsoft Designer(以下Image Creator⁠⁠」で日本の桜が満開の景色を描いてください。と入力して指示した結果です。

Image Creatorで桜の景色を書かせた様子
001.jpg

右下にある4つ画像は生成結果の候補で、左はそのうちの1つを拡大したものとなります。

Image Creatorでは無料版で4つの画像を生成できる
002.jpg

かかった時間はほんの数十秒です(一般的なネットワーク回線+Surace 6(Windows 11)の環境⁠⁠。まずそのクオリティに驚きますが、それ以上に、もし人間が白紙にこの絵を描くとなれば、数十秒では無理です。

これが画像生成AIの2024年現在の実力です。

なお、画像生成AIとしては、他にもAdobe FireflyやMidjourneyなどさまざまなプロダクト・サービスが存在します。

ちなみに前述のCopilotによる生成AIに関しては、生成AIのエンジンとしてOpenAIが開発するDALL-E 3が使用されています。

Stable Diffusionで自分用の画像生成AIを試してみよう

画像生成AIは有償利用のものが増えている

画像生成AIは、ChatGPTよりも少し早い2022年4月、ChatGPTと同じくOpenAIが開発したDALL-E2が登場したことで認知されはじめ、翌2023年夏に、前述のMidjorneyがDiscord上で使えるようになり広く知れ渡るようになりました。

中でも、Midjourneyを利用して生成したコンテンツが、2023年8月に米国内で開催されたファインアートコンテストで1位を獲得し、その是非を含めた論争により、注目度が一気に高まったのです。

ただ、2024年現時点では画像生成AIのビジネス的な可能性や必要となるリソースの多さから、有償で提供されるか、無償でも使用回数が制限されるといったものがほとんどです。

先ほどのImage Creatorは、MicrosoftのブラウザBing上で、10クレジット(10回分)までが無償で使用できるようになっています。

OSSとしてリリースされた画像生成AI「Stable Diffusion」

それでも、この便利な画像生成AIを自由に使ってみたいと思う方が多いのではないでしょうか。それを実現するプロダクトの1つがStable Diffusionです。

Stable Diffusion
https://ja.stability.ai/stable-diffusion
Stable Diffusion公式サイト
003.jpg

Stable Diffusionは、ドイツ・ミュンヘン大学のCompVisグループが開発したテキストから画像を生成する言語モデル(生成AI)で、OSS(オープンソースソフトウェア)として公開されているため、誰もが無償で利用し、また、独自のプロダクトへ展開することなどができます。

オンラインで手軽に使える「Stable Diffusion Online」

Stable DiffusionはOSSで提供されているため、自分自身の用途に合わせたカスタマイズ、サービス展開などが可能ですが、一方で、自分自身で設定などを行わなければいけないため、少々手間がかかります。

「自分で設定するのはちょっと大変だなぁ⁠⁠、そう思った方にはStable Diffusionを利用したオンライン画像生成AIサービスの利用をおすすめします。

すでにいくつかのサービスが提供されている中、今回紹介するのはBlack Technology LTD.が提供するStable Diffusion Onlineです。

Stable Diffusion Online
https://stablediffusionweb.com/ja

このサイトにアクセスすれば、先ほどのImage Creatorと同様、プロンプトを入力するだけで希望の画像を生成できます。

先ほどとの違いは、プロンプトは英語のみ対応(2024年4月時点⁠⁠、無償版で生成される種類は1回の生成で最大2種類という点ですが、その結果はとても素晴らしいものと言えるでしょう。

Stable Diffusion Onlineの実行画面
004.jpg
Stabel Diffusion Onlineで「Draw a View of Japanese cherry blossoms in full bloom.」⁠日本の桜が満開の景色を描いてください。の英訳)と入力して実行した結果
005.jpg

いかがでしょうか。こちらでも先ほどの結果と同様に、非常にすばらしい画像が生成されています。

それでもやっぱり自分の手元の環境でStable Diffusionを試したい方は

改めてOSS版の強みについて紹介すると、このクオリティの画像生成AIを、自身のパソコンにインストールして、自分なりの使い方、制約、カスタマイズで活用できます。

もちろん、その設定自体はいろいろと大変ではありますが、画像生成AIの実力を思いっきり活用したい方には絶対おすすめと言えます。

OSSで提供されているため、いくつかの応用されたプロダクトが登場しています。

たとえば、画像生成AIのエンジン部分はStable Diffusionを使い、それをWebブラウザ用のインターフェースを開発したものです。

Stable Diffusion WebUI(AUTOMATIC1111版)
https://github.com/AUTOMATIC1111/stable-diffusion-webui

他にも、PythonやGitなどの設定までをパッケージ化した、さらに簡単にインストールが行えるStabilityMatrixというプロダクトがGitHubで公開されています。

StabilityMatrix
https://github.com/LykosAI/StabilityMatrix

さらに、WebUIと比べて画像生成の高速化、VRAM使用量の削減が図られたStable Diffusion WebUI Forgeも公開されています。

Stable Diffusion WebUI Forge
https://github.com/lllyasviel/stable-diffusion-webui-forge?tab=readme-ov-file

この他、Google Colabと連携する方法など、さまざま選択肢があるのもOSSの強みです。

ただし、たとえばGoogle Colabの場合は有料プラン契約の必要があり、生成した画像がセンシティブなものの場合、Googleアカウント停止の処分もありうるため、どの方法を選ぶかは慎重に行うことをおすすめします。

最後に:2024年以降の展望と注意点

画像生成AIを含めた生成AIの分野は、日進月歩、いや、秒進分歩と言っても過言ではないスピードで進化しています。この動きについては、開発を進める企業や組織だけではなく、国レベルでも重要視されており、社会でどう活用していくのか、国家間での意見交換や枠組みの策定を行っています。

たとえば、G7で取り決められた広島AIプロセスもその1つです。

ただ生成AIの機能を進化させるだけではなく、その結果から生まれる生成AIの便利さと生成AIがもたらす人間社会への影響、それぞれのバランスを取りながら、人間が有効に活用するために話し合いが行われています。

ですから、これから生成AIを活用するにあたり、どういうシーンで、誰が使うのか、個々人で考える必要があるでしょう。

また、創作という観点では、著作権への対応も意識しなければなりません。この扱いについては、日本とそれ以外の国・地域でも法律が異なるため、とくにインターネットサービスとして生成AIを活用する際には注意が必要です。この点は、最新技術を活用する立場として意識しておきたいところです。

以上、画像生成AIについて簡単に紹介しました。

もし少しでも興味を持った方がいれば、ぜひ技術評論社の書籍はじめてでもここまでできる Stable Diffusion画像生成[本格]活用ガイドをお読みください。

無料で使えるStable Diffusionについて、手元の環境への導入・設定方法から、生成AIを使った画像の創作、その応用について基礎から丁寧に解説しています。

さらに注意点として挙げた著作権についても、⁠画像生成AIと著作権の知っておくべき基礎知識」としてまとめた形の内容で掲載しています。

これさえ読めば、画像生成AIを個人で本格的に楽しみたい方でも納得できる内容となっています。