【AI画像生成+ラフ清書】Stable Diffusionの使い方【人工知能】

スポンサーリンク

はじめに

今回は画像生成を行うAI「Stable Diffusion」を使う方法を紹介します。

この2つのことができます。
・テキストから画像生成
・ラフの清書

DreamStudioというWEBサービスの使い方から、Google Colaboratorで自力で動かす方法までを解説。

追記:GUI版使い方解説

NMKD GUIの使い方を解説しました。
こちらは機能制限なく、自由に画像を生成できます。

これからStable Diffusionを使いたい方は、こちらの方が実用的でおすすめ。

もっとも簡単に使う方法

「DreamStudio」を使います。
これはStable Diffusionのβ版として公開されたWEBサービスです。

テキストから画像の生成が行えます。

DreamStudioの使い方

こちらのページにアクセス。
Gmailなどでユーザー登録。

DreamStudio

グーグル翻訳をかけます。

ユーザーのアイコンをクリック。
メンバーシップを選択。

£2の表記が出ます。
その下にある200世代がクレジット数です。
=最初から200クレジットが配布された状態。

元のページに戻ります。
テキストを入力すると、その絵が生成されます。
(日本語でも大丈夫ですが、翻訳ミスが起こるので英語がおすすめ)

右上にある1.0Creditが1回の生成で使われるクレジット数です。

いま2回、画像を生成したので2クレジット使われました。

右側で生成パラメーターを操作できます。
画像数以外は触らない方が良いです。

画像数を上げると「使用クレジット」×「画像数」のクレジットが消費されます。
この画像の場合、1クレジット×4画像数=4クレジット使われます。

画像サイズの上げ方

画像の大きさを上げると処理が重くなり、クレジット消費が大きくなります。
なので、画像サイズを上げる場合は「swinir」を使って上げます。

jingyunliang/swinir – Run with an API on Replicate
Image Restoration Using Swin Transformer

まず、好きな画像を生成。
真ん中の保存ボタンで保存。

swinir」のページにアクセス。
画像をドラッグ&ドロップ。

jpeg下の数値を10~30などに設定します。大きすぎるとエラーで落ちます。
Submitで大きい画像を生成。

Downloadを押して保存。

これで画像のサイズを上げることができます。

指示テキストの描き方

DreamStudioの右側、プロンプトガイドを選択。
すると、テキストの書き方のコツが見れます。

英語なので書き方のコツ要約。

コツ=◆1 ~ 4のワードを入れる

◆1:固有名詞
生成したい物の名前(パンダ、ねこ、魚など)
ほとんどの人がここだけ入れるが、上手く行かない。
なので次以降、紹介するテキストを入れる。

◆2:画風
 → 画風の例
・Realistic(リアリズム)
・Oil painting(油絵)
・Pencil drawing(鉛筆画)
・Concept art(コンセプトアート)
・hyperrealistic(ハイパーリアリスティック)
・realistic(リアリスティック)
・a photo of/ a photograph of (写真)


◆3:アーティスト名
画風をより明確にするため、アーティスト名を入れる
「made by Pablo Picasso / Picasso / by ピカソ」といった形で追加。

 → 肖像画家の例
・ジョン・シンガー・サージェント
・エドガー・ドガ
・ポール・セザンヌ
・ヤン・ファン・エイク

 → 油絵画家の例
・レオナルド・ダ・ヴィンチ
・ヴィンセント・ヴァン・ゴッホ
・ヨハネス・フェルメール
・レンブラント

 → 鉛筆・ペン画家の例
・アルブレヒト・デューラー
・レオナルド・ダ・ヴィンチ
・ミケランジェロ
・ジャン=オーギュスト=ドミニク・アングル

 → ランドスケープアート画家の例
・トーマス・モラン
・クロード・モネ
・アルフレッド・ビアシュタット
・フレデリック エドウィン教会

…など
見た目的に面白くするために、複数のアーティスト名を入れる事をおすすめ。

◆4:詳細情報
何でも追加できます。
Artstationのトレンド絵「trending on art station」。
リアルなライティングを追加したい場合は、「Unreal Engine」というワード。
…など。

公式の例文はこちら。
「Highly detailed, surrealism, trending on art station, triadic color scheme, smooth, sharp focus, matte, elegant, the most beautiful image ever seen, illustration, digital paint, dark, gloomy, octane render, 8k, 4k, washed colors, sharp, dramatic lighting, beautiful, post processing, picture of the day, ambient lighting, epic composition」

また、Twitterで「Stable Diffusion 呪文」で検索すると綺麗な絵を描けるワードが出てきます。

これらのワードを入れます。

ちなみに、一番最初に、例として書かれていたテキストの意味はこちら。

◆固有名詞
(遠い銀河の夢)
A dream of a distant galaxy,

◆画風/アーティスト名
(カスパー・ダーヴィト・フリードリヒ作)
by Caspar David Friedrich,

◆詳細情報
(マットペイント)
matte painting

(アートステーションHQのトレンド)
trending on Artstation HQ

このように入力すると、生成できます。
日本系のイラストレーターは、あまりうまくいかないです。

油絵系の物、西洋絵画関係は上手く行きやすいです。

以上がもっとも簡単に使う方法です。

クレジット上限を気にせず使う方法

「DreamStudio」はクレジットの上限が決まってます。

が、Stable Diffusion単体はGit Hubで無料で配布されてます。
自分の環境でこれを実行できればクレジットを気にせず作れます。

必要なもの

必要なものはこちら。
・Hugging Faceアカウント登録
・Hugging Faceでの利用規約同意
・Hugging Faceを利用するトークン取得
・Googleアカウント+ドライブの容量
・Google Colaboratoryアカウント登録
・ VRAMが10G以上のPC(グラボの性能の話)

Hugging Face登録関連

この3つを行います。

・Hugging Faceアカウント登録
・Hugging Faceでの利用規約同意
・Hugging Faceを利用するトークン取得

こちらのページにアクセス

Hugging Face – The AI community building the future.
We’re on a journey to advance and democratize artificial intelligence through open source and open science.

Sign Upでアカウントを作ります。
指示に従って作成すれば、アカウント登録が完了です。

次に、ログインした状態でこちらのページにアクセス。

CompVis/stable-diffusion-v1-4 · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.

Googleで日本語に翻訳。
Stable Diffusionを使うための利用規約に同意。

リポジトリのアクセスをクリック。
これで利用規約の同意が完了です。

最後に、こちらにアクセス。

Hugging Face – The AI community building the future.
We’re on a journey to advance and democratize artificial intelligence through open source and open science.

New Tokenをクリック。
好きな名前を設定。
Roleで「Write」を選択。

Genetate a tokenを押します。
これでトークン取得が完了です。

右側の所でコピーして使う事になります。

以上で、Hugging Face登録関連が完了です。

Google関係登録

まず、Gmailを取得します。
これで、Googleアカウント、ドライブとGoogle Colaboratoryアカウントが自動で取得できます。

Gmailはこちらより登録。

Gmail アカウントの作成 - Gmail ヘルプ
Gmail をお使いになるには、Google アカウントを作成してください。Gmail のほかにも、YouTube、Google Play、Google ドライブなどの Google サービスにユーザー名とパスワードを使用してログインできます。 Gmail アカウ

登録できましたら、こちらにアクセス。
Google Colaboratoryが使えるかを確認。

Google Colab

「Colaboratoryへようこそ」が出てきましたら、導入完了です。

以上でGoogle関係の登録が完了です。

Colaborator用のプログラム入手

こちらのページにアクセス。

others2/Stable_Diffusion.ipynb at main · cedro3/others2
Contribute to cedro3/others2 development by creating an account on GitHub.

Open in Colabを選択。

“右上の”矢印マークをクリック。
「ファイル,編集,表示…」といったUIを表示させます。

ファイル → ドライブにコピーを保存を選択。

コピーができると自動で別ウインドウが立ち上がります。
左上がグーグルドライブのマークになっていれば成功。

これでプログラムの入手が完了です。

画像の生成

こちらのトークンページを新しいタブで開きます。

Hugging Face – The AI community building the future.
We’re on a journey to advance and democratize artificial intelligence through open source and open science.

先ほど作ったトークンをコピー。

元のページに戻ります。
セットアップ下の所にトークンを貼り付け。

セットアップ左上の再生ボタンを押します。

警告が出ます。
気にせず実行します。

すると、プログラムを入手できます。

チェックマークがついたら感性です。

画像生成の所にテキストを打ち込みます。
打ち込むテキストは「DreamStudio」で紹介した方法と同じ要領で入れます。

テキストを入れて再生ボタンを押すと画像が生成されます。

画像を右クリック、もしくは下の保存プログラムを実行して保存。

これで画像の生成が完了です。

細かいパラメーターを制御したい場合

由井河あきらさんが紹介してるプログラムを入手します。
これは、より細かく設定できる画像生成プログラムです。

こちらから入手。

Google Colab

あとは、同じような手順で導入。
プログラムの一部を改変すれば使えます。

6枚の画像を同時に生成できたりするようです。

…が、専門知識が無い人間にはちょっと解説でできない一品でした。
(ごめんなさい、解説はここまで)

ラフを清書する方法

ラフ清書も同じような手順で行えます。
大きく違うのは、生成プログラム専用のUIが作られる事(便利)

ラフを清書プログラムの入手

こちらにアクセス。

others2/Stable_Diffusion2.ipynb at main · cedro3/others2
Contribute to cedro3/others2 development by creating an account on GitHub.

Open in Colabをクリック。

“右上の”矢印マークをクリック。
「ファイル,編集,表示…」といったUIを表示させます。

ファイル → ドライプにコピーを保存を選択。
これで、ラフ清書プログラムを入手できました。

一番上の再生ボタンを押してセットアップ。

警告は気にせずOKを押します。

前のプログラムを実行したままの場合、セッションが多いという警告がでます。
セッションの管理を選択。

他のセッションを終了を選択。
そして、もう一度実行。
これでエラーがなくなります。

次に「Hugging Faceへログイン」の左上の再生ボタンをクリック。
your Hugging Face Tokens pageをクリック。

トークンをコピーします。

元のページに戻ります。
Token:の所にトークンを貼り付け。

Loginをクリック。

この状態で「Hugging Faceへログイン」の再生ボタンを押します。
Login successfulの表示が出れば成功。

最後に「本体プログラム」の再生ボタンを押します。

これはずっと実行されぱなしになります・
そして下にスクロールするとStable DiffusionのUIが出てきます。

ここに任意のラフ画像を貼り付けて実行する流れになります。
これで、ラフを清書プログラムの入手が完了です。

Kritaでラフ画像作成

ペイントソフトは何でもいいです。
今回はフリーソフトKritaで画像を作ります。

基本操作はこちらで解説。

512×512pxの画像を作ります。

自由にラフ画を描きます。
フラスコマークのブラシを使うと描きやすかったです。

何を書いてもいいので、好きに描画してください。
これで、Kritaでラフ画像作成が完了です。

ラフ画像を清書する

元のプログラムページに戻ります。
先ほど書いたラフ画をドラッグ&ドロップして読み込み。

次に清書の指示テキストを書きます。
テキストは「DreamStudio」で紹介した方法と同じ要領で入れます。

Deep Lを使って翻訳すると、英語がわからなくても打てます。
文の最後に「,」を入れます。

DeepL翻訳:高精度な翻訳ツール
テキストや文書ファイルを瞬時に翻訳します。個人でもチームでも、高精度の翻訳をご活用いただけます。毎日、何百万もの人々がDeepLを使って翻訳しています。

Run左側のところにテキストを打ちます。
改行がなくなりますが、大丈夫です。

この状態でRunを押すと生成されます。

こんな感じの画像ができます。

Strengthは元の描画の残し具合。
・数値を下げると変化がなくなります
・数値を上げると元の画像が関係なくなっていきます

今回用意した画像では「0.63~0.67」がちょうどいい設定でした。

気に入った画像ができましたら右クリック。
名前を付けて画像を保存。

これでラフの清書が完了です。

ローカルで動かす(GUI版)

GUI版を使ってローカルで動かすと、大量の生成画像を長時間放置で作れます。

Windows OSで、グラボがRTX1000以上の方はこちらがおすすめ。
使い方の詳細はこちらで解説。

自分のグラボを消費するので、ゲームやVRChatなどの両立は難しいです。
が、実際に人工知能を活かしたモノづくりをしたい方はこちらがおすすめ。


イラストや3Dモデルの案出しに便利。
投資としてグラボを買ってもいいぐらいの技術革新と言えます。

詳細や利用規約

Stable Diffusionは、Stability AI社が「すごいAIを、一部の大企業や個人が独占するのは健全ではない」という思想の元オープンソースとして公開されたAIです。

WEBサービスのDreamStudioも含め、生成物はCC0=フリー素材で著作権0、商業利用可になります。
※ただし人物やロゴが特定できるものが出た場合、別の著作権問題が入るので注意。
 (生成物はOKだけど、ロゴの規約がアウト)

使ってみた感想

生成ガチャゲーでした。

確かにうまくいった時のクオリティはすごいです。
が、ハズれも多い。
抜本的に意味を理解できていないというAIの短所を感じました。

AI的な短所、この本的な言い方をするなら「読解力」。
これが決定的に足りてないという印象。

これで確かに、上手い絵は作れます。
が、人を感動させるような、何かを伝える絵は難しいです。
上手いけど、評価されないタイプの絵師の絵みたいになります。

このツールは素材づくり、絵師の作業効率化に役立つと思います。
が、根本的な「何かを伝える」表現的な部分の置き換わりはまだ遠いと感じました。

逆に、上手さという部分の価値は今後無くなるのかなという印象。
今後どんどん精度が上がって、デッサンの狂いなどは減ると思います。

なので、これから絵描きに求められるのは上手さよりも、アイデアや共感的な部分かと感じました。
また、現状の活用方法としては「案出し」「塗りなどの自動化」などが考えられます。

ツールとして使う分には非常に優秀なので是非ご活用ください。

まとめ

今回は画像生成、ラフ清書AIのStable Diffusionの使い方を紹介しました。

・もっとも簡単なのがDreamStudioを使う方法
・自力で設定すれば200トークン上限を突破できる
・ラフ清書は自力で設定しないと動かない
・利用規約はCC0
・ネットでよく見かける凄い画像は生成ガチャの成功例
・実際は上手く行かないものが多いです
・絵の素材づくりには優秀。絵そのものは少し難あり

また、Kritaでの補正方法はこちらで解説。

追記:動画版の使い方解説

こちらで動画版の使い方解説を公開しました。

ラフの描き方、考え方などの追加情報があります。
ぜひ、こちらもご覧ください。

追記2:キャラ生成+自分の環境で動かす方法

キャラ生成に特化したWaifu Diffusionが出ました。
使い方はこちらで解説してます。

Waifu DiffusionはNSWFフィルターが強すぎて自分の環境で動かさないととほぼ使い物になりません。
この自分の環境で動かす方法はこちらで解説。

RTX 10(1000版以上のグラボ)が必要になります。
VRAMは10G無くても動きます。

私は「ASUS ROG-STRIX-GTX1660TI-O6G-GAMING」を使ってます。
が…廃版になったAmazonで見るとかなりの値段になってます。

今ならROG-STRIX-RTX2060-O6G-GAMINGが私の使ってるグラボに近い性能と値段だと思います。
(3ファンを選んでる理由はただ単に見た目の好みの問題)

お金に余裕があれば3000版台がおすすめ。
3070Tiは、現在になると…比較的安くなってます。

コメント

タイトルとURLをコピーしました