構図の中に2人入ってくると難易度があがる。顔の描きかたは細かく指定できるわけではないので、試行回数を増やしてなんとか違和感がないのを選ぶしかない。

顔は顔で生成すると割り切って考えると、服をちゃんと指定するほうが楽しい。frill trim top は希望通りにいきやすい。corset や bodice もいいけど、胸元が開く傾向が強い。

  1. トップ
  2. photoshopped
  3. Stable Diffusion 日記 #11
  1. トップ
  2. stablediffusion
  3. Stable Diffusion 日記 #11
  1. トップ
  2. photo
  3. Stable Diffusion 日記 #11



blonde hair は顔が綺麗になりやすい気がする。

2枚目、手が綺麗に描画されているのはかなり珍しい。

3枚目は bird's eye view で唯一それっぽくなったもの。

waifu diffusion とかのイラストの追加学習をしたモデルをボチボチ試してはいるけど、うまく好みのベクトルがあわせられなくてピンときてなく、使えていない。顔だけバリエーションを増やせたらいいんだけど、画風を伝える手段に乏しい。生成した画像のうち好みのものを集めてファインチューンとかしたほうが効率いいかもしれない。

  1. トップ
  2. photo
  3. Stable Diffusion 日記 #10
  1. トップ
  2. photoshopped
  3. Stable Diffusion 日記 #10
  1. トップ
  2. stablediffusion
  3. Stable Diffusion 日記 #10



場合によっては腰から上、首から上と段階的に解像度を上げていくといいときもある。元絵に書きこみたいときは strength を弱めて (0.25~0.4)、ddim_steps を増やすといいことがある。めっちゃ崩れてるけど雰囲気は維持しつつなんとかしてほしいときは strength を強める (0.75まで)

まったく同じpromptでも、img2img の元がある場合、そこの顔の輪郭で絵柄が決まってくることがあって不思議

  1. トップ
  2. photoshopped
  3. Stable Diffusion 日記 #9
  1. トップ
  2. stablediffusion
  3. Stable Diffusion 日記 #9
  1. トップ
  2. photo
  3. Stable Diffusion 日記 #9



どのベクトルのせいかわからんけど蝶はなんかキモくなる。イラスト的デフォルメをせず蛾っぽく胴が太く描かれることが多い。

urban city はどうも台湾風になる感じがする。台湾に行ったことはないが

日記と書いてるが数日遲れの画像なので、特徴がないとどういう prompt 使ったかわからない。

正面の顔はいいけど、横顔、振り返り顔、上目遣いみたいな感じの角度は Stable Diffusion も苦手で相当ガチャってもうまく生成されず諦めることがある。構図的には正面顔というのは特殊なので不思議な感じはする。

  1. トップ
  2. photoshopped
  3. Stable Diffusion 日記 #8
  1. トップ
  2. stablediffusion
  3. Stable Diffusion 日記 #8
  1. トップ
  2. photo
  3. Stable Diffusion 日記 #8

0.0~1.0 まで指定する。イメージとしては 0.75 なら元画像の75%をノイズに変えた状態から復元をするという感じ。

顔が支配的な画像に対して img2img をする場合、0.5 なら輪郭はほぼそのままで顔の内部が変わる。0.75 なら輪郭も結構変更するし、場合によっては向いてる方向も変わる。

  1. トップ
  2. stablediffusion
  3. img2img の strength

800円弱ぐらいで買えてしまうカーボンノギス。スペック上は器差±0.2mm、表示上は0.1mm。安いアナログノギスの変わりには十分だろう。

センサは静電容量式のようだ。

良いところ

  • 電源オフ状態で動かすと起動する (表示がでる)
    • というか電池を入れている間はずっと測定しっぱなしのようだ
  • そこそこ早く動かしても値飛ばしがない
  • 表示がデカい
  • すべりも悪くない
  • 軽い
  • 安い

悪いところ

今のところない。電池持ちが心配。

PNG にはメタデータを保存するチャンクがある。Python からも簡単に読み書き可能なので、ここに prompt を保存しておくと、あとから参照したいときに便利になる

img が PIL の Image だとして、save を呼びだしているとこに pnginfo というのを足してあげる。

from PIL.PngImagePlugin import PngInfo

# ...

metadata = PngInfo()
metadata.add_text("prompt", "foo bar baz")
img.save("./outputs/0.png", pnginfo=metadata)

読み出し

#!/usr/bin/env python
import sys
from PIL import Image
from PIL.PngImagePlugin import PngInfo

img = Image.open(sys.argv[1])
print(img.text['prompt'])
  1. トップ
  2. stablediffusion
  3. Stable Diffusion で prompt 情報を画像に保存しておく
  1. トップ
  2. tech
  3. Stable Diffusion で prompt 情報を画像に保存しておく