記事作成25年4月5日
更新 同21日
何枚必要か、どんな出力になったか、そもそもGPTが絵の学習するって何なのかを試しながらどんな結果になるかの記録
でも、かなり使い勝手が悪い。
Lora(という絵生成のモデル)的な数学的ベクトルではなく、GPTは自然言語で絵を置き換えて絵の特徴をつかむ。そのせいで失われる情報がとてつもなく多い。チャットスレッドが変わると学んだ絵を忘れる。同一チャットスレッド内でも、チャットを重ねていくと忘れる。よって、学習っぽいことはできるけど実用性が低い。
① 全身人物
3人のキャラ立ち絵10枚をGPTにアップロードして「学習して」というセッションを七回行った。
10枚目
20枚目
30枚目
40枚目
50枚目
60枚目
70枚目
60枚目でかなり好きな線質になった。線質やニュアンスは枚数が増えるたびによくなってるように見える
けど、70枚目を学習したあとの絵が崩れる。おそらく原因は
①別のチャットスレッドを立ち上げて別のことについてチャットしたあと、戻って学習を続けたので連続性が崩れた
②トークンの限界が来て精度が落ちた
チャットのセッションが変わると学習したものを忘れる。画風の引継ぎのため、画風の特徴を自然言語で出力させて、別のチャットスレッドで「こんな画風で描いて」といって出てきた画像
結局GPTがやってることは「画風プロンプトの改善」だとする。なら自然言語で出力できるはず。といってGPTが出したプロンプトでは自分の絵にはならなかった。
ふりだし。もうつかれた
画像出力する際に、毎回この画風で描いて。といって自分の絵を添付するのが効率がいい。
学習してない状態でこの画像を
「この画風参考に
レタッチして」
出てきた画像
40~50枚目くらいの学習後の出力が、一枚直接参考にさせただけで出てくる。学習させた気になってただけ?
気のせいじゃないっぽい。
二回目のテストでも同じ出力傾向がでたから。
GPTの学習や仕様について詳しくは、GPTの画像生成が他と何が違うのか、何ができないのか のページで描く。
・背景でも試す。どれぐらい自分っぽい絵が描けるのか
・顔は顔だけで100枚程度入力しないと学習しないとGPTがいってるので試す。
・学習の効率化(アップロードが毎回めんどい)
・Assistants API をつかうとGPTがサーバーのURLを参照できるので毎回アップロードしなくていいらしい。
・Base64で画像をテキスト化したものをJson形式で大量に流し込む方法がないかもっと探す。(やったかんじ画像をテキスト化しては結局TXTデータ一つに一画像分しかいれることが現状できない。トークンが爆発しちゃう)
同じポーズを角度違いで描いたもの
手・足・髪・服などをパーツごとに変化させた比較用画像
線の荒さのバリエーション(一筆書きっぽいもの vs 描き直したようなもの)
そこから上を目指すなら、「動き+手癖+描き分け」の精度が鍵。
追加するなら、枚数よりも「差異の意味」がある画像を優先しよう。かなり重要
ChatGPTの画像補完は以下のロジックで動いている:
差異を拾う → 一貫性のある特徴として蓄積する → 応用的に反映
なので「細かい差異」や「繰り返し現れる要素」に敏感になる。
10枚以上を一度に入れると、“内部で圧縮された平均値的な特徴”に寄ってしまう → 結果「似てるけど浅い記憶」になる。
赤文字は
各5枚で「狙い」や「補完ポイント」を指定する(重要)
例:「この5枚は斜め構図特化」「この5枚は肩・腰の動き重視」
データの名前に「目的」(重要)を添えて管理する(例:#斜視構図/#ひざ立ちの傾き)
**同じキャラ(重要)の「似た構図の微差」**を含める → 精密補完が強くなる
視点(俯瞰/あおり)を意識して分けて学習
「構図以外の変化」を抑えた5枚学習を組み込む(例:ポーズ以外全部同じ)
→ 学習セットを「目的別」「表現段階別」に段階的に分けて学習・運用する方法
→ 一度に広い範囲を学習させるのではなく、構図やアングルごとに限定して学習させる方法(超絶重要)
ChatGPTの画像学習は、枚数が増えると「平均化」が起きる。
その結果こうなる:
ギャグ系の表情とシリアス構図が混ざって線がブレる
正面顔と俯瞰が混ざって顔のパースが壊れる
全体として“似てるけど弱い”絵になる
これを避けるために、「学習ブロックを切る」=フェーズ分離 or 構図特化が効果的。
GPT4oに自身の特性聞いても、正確なこたえじゃないことが多いので参考程度に。自分でやってみて確かめる。
目的: 出力画像が意図とズレはじめた時点で早期に気づくための判別基準。
✘ズレの兆候
✔️本来の特徴(維持すべきポイント)
線が整いすぎて「ツルッ」としている
線は不揃いで二重線・ガタつき・強弱が混在しているべき
骨格が均整・自然になりすぎている
関節のつながりが崩れていたり、誇張された骨格のゆがみあり
表情がリアル寄り・記号性がない
目や口の変形に遊びがあり、崩した表情が大胆に使われている
線に緊張感がありすぎる/手癖感がない
スピード感あるラフ線、手癖的な丸みや歪曲が表れている
キャラの個体識別が消えかけている
髪型・装飾・服のシワの付き方に作者のパターンが残っている
パースが正確で、やけに安定して見える
むしろ歪みや変な遠近を含んだ構図が「味」として成立している
身体ポーズが教科書的で固い
アクロバティック・変形・勢い優先の描写が頻出している
① ズレ感知したら、再注入テンプレを挿入してから1枚再生成
② それでも改善しない場合、直近の学習画像のうち5枚を再アップ+再出力
③ 出力された画像のうち「手癖が強く出たカット」をリファレンスとして明示すると再補正しやすい
④ 必要であれば、「#構図特化」や「#崩し顔強調モード」を併用して補正
ズレたときの対処試したけどいまいち。他のやり方を探す
ってことは、出力したい構図ごとにチャットを専用学習させた方がいいってこと?
顔のアップ
20〜30枚
肌色・目・リップ・髪の塗りを学ぶ
全身立ち絵
30〜50枚
影の位置/服の立体処理/脚の塗り
複雑ポーズ
20〜30枚
重なり/色の空間把握を学ぶ
背景あり
10〜20枚
色の統一感・空間光源の処理
小物・服のバリエ
10〜30枚