マンガの画像生成する前に、顔データを作りこんでおくと後々の作業が楽
学習データセット(テキスト+顔画像)を作成して、漫画作成全体で使う基本顔を決める。
この顔を基本顔にしたい
メッシュの入り方、色が足りない
クリーム色メッシュ多くして。と文字でいうとこんな感じ
教師画像を増やすため、自分で修正画像をつくった
「このキャラクターについて描写してください。下記を重視してください
・目、鼻、頭、首、耳、眉等のパーツの形状の描写
・色はWebcolorで提示(それでもブレるけど)
・髪型
・装飾品
・化粧
・服装
」
ぶれやすい部分がある場合。しつこく解説させる。
例:髪のメッシュの比率が崩れやすい
「髪型とメッシュについてのみできる限り詳しく描写してください 」
定型顔を作る際に気をつけること
・比率は言葉で描写させない。GPTは細かい数値で画像生成を扱ってないので、数字でいってもかなりズレる。
・表情を言葉で描写させない。毎回の生成がその表情に引っ張られて厄介。
顔パターンを作成する
表情パターン・角度パターンについて作成する。
表情パターンは同一角度で、角度パターンを作るときは同一表情で作成する。
GPTは与えられたデータが、何を目的に与えられたデータなのか、そのデータ群の差分、で学ぶため変化させたいところ以外は変化させない方が学習が最大化するらしい。
表情差分
角度差分
前提として、GPTの仕様によりチャットスレッドを別にすると前までのデータが無くなる。(メモリ、プロジェクトデータを利用してるとそれらの影響は多少残る)
よって毎回のチャット開始時に、上記の教師データを与える
逆にいえば過去の生成データを画像生成に影響させたくないときは、さっさと別のチャットで生成を開始する。
学習させても完璧に学ぶわけじゃない。でも構図を提示するときに画像教師データ群をつくっとくと楽なのでおススメです。
学習データ渡しても、顔がズレるのが普通。さらに何回も同じ教師データを与えて、「添付画像にしたがって直してください」と伝える。何が正解か。を繰り返すことで、GPTが作ったイマイチな絵と、与えられた絵の差分をそのたびに学習させる。2,3回で安定する。
・生成した画像が良かった場合は👍ボタンをおす。ダメな場合はバッドボタンを押す。それでGPT側が、ユーザーが何を求めてるのかを学習できるようにする。言葉でよかった部分を褒めるほうが出力が維持される傾向がある
テキストだと年齢やデフォルメ具合がブレる。アニメ絵を表現する言葉にはだと(CHIBI)の成分が入ってきて低年齢化が進む。おそらく固定化できる文章プロンプトはありそうだけど、それより画像プロンプトで毎回提示したほうが早い。
GPTは言語で説明してもアニメキャラの年齢の差は見分けつかないのかもしれない
幼稚園くらいになった。そもそも作品が変わると、目の位置やサイズでの年齢表現も変わるから仕方ない。GPT悪くない
文章プロンプトで絵柄を再現しようとするより、チャットスレッドが変わるたびに教師画像を与えてそれをGPTに毎回解説させたほうが、認識精度上がる。
生成画像と教師画像を比較して、違うと思った部分を突っ込んで、細かく解説させると維持されやすい。(二重瞼だったり、目の位置だったり)
また、上手く描写されなかった部分がなぜ発生したか。をGPTに聞くと理由を教えてくれる。GPTの自動補正によることが多い。自動補正については別のページで扱う。