GPTの画像出力で、こちらの意図とずれたり惜しいところ多い。
その時に直す方法
こちらの演出意図と、GPTの意図がずれることがあるので、GPTになぜその絵(ズレた絵)を出力したのかを尋ねる。
目的(このコマで読者に何を感じてほしいか):
(例:不安感を与えたい、笑わせたい、キャラの図太さを印象づけたい、など)
アングル(ロー/俯瞰/アイレベル/アップ/遠景など):
被写体の中心(何を主役にするか):
コマ内の構成要素とその配置(主観/客観、画面の左右バランスなど):
空間の情報(屋内/屋外、どんなスケール感か):
照明や明暗の演出(光源/逆光/闇/演出的光):
小道具・掲示物・デジタル情報などの環境要素:
誰がどこに立っているか、誰が主役か:
他キャラとの距離感・目線の方向:
視線誘導を意識した並びや構図の工夫:
表情やポーズで強調する感情・内面:
背景・構図で心理を補強する演出(例:空間の広さ=孤独、傾いた角度=不安):
直前のコマとどう繋がっているか(演出面・視線誘導・テンポ):
このコマが「起・承・転・結」のどこにあたるか:
読者の注意や気持ちの変化をどこへ向けたいか:
セリフの位置(先に読ませたい or 後で効かせたい)
使用フォントや吹き出しのニュアンス(ぶれ文字、変形、黒吹きなど)
これらを聞きだした後、修正をしてGPTに伝える。直らないときはチャットを変えて上記の修正したテンプレートを伝える。
何回か画像生成してると、二枚の画像を組み合わせたら完璧。って画像が出てくる。弄って渡す。
それでも上手くいかないときは、修正画像が上手く伝わってないことが多い。修正画像をGPTに「これはどんなシーンか?」を言葉で描写させる。意図と違うところを直させる。
画像処理ソフト持ってない人は、クリタやメディバンペイントは無料です。
かなり有効な手段。毎回新しいチャットでGPTが知っておくべき情報を整理してTextデータで分別管理する。
・キャラ別情報
・場面情報
・人物相関図
・世界観説明
・その話全体の構成
・シーンの構成
・コマの瞬間
情報が多すぎるとGPTが余計な物や人物を混ぜてくる。「画面を構成する最低限の要素だけを利用して画像を作成して」で画像を作成したあと、追加要素を加える方が目的に辿りつきやすい。
逆にチャットが長くなって生成画像が不安定、余計な物が含まれるようになったらさっさと次のチャットに移った方がクオリティ高い画像出力すると感じる。
文脈を読み取って、思ってもなかった絵を出すときもあるので致し痒し。
頭がいいバージョンのが適当な指示でも文脈を読み取って画像出力してるように感じる。
o4mini- highだと画像指示の影響あんまりなかった。
ググって画像さがしてぶち込む。「添付画像の構図を参考にして」
効果高いけど思い通りの画像を見つけるのが面倒
GPT4oの時点ではあんま役に立たない。
GPTは同一チャット内で作成した画像や指示に影響され過ぎるので手間のわりに効果薄い。画像処理ソフトで直した方が早い
キャラクターの画像をGPTに言葉で描写させる。
色の指定はWebcolorでさせる。
比率も重要。
ズレてきたと思ったら、構成要素のテキストと画像で再認識させる。
同じ構図 別角度で 驚き顔、 泣き、 眠気、怒り