本家サイトみたり、OpenAIのYoutubeみたけど仕様が書いてない。DullE(OpenAIの画像生成モデル)は使ってるけど新しいモデルを内蔵してるらしい。Deepresearchしても推論どまり。他のサイトみてもみんな分かってないっぽい。
Imagegeneratorのローンチの紹介動画のなかで、「GPTとDullEを組み合わせたらどうなるか興味があった。そしたらめちゃくちゃ凄かった」的なこと言ってた。DullEは使ってるけど、それだけじゃなくて画像認識とGPTの自然言語での文脈理解を組み合わせて画像を出力してるらしい。
逆に、おんなじチャットで画像作ってると、前に作った絵の影響を受けすぎる。上手く作れないときは別チャットで作った方が早く辿りついたりする。
他の画像生成モデルだとできないことは何
セリフの写植とか、看板の文字なんかはめ込める。でも日本語まだまだ甘い。難しい漢字が苦手。
イメージを与えて、ユーザーの画風を学んだり、オリジナルアイテムを画像から学習して新たに生成できる。
GPT-4oは、「さっきの子と同じ顔で笑った表情にして」と頼むと一貫したビジュアルで複数の絵を出せる。そこそこ精度高い。
同じキャラクターやテーマで複数の画像を生成する際に、一貫性を保った出力が可能。
従来の生成AIでは「前と顔が違う」が多かったが、GPT-4oでは修正&再出力のループが効く。
ChatGPT本体の機能だから、画像とセリフ/プロットを一緒に作れる。
チャットモデルの拒否機能:不適切なプロンプトに対して、画像生成を拒否する機能を備えています。
出力のブロック:生成された画像がポリシーに違反している場合、出力をブロックします。
未成年者への配慮:13歳未満のユーザーは利用できず、18歳未満のユーザーに対しては追加の安全対策を実施しています。
あと、他の生成モデルに比べて生成が遅い。寝てる間に走り回らせて画像をたくさん作った中から選ぶみたいな使い方ができない。
・頭にあるイメージを完全に出力はできないので、細かいニュアンスを表現できない。