OpenAI、テキストとタイポグラフィをサポートした「DALL-E 3」を公開

2023-09-22

Open AI の AI 画像生成モデル「DALL-E 」もはや最先端ではない。

同社は20日、最新のテキストから画像を生成するジェネレータ「DALL-E 3」を発表し、画像そのものに直接書かれた読み取り可能なテキストを生成する機能など、その優れた新機能のいくつかを披露した。これらはDALL-E 2 では容易でなかったこと、そして Midjourney のような他の競合する画像ジェネレータ AI モデルが未だに実現に苦戦していることである。

OpenAI は新モデルを説明する Web ページに次のように書いている。

DALL-E 3 は、画像内のテキストや手のような人間のディテールを生成する際に、DALL-E 2 よりも大幅に改善されています。

この機能により、OpenAI は元 Googler が先月立ち上げたスタートアップ Ideogram と直接競合することになる。Ideogramもまた、独自の AI モデルを使ってテキスト／タイポグラフィを組み込んだ画像生成を提供している。

空間的関係を理解する

さらに、OpenAI は、DALL-E 3 はユーザのプロンプトテキストに含まれる空間的な関係をよりよく理解し、ユーザが説明した場所に人物やオブジェクトを互いに関連付けて配置するイメージを生成すると説明した。これは、以下のスクリーンショットの例に見られるように、説明的なプロンプトをはるかに正確にレンダリングできるようになったことを意味する。

OpenAIの「DALL-E 3」が生成した画像と使用されたプロンプトのスクリーンショット
Image credit: OpenAI

ChatGPT との連携

OpenAI はまた、ヒットした大規模言語モデル（LLM）の月額20米ドルの有料サブスクリプションプラン「ChatGPT Plus」と、先月発表された新プラン「ChatGPT for Enterprise」に DALL-E 3 が登場することを発表した。

さらに OpenAI によれば、ChatGPT はユーザがプロンプトを自動で絞り込み、より意図にマッチしたイメージを生成するのを助けることができる。

OpenAI の共同設立者兼 CEO Sam Altman 氏は、ソーシャルネットワークの X（旧 Twitter）に投稿した動画では、ChatGPT 連携により DALL-E 3 で可能になった、印象的な前後の会話によるプロンプトのスタイルが示されている。

同時に OpenAI は、「以前のバージョンと同様に、我々は DALL-E 3が暴力的、成人向け、または憎悪的なコンテンツを生成する能力を制限するための措置を講じた」と説明している。

この発表に、OpenAI の開発者関係を支持する Logan Kilpatrick 氏は X で、「絶対に信じられない」と喝采を送った。

出典　https://thebridge.jp/2023/09/openai-unveils-dall-e-3-with-support-for-text-and-typography

Back to list