OpenAIによるDALL-E2AIは、一部のアーティストにとって悪いニュースです

2022/06/23

OpenAIのDALL-E2は、人工知能が創造性の領域に浸透し始めることは決してない（または少なくともすぐには）とは思わなかった人々に衝撃を与えました。しかし、DALL-E 2はアーティストを忙しくさせるためにここにありますか？

DALL-E 2はどのように機能しますか？

DALL-E 2は非常に印象的で、まるで魔法のように感じますが、このような見事でリアルな画像を作成する方法の一般的な詳細は、それほど理解しにくいものではありません。

DALL-E2は2つの主要コンポーネントで構成されています。1つ目はGPT-3で、これは間違いなくこれまでで最も高度な自然言語機械学習アルゴリズムです。DALL-E 2は、CLIP（Contrastive Language-Image Pre-training）として知られる別のOpenAIモデルも使用します。

GPT-3とCLIPを使用すると、コンピューターは複雑な自然言語を理解して生成できます。（ほとんど）インターネットからの数十億の画像とその自然言語の説明を使用してDALL-Eニューラルネットワークをトレーニングすることにより、概念間の関係を学習します。

ある意味で、DALL-Eは、画像を提供し、AIが何を見ているかを説明しようとする一般的な機械学習の実践の反対です。

シリコンバレーのテレビ番組の悪名高い「ホットドッグではない」アプリについて考えてみてください。ここでの違いは、画像がホットドッグであるかどうかをAIに尋ねる代わりに、ホットドッグについて説明し、AIが学習したすべてに基づいて完全にオリジナルのホットドッグ画像を作成することです。

DALL-Eの2番目の重要な部分は、画像の生成方法です。それは「拡散」として知られている技術を使用しています。特に、作成された画像の人間の言語による記述を理解することは、GLIDEと呼ばれるOpenAIモデルを使用して画像に変換されます。GLIDEは、ランダムに生成されたノイズで構成される画像を取得し、自然言語で記述されているように画像と一致するまで、そのノイズを徐々に除去します。それは、大理石の断片から始めて、彫像だけが残るまでそれを削り取る彫刻家のようなものです。

内部でのDALL-E2のより技術的で詳細な説明については、 AssemblyAIディープラーニングブログでDALL-E2の説明を心からお勧めします。

DALL-E2が非常に革新的である理由

DALL-E 2は、画像を生成できる最初の機械学習ソフトウェアとはほど遠いものです。これまで多くのシステムがあり、DALL-E2はそれらの他のプロジェクトから学んだ教訓に基づいています。では、なぜ今回は分水界のターニングポイントのように感じるのでしょうか。

重要な理由の1つは、DALL-EとDALL-E2が作成する画像が見た目に美しいことです。他のAIイメージングシステムは、多くの場合、人々が夢のようなものを邪魔したり好きだと表現する画像を生成します。不気味の谷に少し似ていますが、美術用です。DALL-E 2は、その背後に芸術的な目や美的感覚がはっきりとある画像を作成します。

このように、DALL-E 2が作成する画像は、生涯にわたって美的感覚を発達させてきた才能のあるアーティストや写真家によって作成された画像に匹敵します。このような人が、DALL-E 2が数秒で生成できる画像を見て、無関係になりそうだと感じていることを想像するのは難しいことではありません。

システムは、自然言語の手がかりから数秒で美しい高解像度の画像を作成できるだけでなく、それらの画像をカスタマイズおよび編集したり、既存の画像の複数のバリエーションを提供したりすることもできます。これは、アーティストがイーゼルと描画タブレットを梱包し、代わりに「コーディングを学ぶ」必要があることを意味しますか？

DALL-E 2は、アーティストが消えるのではなく、変わることを意味します

OpenAIは、その技術を単に世界に提示することに非常に注意を払ってきました。明らかに虐待の余地がたくさんあるので、これは合理的です。しかし、それが可能であることを示した今、商用または独立したAI研究者が、DALL-Eの機能を複製し、すべての人が利用できるようにするまでの時間はありません。機械学習の大手企業には、 Google画像検索など、パフォーマンスの高いAIアーティストが時間をかけています。

パンドラの箱は閉めることができないので、美術の世界が取り返しのつかないほど変化することを受け入れる必要がありますが、これは芸術家がいなくなったことを意味するものではありません。

それを見る一つの方法は、この種の技術が誰の手でもアートを作ることを可能にするということです。現在、重点は、画像を作成する技術的能力から、画面に表示されるものがあなたが考えていたものと一致するまで、視覚を正確に記述して繰り返す能力にシフトしています。つまり、電卓のおかげでより多くの人が正確な計算を行えるようになるのと同じように、より多くの人が自分自身を視覚的に表現できるようになります。

特定のタイプのアーティストは、もはや実行可能なビジネスモデルを持っていない可能性があります。有料でコミッションを稼いでいると、顧客の説明に基づいて1時間に数百枚の画像を作成し、それらの画像をほぼ瞬時に変更できるプログラムと競争するのに苦労するでしょう。代わりに、これらのツールを使用して独自のビジョンを実現し、感情に基づいてそれらのユニークな画像を販売することができます。

顧客は常に正しい

最終的にこれらの画像は人間が消費するために作成されることを覚えておくことも重要です。私たち人間には、利便性と技術的卓越性を超えた独自の価値観があります。生成されたアートが豊富で、したがって比較的安価で使い捨てである世界では、それが比較的まれである可能性があるという理由だけで、人工のアートを高く評価（および購入）することをいとわない聴衆が常に存在します。

言い換えれば、DALL-E 2のようなソフトウェアは、組立ラインでアートを作る生計を立てているアーティストの終焉を意味する可能性がありますが、何か言いたいことがあり、ユニークな視覚的アイデンティティを持っているアーティストの見通しを弱めることはありません。それを通してあなたは話すことができます。

DALL-E 2はどのように機能しますか？

DALL-E2が非常に革新的である理由

DALL-E 2は、アーティストが消えるのではなく、変わることを意味します

顧客は常に正しい

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル