画像生成ＡＩ

（注）本ページは２０２４年中頃の記述です。技術的な説明は厳密ではありません。

画像生成ＡＩとは

画像に関して、従来型のＡＩでは、写真やイラストを示してネコかイヌかを識別させることが主流でしたが、生成ＡＩでは人間が「木登りをしているイヌ」というテキストデータ（プロンプト）を与えると、ＡＩがその画像を表示するような機能をもっています。
（写真を入力して、アニメ風にするとういような機能を持つものもあります。）

この際、ＡＩが膨大な資料から「木登りをしているイヌ」を検索しているのではありません。次のような画像作成の流れになります。

入力されたテキストデータ (プロンプト)を分析する。
学習済データベースを元に指示に沿った画像の特徴の解析を行う。（「イヌ」や「木登り」の特徴を調べ、周辺のノイズを除去した学習済み画像を生成する。
指示を元に、学習済み画像データにノイズを加え、複数の要素を組み合わせて画像に変化を加える。
学習済みの画像データに類似した画像を生成する。画像数を指定できます。

「実際の写真のように」とか「コミック風のイラストで」などプロンプトの追加に応じて多様な画像が得られますし、表示された画像にダメ出しをして、改良することができます。

画像生成に特化したアプリケーションもありますが、chatAI　のような、Ｗｅｂブラウザから使える対話型ＡＩの多くは、画像生成の機能を持っています。

画像生成ＡＩの用途

商品デザイン、バナーなどの作成
大量の画像を表示させ、改良を加えることが容易になるのので、デザイナの労力が大幅に節減できます。利用方法が簡単なことから、デザイナに依頼する必要がないこともありましょう。
グラフィックデザインへの応用
プロンプト入力以外に、画像を入力して３Ｄ画像にするとか、複数の画像からアニメーションにするなどの機能を持つものもあります。
インスピレーションの提供
デザイナや画家に、思いつかなったような画像（画風）を示して、インスピレーションを高めることもありましょう。

反面、ＡＩが膨大な資料を参照する過程で著作権や肖像権の侵害が発生したり、反社会的なフェイク画像が簡単に作成できるなど、画像生成ＡＩの利用には多様なリスクがあります。

画像生成ＡＩの技術

ＣＮＮ(convolutional neural network, 畳み込みニューラルネットワーク)

ディープラーニングアルゴリズムの応用で、主に画像認識の基本技術になっています。畳み込み層、プーリング層、全結合層からなっています。

畳み込み層（convolution）: 「犬の特徴」を学習することを例にします。画像から犬を識別するには、エッジ抽出などを行います。また、画像の中に犬が数匹いるとき、個々の犬を個別に対象にするのではなく、その全体を重ねて対象にしたほうが便利です。それを畳み込み層といいます。
プーリング層（pooling）: 畳み込みをするとき、犬が右上・左下にいるなどの位置情報は重要ではありません。位置情報を適切に削除するのがプーリング層です。
全結合層（Affine）: 結果として入力の各要素に得点が与えられますが、それは単一ではありません。ある識別視点では高得点でも、他の識別視点では低得点のことがあります。それを、活性化関数により重みづけして合致確率を計算します。

ＣＮＮの代表的な活用事例として、ネイルの類似検索や画像説明文自動生成などがあります。
　テキストデータを対象にした技術にＲＮＮ（Recurrent Neural Network、回帰型ニューラルネットワーク）があります。画像説明文自動生成ではＣＮＮとＲＮＮを利用して実現しています。

ＧＡＮ（Generative Adversarial Network、敵対的生成ネットワーク）

本物の画像があり、ＡＩが作り出した生成画像と本物画像を比較させ、より高精度の画像を生成する技術です。２０１４年発表

２つのニューラルネットワークGeneratorとDiscriminatorがある。
Generatorは画像を生成する。
Discriminatorは生成画像が本物画像であるかどうかを判別する。
２・３を繰り返すことで、本物画像に限りなく近い画像が生成できる。

pix2pix: 本物画像もGeneratorにより変換します。「変換前の生成画像」と「変換後の本物画像」のペアを元に変換前の生成画像からGeneratorを通して本物画像に近い画像を生成します。このプロセスは２つの画像の比較の結果をＡＩに教えるので「教師あり学習」になります。
CycleGAN: 特定の画像を別の画像に変換する方法です。２０１７年発表
　・画像を有名画家の画風に変換する。
　・人物を他人に変換する。
この場合は、「正解」に相当するものがないので「教師なし学習」になります。

ＶＡＥ（Variational Autoencoder、変分オートエンコーダ）

膨大な学習済みのデータから画像と特徴量の関係が整理されている。
画像データをエンコーダにより、小さな情報量にして、それを「潜在変数」とする。
潜在変数と学習済みデータを分析して、デコーダで画像を生成する。

ＤＡＬＬ・Ｅ

DALL-E とは、画家のSalvador Dalí とアニメ映画の WALL-E からの造語だそうです。
　OpenAI社が開発した画像生成ＡＩの構成技術で、テキストプロンプトからその内容を反映した画像を生成する機能をもっています。（Ｅ：２０２１年、Ｅ２：２０２２年、Ｅ３：２０２３年）
　DALL-E3 ではテキストのプロンプトだけでなく、画像のアップロードやURL指定もサポートされている（そうです）。
　DALL-E3 は、ChatGPT はじめ多くの画像生成に使われています。

DALL-E3は独立したサービスがないため料金プランは存在していません。ChatGPTを介したDALL-E3の利用は、現在はChatGPT Plusの有料プラン（月額$20）ユーザに限定されています。一方、Microsoft の Copilot などは、DALL-E3 を基本技術として利用していますが、Microsoft がライセンスをもっているので、無料で利用できます（２０２４年現在）

人工知能（ＡＩ）へ