ＡＩの歴史（２）生成ＡＩの歴史＜インターネット利用の歴史

　　ＡＩ┬（従来型）ＡＩ
　　　　└　生成ＡＩ
　　　　　　　└　対話型生成ＡＩ

生成ＡＩの特徴（従来型ＡＩとの比較）

生成ＡＩ（generative AI）とは、「オリジナルな文章や音声、画像、動画などを自動的に生成して人間のように表示するＡＩ」のこと。
　従来のＡＩは、事前に学習したデータから、統計学などの手法を組み合わせて、可能性が高い結果を提示するだけだった。例えば、動物の写真を多く学習させておき、ある写真を見せてネコかイヌかを判別させるとか、多数の消費者の購買情報を与えて、顧客をいくつかのグループに分類させるなどの機能であった。
　それに対して生成ＡＩは、「木に登っている犬をコミック風なイラストで作成せよ」とか「小売業界での生成ＡＩ利用について１０００字程度で示せ」など、利用者からのプロンプト（指示）に応じて画像や自然言語での回答を生成する。

生成ＡＩは、生成物の形式により、文章生成ＡＩ、画像生成ＡＩ、音声生成ＡＩ、動画生成ＡＩなどに区分される。特定の形式に特化したものもあるし、ほぼすべての形式をサポートする汎用型もある。

生成ＡＩの仕組み

従来型ＡＩも生成ＡＩも、事前に膨大な資料を収集・分析して、ニューラルデータベースの形式に整理した学習済データベース（検索用データベース、コーパスともいう）を構築し、それを参照して、結果を出力する機能を持たせておくことは同じである。
　しかし、生成ＡＩでは、人間の自然言語でのプロンプトを分析し、回答を人間らしい表現にするために、それに適した学習済データベースの構造にすること、生成物の表示方法機能が必要になる。
　なお、学習済データベースとそれを参照するプログラム（メソッド）を明確に区分するのは難しい。学習済データベースを構築するためのメソッドと、参照するためのメソッドを区分するのも難しい。それでここでは両者をまとめて生成ＡＩモデルという。

対話型生成ＡＩ

質問に合致した生成物を得るには、適切な質問をしなければならないし、ＡＩはあらかじめ構築した学習済データベースだけが知識であるから暗黙の常識は通用しない。それで１回の質問で期待した回答が得られるのは稀である。
　対話型生成ＡＩでは、チャットのように質問・回答を繰り返すことができる。質問を言い換えたり追加条件を与えることができる。この過程によって、意図した結果が得られる確率が高くなる。すなわち、素人でも使いこなせる生成ＡＩになったといえる。
　一般ユーザは、Edge や Chrome などのＷｅｂブラウザから chatGPT や Copilot などを利用していることが多い。これらは汎用的な対話型生成ＡＩモデルの無料提供版である。

主要技術

ここでの「技術」とは、生成ＡＩモデルの仕組みの設計、実装、参照方法に関する理論・概念、実現し提供するためのソフトウェアを指す。その技術機詳細は、本シリーズの目的ではないので割愛する。
　生成ＡＩは、文章生成ＡＩが基本であり主流でもある。画像生成ＡＩは話題の多い分野である。それに対して、音声生成ＡＩや動画生成ＡＩでは、認識や変換の技術など、生成ＡＩ固有ではない技術の比重が大である。それでここでは、文章生成ＡＩと画像生成ＡＩを対象にする。また、対話型生成ＡＩに関しては次章に回した。

文章生成ＡＩ関連技術

ＮＬＰ（Natural Language Processing、自然言語処理）

自然言語とは、人間が日常でやり取りする日本語や英語などの、いわゆる「言葉」のことで、ＮＬＰは自然言語を処理・分析する技術。以降で示すような多数の技術の総称と理解してよい。

ＲＮＮ（Recurrent Neural Network、回帰型ニューラルネットワーク）

ＲＮＮは、系列データ（例：テキスト、音声、時系列データ）を処理するためのニューラルネットワーク。1986年、Rumelhartが提唱。
　ＲＮＮでは、文章を構成する単語列を時系列データという。以前に発生した単語は過去データ、後続する単語を将来データという。
　回帰とは、将来データを過去データとして用いることである。この際、単純に将来データを用いると効率が悪いし無限ループになることがある。それを避けるために、今回の出力の計算過程（過去の中間層の状態、これをセルという）を、次の入力に利用する。ループ状のニューラルネットの構造になる。

ＲＮＮは、時系列データの文脈により自然言語処理を行うのに適している。しかし、長期的な（文章での位置が遠い）依存関係を学習する際に精度が極端に低下する「勾配消失問題」が発生する。また、並列処理が難しいので処理効率が低い欠点がある。それを解決しのが後述の er である、

ＬＬＭ（Large Language Model、大規模言語モデル）

ＬＬＭは、自然言語を理解し、生成する能力を持つＡＩモデル。膨大なテキストデータを学習し、そのデータに基づいて言語のパターンを把握して、ＲＮＮのようなニューラルネットワークを構築する。主な目的は、人間のように自然で流暢なテキストを生成し、理解することである。
　ＬＬＭは、ＲＮＮの一種ともいえるが、ＬＳＴＭ（Long Short Term Memory）などの改良型でより優れた性能を発揮する。

Seq2seq

2014年、Googleが開発した機械翻訳アルゴリズム。ＲＮＮとTransformerの橋渡し的位置づけ。
　ＲＮＮでは、一つの文章（時系列データ）内だけが対象であり、他の文章を参照することはできなかった。Seq2seqでは、Encoder/Decoder という方法により、異なる時系列データの変換を行い、二つのＲＮＮ（ＬＳＴＭ）を対象にできる。
　しかし、この方法は、変換過程で必要な情報が捨象されること、単語や文章同士の照応関係が利用できないなどの欠点があった。

Attention

「Attention」は「注意」の意味。「どこに注目するか」に焦点を当てる。Seq2seqでのEncoder部分から作られる固定長ベクトルが最後の部分しか利用していないことにことに注目する。
　単語間の照応関係を、ある単語と複数の単語との関係を確率で表すことができる。例えば「三毛」という単語は。「猫:０.８、地名：０．０７、人名：０,０５」のような関係になる。その確率を、Attentionスコアという。
　そして、Attentionを層にするニューラルネットワークを生成する。ＲＮＮのような順番に言葉を読む必要がないため、ネットワークが単純になり、処理効率が向上する。Attention は、seq2seqで採用され、Transformer 　を生み出すもとになった。

Transformer

2017年にGoogleにより提案された。Transformer は、Attention層だけを用いてEncoder/Decoder を行うニューラルネットワークを構築する技術である。
　上述のＲＮＮでの欠点であった勾配消失問題や並列化問題は、Transformer により解決された。高速化、並列化、精度向上、汎用的　を実現した画期的なＮＬＰであり、ＲＮＮモデルは Transformerモデルへと急速に移行した。
　現在の文章生成ＡＩの主流である BERT や GPT は、これをベースにしている。

ＢＥＲＴ（Bidirectional Encoder Representations from Transformers）

２０１８年にGoogleが発表した事前学習モデル。ＢＥＲＴは、大規模教師なしデータを用い、TransformerのEncoder部分を利用した双方向型モデルになっている。
　厳密には、ＢＥＲＴは事前学習モデルであり、利用予測モデルではないので、ＢＥＲＴ単体ではスクリプトへの回答などはできず、そのための機能（タスク）を追加する必要がある。　逆に、事前学習モデルに注力したので、生成されるパラメータはより汎用性が高く、多くの生成ＡＩで利用されている。
　当然、多数のタスクが追加されており、生成ＡＩとしての利用ができ、その全体をＢＥＲＴということもある。特に、分類、感情分析、要約などの利用に適している。

ＧＰＴ（Generative Pretrained Transformer、事前学習済み文章生成型モデル）

ＧＰＴは、TransformerのDecoder部分のみを用いて、大規模な文章資料から事前学習を行い、自然言語生成の能力を向上させるモデルである。当初から生成ＡＩとしての利用を目的としており、タスクも豊富で、特に文章生成に優れている。
　OpenAI が２０１８年に GPT-1 を発表。逐次新バージョンへ発展、同社開発の画像生成ＡＩモデル DALL-E と連携して、統合的な生成ＡＩになった。特に２０２２年にＧＰＴシリーズから派生した対話型生成ＡＩの chatGPT は爆発的な利用者増大を獲得、ＡＩの新時代を実現した。

画像生成ＡＩの技術

画像生成ＡＩには、
　　text-to-image：自然言語のスクリプトから画像を生成する
　　image-to-image：画像を入力して多様な加工を施した画像を生成する
がある。

先行技術

ＣＮＮ (convolutional neural network, 畳み込みニューラルネットワーク)

畳み込み層、プーリング層、全結合層から成るディープラーニングアルゴリズム。主に画像生成に用いられる。

ＧＡＮ（Generative Adversarial Network、敵対的生成ネットワーク）

2014年　グッドフェロー（Ian J. Goodfellow）らが論文発表。本物の画像があり、ＡＩが作り出した生成画像と本物画像を比較させ、より高精度の画像を生成する技術

ＶＡＥ（Valiational Autoencoder、変分オートエンコーダ）

2014年に Kingma と Max Welling が提唱したモデル。「変分ベイズ (Variational Bayes)の目的関数を応用して，オートエンコーダの学習を行うので，変分オートエンコーダと名付けた」という（私には意味不明）

ＤＡＬＬ・Ｅ

OpenAI社が開発した画像生成ＡＩの構成技術で、この名称は画家のSalvador Dalí とアニメ映画の WALL-E からの造語だとのこと

対話型生成ＡＩの代表的プレイヤー

OpenAI

OpenAIの組織

２０２４年現在、生成ＡＩ分野での最大プレイヤー
　・２０１５年　非営利法人 OpenAI,Inc. 設立
　・２０１９年　子会社の営利法人OpenAI Global,LLC 設立
　　　　（GPT, DALL-E, chatGPT などの開発。Microsoft が４９％の株を取得)
　以降、OpenAI とは、この営利法人を指す。

chatGPT（２０２２年）

広く流布した最初の対話型生成ＡＩモデル。文章生成ＡＩ GPT-3.5 と画像生成ＡＩ DALL-E2 をベースに対話機能を強化した。発表以来、爆発的な利用者を獲得。百万人のユーザ獲得までの期間は、Facebook（現Ｘ）では１０か月、Instagramは２か月だったのに対して、わずか５日だったし、２か月後には１億人に達したとのこと。

chatGPT は内部的には機能向上していると思われるが、GPT-x, DALL-Ex のような版番をつけていない。私の想像だが、GPT-x, DALL-Ex が概念や実装技術を指しているのに対して、chatGPT はサービス名の性格があるようだ。しかし、提供者も利用者も GPT-x と chatGPT を峻別せずに用いていることがある。

ChatGPT の提供プラン
　・chatGPT 　　　個人ユーザ向け無料版
　・chatGPT Plus　個人ユーザ向け有料版（20ドル/月）
　・chatGPT Team　中小企業やプロジェクトチーム向け（25ドル/人・月）
　・chatGPT Enterprise　大規模企業向け（要相談）
　無料版の chatGPT は、GPT-3 がベースになっており、画像生成するにはDALL·E Minini など無料アプリの設定が必要。他のプランでは、GPT-４がベースなので、多様な形式で生成できる。また、無料版ではプロンプトの文字数制限、混雑時の遅延などの制約がある。
　これは、2024年中頃の状態であり、後述の Microsoft Copilot は、無料版でも GPT-4/4o を採用しているので、画像生成などができる。おそらく chatGPT も制限緩和をするだろう。

Microsoft

Microsoftは、早期から OpenAI に出資し、４９％の株を取得している筆頭株主である。そのため、Microsoftの生成ＡＩでは、OpenAI　の最新技術を採用している。

Copilot（２０２３年）

Microsoft も2023年に、GPT-4 と DALL-E3 をベースとした生成ＡＩ Bing Chat を発表（Bing はＷｅｂブラウザ　Edge の検索エンジン）し、同年、Copilot （copilotは「副操縦士」の意味）に改称した。
　無料版 Copilot と有料版 Copilot Pro（個人向け）、Copilot for Microsoft 365（法人向け）がある。無料版は、Windows10 以上の Edge から自由に使える。
　Copilot と ChatGPT を無料版で比較すると、Copilot は GPT-4/4o や DALL-E3 など最新版を取り入れているので、画像生成なども文書生成と同じように利用できる。また、Microsoft はＷｅｂブラウザ Edge を持っており、Copilot を検索エンジンとシームレスに使える。2024年中頃では、Copilot のほうが多機能だが、そのうちに違いは少なくなろう。

Azure OpenAI Service（２０２３年）

AzureはMicrosoft提供するのクラウドサービス。Azure OpenAI Serviceは、企業が独自の生成ＡＩシステムを容易に開発することが目的で、Azure上でChatGPTのＡＰＩ利用環境を提供するサービスである。２０２３年サービス開始、２０２４年には、GPT-4o に対応。
　アクセス制御や多要素認証、データの暗号化、脅威の検出、ネットワークの保護などAzureの持つ高度なセキュリティ機能を持つ。料金体系は、利用するモデルや使用量に基づいた従量課金制

Copilot+ PC（２０２４年）

Copilot+ PCとは、２０２４年、Microsoft が発表した、ＡＩ利用に特化したＰＣのアーキテクチャ、あるいは、それを搭載したＰＣ。
　ＣＰＵ、ＯＳ、アプリケーション層、クラウドに至るまで、ＰＣ全体をＡＩ利用を主目的に再構築したものだとされてる（既存のＰＣへのインストールは考慮されていない）。
　重要な機能に Recall機能がある。これは企業内生成ＡＩの個人版というようなもので、ＰＣが画面に表示した情報（メール、閲覧Ｗｅｂページ、自作のコンテンツなど）を生成ＡＩモデルに取り込み、それを生成ＡＩのプロンプトで検索、加工、表示します。Officeソフトとの連携もできる。

Google

Googleは、検索エンジンのトッププレイヤーであるが、ＡＩ分野でも主要なプレイヤーである。Attention/Transformer、ＢＥＲＴなど、２０１０年代中頃の文章生成ＡＩ技術は Google により牽引されたといってよい。

Googleは、OpenAI系には参加せず、独自の生成ＡＩ路線を歩んでいいる。その特徴は公開主義で、後述のモデルは、ＯＳＳとしてソースコードは公開されコミュニティによる発展が期待されている。
（chatGPTとCopilotは、ＡＰＩは公開しているが、ソースコードは公開していない）

ＬａＭＤＡ（２０２１年）

Ｂａｒｄ（２０２３年）

LaMDA を対話型文章生成ＡＩにしたもの。検索エンジンとの連携が特徴で、Bardの回答の下には、従来のウェブ検索で使うための質問も提示されるなどの工夫がされている。
　chatGPT に後れをとり、一般利用者には知名度が足りないが、ＯＳＳとして公開されており、これをベースとした関連ＡＩは多数ある。

Gemini（２０２４年）

BardはGeminiに改名、同社のAIモデルおよびそれを使ったサービス群に共通して使われるブランド名。

参考ＵＲＬ

ＮＲＩ「生成ＡＩ」
https://www.nri.com/jp/knowledge/glossary/lst/sa/generative_ai
＠ＩＴ「RNN（Recurrent Neural Network）の概要を理解しよう（TensorFlow編）」
https://atmarkit.itmedia.co.jp/ait/articles/1804/25/news143.html
ビジネス＋ＩＴ「Transformerとは何か？「ChatGPT」や「Gemini」を生み出した超重要技術の進化」
https://www.sbbit.jp/article/cont1/130017
DeepSquare「自然言語処理の必須知識 BERT を徹底解説！」
https://deepsquare.jp/2020/09/bert/
スタビジ「GPT-1→GPT-2→GPT-3→GPT-3.5→ChatGPT→GPT-4までの進化の軌跡と違いをまとめてみた」
https://toukei-lab.com/gpt
＠ＩＴ「CNN（Convolutional Neural Network）を理解しよう（TensorFlow編）」
https://atmarkit.itmedia.co.jp/ait/articles/1804/23/news138.html
Upstage「GPTシリーズと発展過程」
https://ja.content.upstage.ai/blog/insight/evolution-of-gpt-models
ウィキペディア「GAN（敵対的生成ネットワーク）とは｜意味・仕組み・応用例」
https://ledge.ai/articles/gan
森正弥「創造的AIと敵対的AIの不思議な関係、そしてアイデンティティへの脅威 - GAN を概観」
https://note.com/masayamori/n/n9fddedd9a6f5
CVMLエキスパートガイド「VAE (Variational Autoencoder, 変分オートエンコーダ)」
https://cvml-expertguide.net/terms/dl/deep-generative-model/vae/
ウィキペディア「DALL-E」
https://ja.wikipedia.org/wiki/DALL-E
坂本将磨（ａｉ総合研究所）「生成AIと対話型AIの違いは？それぞれの特徴やメリットの観点から解説！」
https://www.ai-souken.com/article/ai-generation-conversational-ai-differences
ウィキペディア「OpenAI」
https://ja.wikipedia.org/wiki/OpenAI
OpenAI「Introducing OpenAI Japan」
https://openai.com/index/introducing-openai-japan/
ＩＴmwdia「AIプロ集団から見た「ChatGPTの歴史」　たった5年で何が起こったのか」
https://www.itmedia.co.jp/news/articles/2303/17/news200.html
西田宗千佳（impress Watch）「マイクロソフトの「コパイロット」とはなにか　OpenAIとの依存と共生」
https://www.watch.impress.co.jp/docs/series/nishida/1549828.html
Microsoft「Azure OpenAI Service」
https://azure.microsoft.com/ja-jp/products/ai-services/openai-service
Aismiley「Google Bardとは？ChatGPTとの違いや利用時の注意点を解説」
https://aismiley.co.jp/ai_news/what-is-google-bard/
酒井麻里子（ビジネス＋ＩＴ）「グーグル「Gemini（ジェミニ）」とは何かをわかりやすく解説、使い方やサービス・プランまとめ」
https://www.sbbit.jp/article/cont1/134906

ＡＩの歴史（２）

生成ＡＩの概要