スタートページ> (主張・講演Web教材歴史コンピュータの歴史 経営数学の歴史

AIの歴史(2)


生成AIの概要

  AI┬(従来型)AI
    └ 生成AI
       └ 対話型生成AI

生成AIの特徴(従来型AIとの比較)

生成AI(generative AI)とは、「オリジナルな文章や音声、画像、動画などを自動的に生成して人間のように表示するAI」のこと。
 従来のAIは、事前に学習したデータから、統計学などの手法を組み合わせて、可能性が高い結果を提示するだけだった。例えば、動物の写真を多く学習させておき、ある写真を見せてネコかイヌかを判別させるとか、多数の消費者の購買情報を与えて、顧客をいくつかのグループに分類させるなどの機能であった。
 それに対して生成AIは、「木に登っている犬をコミック風なイラストで作成せよ」とか「小売業界での生成AI利用について1000字程度で示せ」など、利用者からのプロンプト(指示)に応じて画像や自然言語での回答を生成する。

生成AIは、生成物の形式により、文章生成AI、画像生成AI、音声生成AI、動画生成AIなどに区分される。特定の形式に特化したものもあるし、ほぼすべての形式をサポートする汎用型もある。

生成AIの仕組み

従来型AIも生成AIも、事前に膨大な資料を収集・分析して、ニューラルデータベースの形式に整理した学習済データベース(検索用データベース、コーパスともいう)を構築し、それを参照して、結果を出力する機能を持たせておくことは同じである。
 しかし、生成AIでは、人間の自然言語でのプロンプトを分析し、回答を人間らしい表現にするために、それに適した学習済データベースの構造にすること、生成物の表示方法機能が必要になる。
 なお、学習済データベースとそれを参照するプログラム(メソッド)を明確に区分するのは難しい。学習済データベースを構築するためのメソッドと、参照するためのメソッドを区分するのも難しい。それでここでは両者をまとめて生成AIモデルという。

対話型生成AI

質問に合致した生成物を得るには、適切な質問をしなければならないし、AIはあらかじめ構築した学習済データベースだけが知識であるから暗黙の常識は通用しない。それで1回の質問で期待した回答が得られるのは稀である。
 対話型生成AIでは、チャットのように質問・回答を繰り返すことができる。質問を言い換えたり追加条件を与えることができる。この過程によって、意図した結果が得られる確率が高くなる。すなわち、素人でも使いこなせる生成AIになったといえる。
 一般ユーザは、Edge や Chrome などのWebブラウザから chatGPT や Copilot などを利用していることが多い。これらは汎用的な対話型生成AIモデルの無料提供版である。

 

主要技術

ここでの「技術」とは、生成AIモデルの仕組みの設計、実装、参照方法に関する理論・概念、実現し提供するためのソフトウェアを指す。その技術機詳細は、本シリーズの目的ではないので割愛する。
 生成AIは、文章生成AIが基本であり主流でもある。画像生成AIは話題の多い分野である。それに対して、音声生成AIや動画生成AIでは、認識や変換の技術など、生成AI固有ではない技術の比重が大である。それでここでは、文章生成AIと画像生成AIを対象にする。また、対話型生成AIに関しては次章に回した。

文章生成AI関連技術

以降で示す用語の大雑把な相互関係(位置づけ)を示す。

NLP(Natural Language Processing、自然言語処理)

自然言語とは、人間が日常でやり取りする日本語や英語などの、いわゆる「言葉」のことで、NLPは自然言語を処理・分析する技術。以降で示すような多数の技術の総称と理解してよい。

RNN(Recurrent Neural Network、回帰型ニューラルネットワーク)

RNNは、系列データ(例:テキスト、音声、時系列データ)を処理するためのニューラルネットワーク。1986年、Rumelhartが提唱。
 RNNでは、文章を構成する単語列を時系列データという。以前に発生した単語は過去データ、後続する単語を将来データという。
 回帰とは、将来データを過去データとして用いることである。この際、単純に将来データを用いると効率が悪いし無限ループになることがある。それを避けるために、今回の出力の計算過程(過去の中間層の状態、これをセルという)を、次の入力に利用する。ループ状のニューラルネットの構造になる。

RNNは、時系列データの文脈により自然言語処理を行うのに適している。しかし、長期的な(文章での位置が遠い)依存関係を学習する際に精度が極端に低下する「勾配消失問題」が発生する。また、並列処理が難しいので処理効率が低い欠点がある。それを解決しのが後述の er である、

LLM(Large Language Model、大規模言語モデル)

LLMは、自然言語を理解し、生成する能力を持つAIモデル。膨大なテキストデータを学習し、そのデータに基づいて言語のパターンを把握して、RNNのようなニューラルネットワークを構築する。主な目的は、人間のように自然で流暢なテキストを生成し、理解することである。
 LLMは、RNNの一種ともいえるが、LSTM(Long Short Term Memory)などの改良型でより優れた性能を発揮する。

Seq2seq

2014年、Googleが開発した機械翻訳アルゴリズム。RNNとTransformerの橋渡し的位置づけ。
 RNNでは、一つの文章(時系列データ)内だけが対象であり、他の文章を参照することはできなかった。Seq2seqでは、Encoder/Decoder という方法により、異なる時系列データの変換を行い、二つのRNN(LSTM)を対象にできる。
 しかし、この方法は、変換過程で必要な情報が捨象されること、単語や文章同士の照応関係が利用できないなどの欠点があった。

Attention

「Attention」は「注意」の意味。「どこに注目するか」に焦点を当てる。Seq2seqでのEncoder部分から作られる固定長ベクトルが最後の部分しか利用していないことにことに注目する。
 単語間の照応関係を、ある単語と複数の単語との関係を確率で表すことができる。例えば「三毛」という単語は。「猫:0.8、地名:0.07、人名:0,05」のような関係になる。その確率を、Attentionスコアという。
 そして、Attentionを層にするニューラルネットワークを生成する。RNNのような順番に言葉を読む必要がないため、ネットワークが単純になり、処理効率が向上する。Attention は、seq2seqで採用され、Transformer  を生み出すもとになった。

Transformer

2017年にGoogleにより提案された。Transformer は、Attention層だけを用いてEncoder/Decoder を行うニューラルネットワークを構築する技術である。
 上述のRNNでの欠点であった勾配消失問題や並列化問題は、Transformer により解決された。高速化、並列化、精度向上、汎用的 を実現した画期的なNLPであり、RNNモデルは Transformerモデルへと急速に移行した。
 現在の文章生成AIの主流である BERT や GPT は、これをベースにしている。

Transformer を構成する3要素

BERT(Bidirectional Encoder Representations from Transformers)

2018年にGoogleが発表した事前学習モデル。BERTは、大規模教師なしデータを用い、TransformerのEncoder部分を利用した双方向型モデルになっている。
 厳密には、BERTは事前学習モデルであり、利用予測モデルではないので、BERT単体ではスクリプトへの回答などはできず、そのための機能(タスク)を追加する必要がある。  逆に、事前学習モデルに注力したので、生成されるパラメータはより汎用性が高く、多くの生成AIで利用されている。
 当然、多数のタスクが追加されており、生成AIとしての利用ができ、その全体をBERTということもある。特に、分類、感情分析、要約などの利用に適している。

GPT(Generative Pretrained Transformer、事前学習済み文章生成型モデル)

GPTは、TransformerのDecoder部分のみを用いて、大規模な文章資料から事前学習を行い、自然言語生成の能力を向上させるモデルである。当初から生成AIとしての利用を目的としており、タスクも豊富で、特に文章生成に優れている。
 OpenAI が2018年に GPT-1 を発表。逐次新バージョンへ発展、同社開発の画像生成AIモデル DALL-E と連携して、統合的な生成AIになった。特に2022年にGPTシリーズから派生した対話型生成AIの chatGPT は爆発的な利用者増大を獲得、AIの新時代を実現した。


画像生成AIの技術

画像生成AIには、
  text-to-image:自然言語のスクリプトから画像を生成する
  image-to-image:画像を入力して多様な加工を施した画像を生成する
がある。

先行技術

CNN (convolutional neural network, 畳み込みニューラルネットワーク)

畳み込み層、プーリング層、全結合層から成るディープラーニングアルゴリズム。主に画像生成に用いられる。

CNNの発展

GAN(Generative Adversarial Network、敵対的生成ネットワーク)

2014年 グッドフェロー(Ian J. Goodfellow)らが論文発表。本物の画像があり、AIが作り出した生成画像と本物画像を比較させ、より高精度の画像を生成する技術

  1. 2つのニューラルネットワークGeneratorとDiscriminatorがある。
  2. Generatorは画像を生成する。
  3. Discriminatorは生成画像が本物画像であるかどうかを判別する。
  4. 2・3を繰り返すことで、本物画像に限りなく近い画像が生成できる。

GANの発展

VAE(Valiational Autoencoder、変分オートエンコーダ)

2014年に Kingma と Max Welling が提唱したモデル。「変分ベイズ (Variational Bayes)の目的関数を応用して,オートエンコーダの学習を行うので,変分オートエンコーダと名付けた」という(私には意味不明)

DALL・E

OpenAI社が開発した画像生成AIの構成技術で、この名称は画家のSalvador Dalí とアニメ映画の WALL-E からの造語だとのこと


対話型生成AIの代表的プレイヤー

OpenAI

OpenAIの組織

2024年現在、生成AI分野での最大プレイヤー
 ・2015年 非営利法人 OpenAI,Inc. 設立
 ・2019年 子会社の営利法人OpenAI Global,LLC 設立
    (GPT, DALL-E, chatGPT などの開発。Microsoft が49%の株を取得)
 以降、OpenAI とは、この営利法人を指す。

chatGPT(2022年)

広く流布した最初の対話型生成AIモデル。文章生成AI GPT-3.5 と画像生成AI DALL-E2 をベースに対話機能を強化した。発表以来、爆発的な利用者を獲得。百万人のユーザ獲得までの期間は、Facebook(現X)では10か月、Instagramは2か月だったのに対して、わずか5日だったし、2か月後には1億人に達したとのこと。

chatGPT は内部的には機能向上していると思われるが、GPT-x, DALL-Ex のような版番をつけていない。私の想像だが、GPT-x, DALL-Ex が概念や実装技術を指しているのに対して、chatGPT はサービス名の性格があるようだ。しかし、提供者も利用者も GPT-x と chatGPT を峻別せずに用いていることがある。

ChatGPT の提供プラン
 ・chatGPT    個人ユーザ向け無料版
 ・chatGPT Plus 個人ユーザ向け有料版(20ドル/月)
 ・chatGPT Team 中小企業やプロジェクトチーム向け(25ドル/人・月)
 ・chatGPT Enterprise 大規模企業向け(要相談)
 無料版の chatGPT は、GPT-3 がベースになっており、画像生成するにはDALL·E Minini など無料アプリの設定が必要。他のプランでは、GPT-4 がベースなので、多様な形式で生成できる。また、無料版ではプロンプトの文字数制限、混雑時の遅延などの制約がある。
 これは、2024年中頃の状態であり、後述の Microsoft Copilot は、無料版でも GPT-4/4o を採用しているので、画像生成などができる。おそらく chatGPT も制限緩和をするだろう。


Microsoft

Microsoftは、早期から OpenAI に出資し、49%の株を取得している筆頭株主である。そのため、Microsoftの生成AIでは、OpenAI の最新技術を採用している。

Copilot(2023年)

Microsoft も2023年に、GPT-4 と DALL-E3 をベースとした生成AI Bing Chat を発表(Bing はWebブラウザ Edge の検索エンジン)し、同年、Copilot (copilotは「副操縦士」の意味)に改称した。
 無料版 Copilot と有料版 Copilot Pro(個人向け)、Copilot for Microsoft 365(法人向け)がある。無料版は、Windows10 以上の Edge から自由に使える。
 Copilot と ChatGPT を無料版で比較すると、Copilot は GPT-4/4o や DALL-E3 など最新版を取り入れているので、画像生成なども文書生成と同じように利用できる。また、Microsoft はWebブラウザ Edge を持っており、Copilot を検索エンジンとシームレスに使える。2024年中頃では、Copilot のほうが多機能だが、そのうちに違いは少なくなろう。

Azure OpenAI Service(2023年)

AzureはMicrosoft提供するのクラウドサービス。Azure OpenAI Serviceは、企業が独自の生成AIシステムを容易に開発することが目的で、Azure上でChatGPTのAPI利用環境を提供するサービスである。2023年サービス開始、2024年には、GPT-4o に対応。
 アクセス制御や多要素認証、データの暗号化、脅威の検出、ネットワークの保護などAzureの持つ高度なセキュリティ機能を持つ。料金体系は、利用するモデルや使用量に基づいた従量課金制

Copilot+ PC(2024年)

Copilot+ PCとは、2024年、Microsoft が発表した、AI利用に特化したPCのアーキテクチャ、あるいは、それを搭載したPC。
 CPU、OS、アプリケーション層、クラウドに至るまで、PC全体をAI利用を主目的に再構築したものだとされてる(既存のPCへのインストールは考慮されていない)。
 重要な機能に Recall機能がある。これは企業内生成AIの個人版というようなもので、PCが画面に表示した情報(メール、閲覧Webページ、自作のコンテンツなど)を生成AIモデルに取り込み、それを生成AIのプロンプトで検索、加工、表示します。Officeソフトとの連携もできる。


Google

Googleは、検索エンジンのトッププレイヤーであるが、AI分野でも主要なプレイヤーである。Attention/Transformer、BERTなど、2010年代中頃の文章生成AI技術は Google により牽引されたといってよい。

Googleは、OpenAI系には参加せず、独自の生成AI路線を歩んでいいる。その特徴は公開主義で、後述のモデルは、OSSとしてソースコードは公開されコミュニティによる発展が期待されている。
(chatGPTとCopilotは、APIは公開しているが、ソースコードは公開していない)

LaMDA(2021年)

Transformerをベースにした文書生成AI

Bard(2023年)

LaMDA を対話型文章生成AIにしたもの。検索エンジンとの連携が特徴で、Bardの回答の下には、従来のウェブ検索で使うための質問も提示されるなどの工夫がされている。
 chatGPT に後れをとり、一般利用者には知名度が足りないが、OSSとして公開されており、これをベースとした関連AIは多数ある。

Gemini(2024年)

BardはGeminiに改名、同社のAIモデルおよびそれを使ったサービス群に共通して使われるブランド名。


参考URL