スタートページ> (主張・講演Web教材歴史インターネット個人利用関係の歴史

生成AIの歴史


参考URL


近年のフェイクニュースでは、本物との判別が困難な顔や音声をすり替えた偽動画が使われており、それをディープフェイクということが多い。しかし本来、ディープフェイクとはAI技術の一つであり、反社会的利用を前提にしたものではない。ここでは、AIにおけるディープフェイク関連技術である「GAN」と「生成AI」を取り上げる。(ここでは、説明を簡単にするために偽動画生成での表現をしている)

 

GAN(Generative Adversarial Networks、敵対的生成ネットワーク)

GANとは、生成AIの基本的技術である。機械学習の「教師なし機械学習」に分類される手法であり、「生成深層学習」という学習方法である。ディープラーニング発展の一つ。
 2014年 グッドフェロー(Ian J. Goodfellow)ら が論文「Generative Adversarial Networks」で発表した。

GANのごく単純な説明

この作業の間に、GとDのネットワークは、「見破られない偽動画にする」ことと「偽動画の欠点を暴いて偽だとする」ことの対立する目的で競い合う。互いの機能が他の機能を無効果にするよう戦い合う関係になることから、敵対的生成ネットワーク (Generative = 生成、Adversarial = 敵対的)という。

GANの発展


生成AI(Generative AI)

生成AIとは、さまざまなコンテンツを生成できる、あるいは、生成する学習能力があるAIのことである。代表的な生成AIアプリには、GoogleのBERT、OpenAIのChatGPT、MicrosoftのBing などがある。
 単純な利用では、Webブラウザ上で自然言語で質問文を入力すると回答文が自然言語で表示される。チャットのように即座に回答が得られるし、連続して関連した質問ができる。

生成AIは、入力(質問)と出力(回答)の形態により、次の3つの種類になる。
  text-to-text  質問、回答共に文章   ここでは生成AIというときこれを指す。
  text-to-image  質問は文章、回答は画像 ここでは画像生成AIという。
  image-to-image 質問、回答共に画像   同上

生成AIの仕組みは、基本的には次のステップになる。

この「何らかの手段」をいかに実現するかが、生成AIの主要な研究テーマである。

GoogleのBERT

OpenAIのGPTとChatGPT

OpenAIは人工知能を研究する民間団体。2015年にサム・アルトマン、イーロン・マスク(2018年に退職)らにより設立。2019年に子会社の営利法人OpenAI LPを設立、筆頭株主はMicrosoft。

MicrosoftのBingAI

BingはMicrosoftのWebブラウザ Edge の標準検索エンジンである、
 2022年にMicrosoftは、EdgeとBingを根本的に改良したとして、生成AIである BingAI を発表した。


画像生成AI

文章を対象にした生成AIでは直接に画像を生成することはできない。画像専用の画像生成AIを用いる。しかし、生成AIは画像生成AIをオプション機能として持つことが多い。

画像生成AIには、大きく次の型がある。なお、通常の生成AIは text-to-text型である。

(注:お詫び)
多くのWeb記事が「動画のAの顔を写真のBの顔に変換したディープフェイク偽動画を、素人でも簡単にできる」といっている。しかし、私は汎用的なツールを知らない。できれば動画や写真をURL指定することにより、text-to-image 形式で使いたいのだが・・・。

画像生成AIの発展

text-to-image型画像生成AIでできること

先行理論

text-to-image での内部処理の効率向上が主目的

代表的な画像生成AI

Stable Diffusion系とDALL·E2系。text-to-image が主だが、image-to-image のオプション機能を持つ。

image-to-image 画像生成AIサービス公開サイト

サービス公開サイトでできること(私が理解したこと)

image-to-image型の加工をするアプリやクラウドサービスが多数出現している。しかし、2023年現在では、元画像をWeb画面に表示し、お仕着せの加工方法やパラメタの値を指定するのが大多数であり、完全な汎用機能は持っていない段階のようだ。