近年のフェイクニュースでは、本物との判別が困難な顔や音声をすり替えた偽動画が使われており、それをディープフェイクということが多い。しかし本来、ディープフェイクとはAI技術の一つであり、反社会的利用を前提にしたものではない。ここでは、AIにおけるディープフェイク関連技術である「GAN」と「生成AI」を取り上げる。(ここでは、説明を簡単にするために偽動画生成での表現をしている)
- GAN関連の年表
- 2014年 グッドフェロー(Ian J. Goodfellow)ら GANの論文発表
- 2015年 Radfordら DCGAN(Deep Convolutional GAN)発表
畳み込み層をネットワークに適用。。一気に普及した。
- 2017 Jun-Yan Zhuら「CyclicGAN」発表 動画のディープフェイク
- 2018年 Microsoft 文章から絵を生成する 「AttnGAN」
「黄色い身体で、黒い羽根で短いくちばしの鳥」の指示で小鳥の画像を生成
- 生成AI関連の年表
- 2017年 Google 「Transformer」発表
- 2018年 Google 「BERT」発表
- 2019年 Google 検索エンジンにBERT搭載
- 2022年 OpenAI 「InstructGPT」発表
- 2022年 OpenAI 「ChatGPT」発表
- 2022年 OpenAI 画像生成AIツール「DALL・E 2」発表
- 2022年 Stability AIら 画像生成AIツール「Stable Diffusion」発表
- 2022年 Microsoft 「BingAI」発表
GAN(Generative Adversarial Networks、敵対的生成ネットワーク)
GANとは、生成AIの基本的技術である。機械学習の「教師なし機械学習」に分類される手法であり、「生成深層学習」という学習方法である。ディープラーニング発展の一つ。
2014年 グッドフェロー(Ian J. Goodfellow)ら が論文「Generative Adversarial Networks」で発表した。
GANのごく単純な説明
- 対象となる人物Aを写した元動画と、Aに置き換える人物Bの写真がある。目的は、Aの顔をBの顔に置き換えた偽動画(ディープフェイク動画)を生成することにある。
- GANでは、生成器(Generator、以下Gと表記)と識別器(Discriminator、以下Dと表記)という2つのニューラルネットワークを併用し、データ生成のモデルをブラッシュアップする。<.li>
- Gは、何らかの手段で偽動画を生成する。Dは、それをチェックして、不自然な個所を指摘する。Gは、その指摘箇所を修正して新しい偽動画を生成する。Dはそれをチェックして・・・というループを繰り返すことにより、かなり精巧な偽動画になる。
この作業の間に、GとDのネットワークは、「見破られない偽動画にする」ことと「偽動画の欠点を暴いて偽だとする」ことの対立する目的で競い合う。互いの機能が他の機能を無効果にするよう戦い合う関係になることから、敵対的生成ネットワーク (Generative = 生成、Adversarial = 敵対的)という。
GANの発展
- DCGAN(Deep Convolutional GAN)
2015年、Alec Radford, Luke Metz, Soumith Chintala は、論文「Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks」を発表した。
GANの2つのネットワークに畳み込みニューラルネットワークを用いることにより、GANの問題点だった学習時に不安定なケースが起こる問題を解消できることを示した。
- CycleGAN
2017年、Jun-Yan Zhuら は論文「Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks」を発表した。
「循環による一貫性を持つ敵対性ネットワーク」を用いた「教師なし学習」による「画像から画像への変換」である。元画像の人物を置き換えて偽画像を生成するのにあたり、2つの異なる画像データセットからその関係を学習をすることにより、大量のペア画像を用意する必要がないことを示した。
- AttnGAN
2018年にMicrosoftのTao Xu らは、論文「AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks」を発表した。
単純にいえば、文章からの画像生成技術である。「黄色い身体で、黒い羽根で短いくちばしの鳥」と入れると、そのような鳥の写真が生成される。この鳥は特定の鳥ではなく、それぞれの特徴を持つ複数の部品を合成している。これが、画像生成AIの基礎になった。
生成AI(Generative AI)
生成AIとは、さまざまなコンテンツを生成できる、あるいは、生成する学習能力があるAIのことである。代表的な生成AIアプリには、GoogleのBERT、OpenAIのChatGPT、MicrosoftのBing などがある。
単純な利用では、Webブラウザ上で自然言語で質問文を入力すると回答文が自然言語で表示される。チャットのように即座に回答が得られるし、連続して関連した質問ができる。
生成AIは、入力(質問)と出力(回答)の形態により、次の3つの種類になる。
text-to-text 質問、回答共に文章 ここでは生成AIというときこれを指す。
text-to-image 質問は文章、回答は画像 ここでは画像生成AIという。
image-to-image 質問、回答共に画像 同上
生成AIの仕組みは、基本的には次のステップになる。
- 運営サイトでは、検索エンジンのように、Web上の膨大な資料を何らかの手段により整理したデータベースを持っている。
- 自然言語の質問文は、何らかの自然言語処理により、効率的な取扱ができるデータに整理される。
- 何らかの方法で、質問データに関係する資料を探し、回答内容にまとめる。
- 回答内容を自然言語の文章に編集、回答文にして表示する。
この「何らかの手段」をいかに実現するかが、生成AIの主要な研究テーマである。
GoogleのBERT
- Transformer
2017年にGoogleの技術者は論文「Attention Is All You Need」を発表した。
Attention層とは簡単に言うと、「文の中で重要な単語には重み付けをして渡す」というもの。従来のディープラーニングでのReccurent層や畳み込み層を使わずに、Attention層だけを使うことにより、質問データとなデータベース間の負荷が非常に削減される。
大規模言語モデルでの基本的な対処方法であり、GoogleのBERTだけでなく、OpenAIのGPTなど多くの生成AIアプリで採用されている。
- BERT
BERTとは、Bidirectional Encoder Representations from Transformersの略、「Transformerによる双方向のエンコード表現」の意味。自然言語の文脈理解を効率化する技術。
2018年に発表、2019年に英語版のGoogle検索エンジンに搭載。これにより、(キーワードの羅列ではなく)文章による検索ができるようになった。
OpenAIのGPTとChatGPT
OpenAIは人工知能を研究する民間団体。2015年にサム・アルトマン、イーロン・マスク(2018年に退職)らにより設立。2019年に子会社の営利法人OpenAI LPを設立、筆頭株主はMicrosoft。
- GPT
2018年、OpenAIは論文「Improving Language Understanding by Generative Pre-Training」を発表。その中でGPT(Generative Pre-trained Transformer)を示した。
GPTはOpenAIの生成AIモデルとして発展
2020年 GPT-3
2022年 GPT-3.5
- InstructGPT
これまでの生成AIは、ユーザの意図に沿っていなかったり、信頼できない文章を生成したり、偏見が含まれているような文章が生成される欠点があった。それを人によるフィードバックを強化学習を使って修正する必要があるが、学習方法をRLHF(Reinforcement Learning from Human Feedback)という。
2022年、RLHFを取り込んだInstructGPTがサポートされた。
- ChatGPT
2022年にChatGPTが公開された。ChatGPTは、InstructGPT をチャット方式で実行するもので、上述の「単純な利用」で示した利用ができるようになった。
ChatGPTは、ユーザーからの質問に対して応答するだけでなく、文章の校正・要約、翻訳、文章(物語・詩など)生成、プログラミングコードの生成などの様々なタスクを実行でき、英語だけでなく日本語を含む複数の言語に対応しており、2023年現在では生成AIの主流になっている。
MicrosoftのBingAI
BingはMicrosoftのWebブラウザ Edge の標準検索エンジンである、
2022年にMicrosoftは、EdgeとBingを根本的に改良したとして、生成AIである BingAI を発表した。
画像生成AI
文章を対象にした生成AIでは直接に画像を生成することはできない。画像専用の画像生成AIを用いる。しかし、生成AIは画像生成AIをオプション機能として持つことが多い。
画像生成AIには、大きく次の型がある。なお、通常の生成AIは text-to-text型である。
- text-to-image型(入力が文章)
操作方法(質問文の与え方)は、ほぼtext-to-text型と同じである。
「ネコとイヌがイルカに乗り競争している画像を描画する」というような質問文で画像が出力される。
- image-to-image型(入力が画像)
多くのAIツールは、入力画像をWeb画面に示し、AIが定めた標準的な操作をメニューから指定するような利用方法である。お絵かきアプリや画像加工アプリの内部処理にAIを使っているような限界がありそうだ(注)。
(注:お詫び)
多くのWeb記事が「動画のAの顔を写真のBの顔に変換したディープフェイク偽動画を、素人でも簡単にできる」といっている。しかし、私は汎用的なツールを知らない。できれば動画や写真をURL指定することにより、text-to-image 形式で使いたいのだが・・・。
画像生成AIの発展
text-to-image型画像生成AIでできること
- 「ネコとイヌがイルカに乗り競争している画像を描画する」というような質問文で、それらしい写真が数枚出力される。
- この質問では、場所が水族館なのか海なのか、メガネや救命胴衣をつけているのか不明である。それらはAIが勝手に解釈する。より求める画像にするには、長々しい質問文になる。場合によってはAIが誤解することもあり得る。
まず簡単な質問文を与えて、AIに詳細な質問文を生成させ、それを修正するというオプション機能もある。
- 出力画像は通常は写真になるが、「イラスト風」「絵画風」「アニメ風」などの指定もできる。
- 出力された1枚について、「ネコは三毛猫」など条件を変更・追加できる。
先行理論
text-to-image での内部処理の効率向上が主目的
- alignDRAW
2015年、Elman Mansimovらは論文「Generating Images from Captions with Attention」を発表し、最初のtext-to-image型画像生成AIのモデル「alignDRAW」(DRAW = Deep Recurrent Attentive Writer)を開発した。
alignDRAWは、ヒトが絵を描く際の,「特定の言語表現に着目してそれに対応した部分を描く」という処理を、
言語エンコーダ,注意機構,DRAWデコーダを用いて行う。
- 拡散モデル(Diffusion Model)
2020年にカリフォルニア大学の研究者らは「Denoising Diffusion Probabilistic Models」を発表。そのなかで「拡散モデル(Diffusion Model)」という仕組みを示した。
画像からノイズを削除していけば、緻密な画像が現れる、AIにノイズ削除の過程を学習させ、その過程を制御すれば緻密な新画像を生成できることを示した。
- LoRA
2021年、MicrosoftのEdward J. Huらは、論文「LoRA: Low-Rank Adaptation of Large Language Models」を発表、LoRA を提唱した。
LoRA は、訓練時に、元のパラメータを更新せずに、差分を計算するモデルを学習することにより、画像を微調整する追加学習の効率を向上する手法。
代表的な画像生成AI
Stable Diffusion系とDALL·E2系。text-to-image が主だが、image-to-image のオプション機能を持つ。
- Stable Diffusion
2022年に、英国のStability AI社は、拡散モデルを拡張した「潜在拡散モデル」やLoRAの理論に基づき開発した画像生成AI「Stable Diffusion」をオープンソースで公開した。
(LoRAを組み合わせたStable diffusionをStable-diffusion-LoRAというが、通常はStable diffusionといわれている、)
- DALL·E2
- Image Creator, BingAI
2022年、OpenAIは画像生成AI「DALL·E 2」を公開。
Microsoft は、それをImage Creatorと称し、
Webブラウザ Edge のサイドバーからImage Creator使がえるようにした。
従来の検索エンジンBingを、画像も扱える、BingAI とした。
image-to-image 画像生成AIサービス公開サイト
サービス公開サイトでできること(私が理解したこと)
- 1枚の入力画像:ラフなスケッチを与えて、質の高い画像にする。顔写真を与えて、顔の向きや表情を変化させる。
- 2枚の入力画像:画像の合成。元と変更の顔写真を与えて顔を変える。服の見本を掲げて、その服を着た画像を生成する。運動のスケッチと選手の写真を与えて選手が運動している画像にする。
- AIが用意した標準画像や動画の利用:名所めぐりのストーリを選択して、主役を写真で与えた人物に置き換える。
image-to-image型の加工をするアプリやクラウドサービスが多数出現している。しかし、2023年現在では、元画像をWeb画面に表示し、お仕着せの加工方法やパラメタの値を指定するのが大多数であり、完全な汎用機能は持っていない段階のようだ。