生成ＡＩの概要

（注）本ページは２０２４年中頃の記述です。技術的な説明は厳密ではありません。

生成ＡＩとは（従来型ＡＩとの違い）

生成ＡＩ（generative AI）とは、「オリジナルな文章や音声、画像、動画などを自動的に生成して人間のように表示するＡＩ」のことです。
　従来のＡＩは、事前に学習したデータから可能性が高い結果を予測し、ユーザーに解決策を提示するだけでした。例えば、動物の写真を多く学習させておき、ある写真を見せてネコかイヌかを判別させるとか、多数の消費者の購買情報を与えて、いくつかのグループに分類させるなどの機能でした。 →参照：機械学習
　それに対して生成ＡＩは、「木に登っている犬をコミック風なイラストで作成する」とか「小売業界での生成ＡＩ利用について１０００字程度で示せ」など、利用者からのプロンプト（指示）に応じて画像や自然言語での回答を表示しますが、それには創造性が要求されます。

従来型ＡＩも生成ＡＩも、事前に膨大な資料を収集・分析して、ニューラルデータベースの形式に整理した学習済データベース（検索用データベース、コーパスともいう）を構築し、それを参照して、結果を出力する機能をもつことは同じです。
　しかし、生成ＡＩでは、それに適した学習済データベースの構造にすること、結果の出力を人間らしい表現に生成する機能が必要です。

通常のデータベースシステムでは、データベースとそれを処理するプログラム（メソッド）に分けられますが、生成ＡＩではそれを明確に区分するのは困難です。それでここでは両者をまとめて生成ＡＩモデルといいます。なお、既存の生成ＡＩモデルを用途に応じてカスタマイズには、モデル提供者が公開しているＡＰＩを用います。

事前に指示に適切に対処するには、それに応じた学習済データベースが構築されていることが前提になります。
　どの生成ＡＩモデルがどのような学習済データベースをもっているかは、作成者が公開していないことが多く、利用者がそれを知るのは困難です（少なくとも私は知りません）。

生成ＡＩの分類

生成物の形態による分類

文章生成ＡＩ
生成ＡＩの基本になるものです、
　・質問への応答：「おいしいコロッケの作り方」を教えてなど
　・文章要約：長い文章などを与えて、要約文を作成させる
　・言語翻訳：和文英訳など
　・文章創成：ある商品の広告文やキャッチコピーの作成
　・プログラム：アルゴリズムの作成、コードの誤り指摘など
など、多様なプロンプトに対応できます。
また、「小学生向けに」とか「関西弁で」など出力表現を指示することもできます。
しかし、それに十分な学習済データベースが用意されている必要があります。
画像生成ＡＩ
学習済データベースから類似の画像を検索して示すのではありません。それで「木に登った犬」とか「火星人との野球試合」など、奇想天外な画像も作成できます。
通常はテキストデータでのプロンプトですが、プロンプトをメニュー化して、細かい指定を簡単な操作で実行できるようにしたり、元画像を示して、コミック風のイラストにせよとか、人物をサルに変更せよ」などができたりするような専用の画像生成ＡＩあるいはアドオンもあります。
住宅などの諸元を与えて図面や立体図などを生成させるような、特定分野に特化した画像生成ＡＩもあります。
音声生成ＡＩ
単純に話声の入出力を音声化するのならば、文章生成ＡＩの前後に話声⇔テキスト変換機能を追加するだけで実現できます。
翻訳機能を用いれば、スマートフォンを介して、外国人との会話ができますし、文章要約の技術を利用して会議の議事録を自動作成することもできます。
出力を特定の人の声にする場合は、あらかじめその人の話声を学習済データベースに与えておく必要があります。高機能の音声生成ＡＩでは十数秒の録音データで可能だといわれています。
楽曲の分野では、短い音楽を作曲することができます。簡単なものなら「寝る前に聞く、静かなメロディを１６小節で」だけでもそれらしいメロディが得られます。専用のＡＩでは、入力フォームから、楽器の種類、基本キー、音符の数や高低などキメの細かい指定ができますし、同時に作詞をすることもできます。
動画生成ＡＩ
画像生成や音声生成の技術を組み合わせることにより、創造的な動画を作成できますし、元の動画での人物を他の人物の姿や声に変換することもできます。
従来は、動画専用の生成ＡＩを利用するのが通常でした。その使い勝手や精度が急速に向上しました。さらに、Ｗｅｂブラウザから手軽に利用できる対話型生成ＡＩでも、動画生成機能が提供されてきました。「素人が簡単にフェイク動画が作れる」として、その対策が求められています。
統合生成ＡＩ
現在広く用いられている生成ＡＩモデルでは、これらすべての出力形態をサポートしています。単独では専用ＡＩには劣ることもありますが、アドオン的に連携できるものもあります。

用途による分類

汎用型
一般の利用者を対象にして、広い用途での利用を目的としています。私たちがよく用いる ChaiGTP や Copilot などはこれに属します。
特定分野型
衣服デザイン分野、ゲノム分野など特定分野での利用に特化した生成ＡＩでは、元となる資料や学習済データベースの構造、プロンプトの指定方法などが大きく異なりますし、提供方法も異なります。
専用型
企業などが主に自社の資料を学習済データベースに加えて構築した生成ＡＩです。日常の事務作業の自動化、工場や物流センターでの作業補助、経営戦略策定など多様な目的に利用されます。

提供方法（利用方法）による分類

全体提供型
多くの組織が生成ＡＩモデルを開発、提供しています。利用者はＷｅｂブラウザからプロンプトを入力するだけで結果が得られます。
通常の利用者には無料で提供されていますが、用途、規模、利用形態などによりライセンス提供やサブスクリプション提供など有料の場合があります。
ＡＰＩ提供型
利用するためのインタフェース（ＡＰＩ）を提供しているＡＩモデルもあります。利用者はこれを用いて独自のシステムを構築することができます（生成ＡＩではありませんが、Google Map で利用者独自の地図を作成するような使い方です）。これも無料・有料があります。
学習済データベース提供型
上述のローカル型では、自社資料だけでなく外部資料も必要になります。その外部資料の学習済データベースを構築して提供する型です。顧客資料の学習済データベース化サービスも行うのが通常です。
クラウドサービス型
ＡＰＩ提供、学習済データベース提供とともに、ローカル型の動作環境（SaasやIaaS機能）をクラウドで提供します。

対話型生成ＡＩ

２０２２年に OpenAI は chatAI、２０２３年に Microsoft は Copilot のサービスを提供開始しました。統合生成ＡＩ、汎用型で、一般個人利用者は全体提供型の無料サービスが利用できます。Windows11のＷｅｂブラウザ Edge や Chrome での連携もあり、検索エンジンの拡張のような感じで意識しないで利用している人もいるかもしれません。

爆発的に利用が増大し、２０２３年は生成ＡＩ元年だとか、Ｗｅｂ４.０の到来だという人もいます。

対話型ＡＩの特徴

対話型ＡＩの特徴は、「対話型、チャット型」操作にあります。

スクリプトを入力すれば、直ちに回答が表示されます。
その回答を見て、追加のプロンプトを入力できます。ＡＩは、以前のやりとりを保存しており、以前の状況を再説明する必要はありません。
このようにチャットを繰り返している過程で、望む結果を得ることができます。
このチャットはある程度の期間は保持されます。時間経過した後で、その間に無関係な会話をしたとししても、指定をすれば、先のチャットの続きを再開できます。

この対話型機能は、利便性や効果性を格段に向上させますが、工夫も必要です。

人間相手ですら、誤解のない質問をするのは困難です。ＡＩは質問者の知識や経験、質問の背景は知らないのですから、質問者にとってはトンチンカンな回答になることもあります。質問を言い換えることにより改善されましょう。
一度に多くの詳細な事項の質問をするよりも、最初は全体的な質問にして、次第に各論の詳細にするほうがよいようです。
画像出力では、「木に登っている犬」でいくつかの候補を表示され、選択した画像について「木にリンゴの実がなっている」「ネコが見ている」「全体をコミック風にする」などと追加していくのが適切です（ＡＩは怒ったりしない）。
このように、ＡＩに適切な結果を出力させるために、最適なプロンプトを構築するテクニックが必要になります。それをプロンプトエンジニアリングといいます。

人工知能（ＡＩ）へ