(注)本ページは2024年中頃の記述です。技術的な説明は厳密ではありません。
利用者の指示(プロンプト)により、文章や画像などを生成するAIを
・プロンプトを自然言語の文章や話声で与えます。
「木に登っているイヌの画像」と入力すれば、その画像が出力されます。
・結果を得て、さらにプロンプトを追加して、結果に手を加えるkとができます。
「イラスト風に」とか「ネコが下から見ている」など
これにより、利用者が意図した結果に近づけることができます、
この対話型機能は、利便性や効果性を格段に向上させますが、工夫も必要です。
人間相手ですら、誤解のない質問をするのは困難です。AIは質問者の知識や経験、質問の背景は知らないのですから、質問者にとってはトンチンカンな回答になることもあります。質問を言い換えることにより改善されましょう。
AIに適切な結果を出力させるためには、最適なプロンプトを構築するテクニックが必要になります。それをプロンプトエンジニアリングといいます。
2024年現在、生成AI分野での最大プレイヤーです。非営利法人OpenAI,Inc.(2015年設立)とその子会社である営利法人OpenAI Global,LLC(2019年設立)などの法人から構成されます。
非営利法人OpenAI,Inc.は、「人類全体に利益をもたらす汎用人工知能(AGI)」の普及・発展を目標に掲げ、多額な寄付金を得て運営。汎用人工知能が完成した際は、それを営利法人や他社にライセンス提供はしない規約となっています。
営利法人OpenAI Global,LLCは、GPTやChatGPTの開発をしています。Microsoft が49%の株を取得しています。
以降、OpenAI とは、この営利法人を指すことにします。
GPT(Generative Pretrained Transformer、事前学習済み文章生成型モデル)は、文章生成型AIモデル、DALL・Eは画像生成AIモデルです。これらは厳密にはモデル(ニューロンネットワークの構造とその生成、参照のアルゴリズム)のことですが、これらの基盤の上に、利用者が使う環境までを含めてGPTということもあります。
GPT/DALL・Eの発表年
GPT DALL・E
2018年 GPT-1
2019年 GPT-2
2020年 GPT-3
2021年 DALL・E
2022年 GPT-3,5 DALL・E2
chatGPT
2023年 GPT-4 DALL・E3
2024年 GPT-4o
2022年の発表以来、chatGPT は爆発的な利用者を獲得しました。百万人のユーザ獲得までの期間は、Facebook(現X)では10か月、Instagramは2か月だったのに対して、わずか5日だったし、2か月後には1億人に達したとのことです。
ChatGPTは無料で一般ユーザーに提供していますが、chatGPT Plus、chatGPT Team、chatGPT Enterprise など有料提供のものもあります。
Microsoftは、早期から OpenAI に出資し、49%の株を取得している筆頭株主です。そのため、Microsoftの生成AIでは、OpenAI の最新技術を採用しています。
2023年に、GPT-4 と DALL-E3 をベースとした生成AI Bing Chat を発表(Bing はWebブラウザ Edge の検索エンジン)し、同年、Copilot (copilotは「副操縦士」の意味)に改称しました。
無料版 Copilot と有料版 Copilot Pro(個人向け)、Copilot for Microsoft 365(法人向け)があります。
無料版は、Windows10 以上の Edge から自由に使えます。当初は、Microsoftアカウントが求められましたが、その後不要になりました。Edge では検索エンジンの一つのオプションのように、 Copilot が利用できます。
2024年初頭でのGPT-3.5ベースの初期のChatGPT と、GPT-4をベースとしたCopilotを比較すると、Copilot のほうが優れた機能がありました。しかし、ChatGPT も新版のGPTn対応してきており、その違いは減少しています。
残る違いは、Microsoft はWebブラウザ Edge を持っており、Copilot を検索エンジンとシームレスに使えることでしょう。初心者は、Copilot を意識せず、検索エンジンの延長機能のように理解しているかもしれません。
AzureはMicrosoft提供するのクラウドサービス。Azure OpenAI Serviceは、Azure上でChatGPTのAPI利用環境を提供するサービスです。。2023年サービス開始、2024年には、GPT-4o に対応しました。
企業が独自の生成AIシステムを容易に開発することが目的です。アクセス制御や多要素認証、データの暗号化、脅威の検出、ネットワークの保護などAzureの持つ高度なセキュリティ機能を持つ。料金体系は、利用するモデルや使用量に基づいた従量課金制があります。
Copilot+ PCとは、2024年、Microsoft が発表した、AI利用に特化したPCのアーキテクチャ、あるいは、それを搭載したPCです。
CPU、OS、アプリケーション層、クラウドに至るまで、PC全体をAI利用を主目的に再構築したものだとされています。そのため、既存のPCへのインストールは考慮されていないようです。
重要な機能に Recall機能があります。これは企業内生成AIの個人版というようなもので、PCが画面に表示した情報(メール、閲覧Webページ、自作のコンテンツなど)を生成AIモデルに取り込み、それを生成AIのプロンプトで検索、加工、表示します。Officeソフトとの連携もできます。
Googleは、検索エンジンで有名ですが、AI分野でも主要なプレイヤーです。検索エンジンで培った膨大な資料とデータベース構築・検索の技術は、生成AI分野での優位性になっています。
2016年にコンピュータが囲碁の世界チャンピオンを破り話題になりましたが、そのシステムは、GoogleのAIプログラム「AlphaGo」です。
生成AIで画期的な技術である Transformer もGoogleの成果です。これは BERTやGPTの基本技術です。
Googleは、OpenAI系には参加せず、独自の生成AI路線を歩んでいます。
その特徴は公開主義です。後述のモデルは、OSSとしてコードは公開されコミュニティによる発展が期待されています。
(chatGPTとCopilotは、APIは公開しているが、ソースコードは公開していません)
Transformerをベースにした文書生成AIです。
LaMDA を対話型文章生成AIにしたものです。専用のウェブページから利用でき、グーグルの通常の検索インターフェイスとは切り離されています。Bardの回答の下には、従来のウェブ検索で使うための質問も提示されるなどの工夫がされている。
chatGPT に後れをとり、一般利用者には知名度が足りないのですが、OSSとしてソースコードが公開されており、これをベースとした関連AIが多数出現するでしょう。
BardはGeminiに改名し、同社のAIモデルおよびそれを使ったサービス群に共通して使われるブランド名になりました。
中国政府は、2030年までに中国をAI分野でのグローバルリーダーにするという政策を掲げています。米中のAI摩擦および中国政府の政策により、中国国内では chatGPT などの利用は制限されており、中国独自の生成AIの育成・発展が進められています、
2023年から、代表的生成AIが続々と発表、サービスが開始されています。2024年当初では、未だ chatGPT のようなすべてを網羅した単一の対話型生成AIモデルは存在しませんが、特定の機能では chatGPT より優れているものがあるといわれています。
日本でも生成AIの活用が重視され、政府も重点政策の一つとしており、総務省、経済産業省、各種研究機関、企業の連携が推進されています。
世界を市場とする本格的な生成AIは出現していませんが、むしろ日本語の壁を逆利用したモデルや、特定業界を対象にした分野では、世界トップクラスのレベルにあるといわれています。