通常の文字データは1バイトあるいは2バイトで表現できますし,数値のデータも数バイトで表現できます。それはこれらがコード化されているからです。それに対してマルチメディアのデータは,画像や音声のアナログデータを1点ずつデジタルデータにするのですから,非常に大きなバイト数になります。それで,データを圧縮する技術が重要になります。
☆
このように品質とデータ量は逆の関係があるのですが,品質をあまり劣化させずにデータ量を減らすための
圧縮技術が工夫されています。その方法は多様です。方法とそれによって作られたファイルの名称を示したのが拡張子です。
なお,画像,音声,文字などの素材を画面上で組み合わせて,マルチメディアコンテンツを作るためのツールをマルチメディアオーサリングツールといいます。
- 静止画像データ
- は600バイト
デジタルカメラ(300万画素)で撮った写真は1枚約1MB
- 音声データ
- 電話は8KB/秒(非圧縮)
音楽は約200KB/秒(非圧縮),約20KB/秒(MP3に圧縮)
CD1枚は740MB
- 動画データ
- 約30,000KB/秒(非圧縮,表示画面の大きさにより異なる),約330KB/秒(圧縮)
テレビ番組は約1000KB/秒(圧縮)
テキスト TXT (メモ帳などで用いている基本的な形式)
HTML(HTMLで記述したWebページのファイル)
CSV (表計算用データのテキスト形式)
静止画像 BMP (非圧縮)
JPEG(非可逆,フルカラー,写真など)
HEIF(非可逆,フルカラー,写真など)
GIF (可逆,256色,イラストなど)
PNG (可逆,フルカラー,イラストなど)
TIFF(多様な圧縮形式指定可能、タグ設定、複数画像の1ファイル化)
SVG (XML記述のベクター系画像)
音声 WAV (非圧縮)
FLAC(可逆)
MIDI(シンセサイザなど)
MP3 (MPEG-1準拠)
AC-3、ドルビーデジタル(DVDビデオ)
G.729(電話)
動画 MPEG-1(ビデオCD用)
MPEG-2(DVDビデオ,デジタル衛星放送用)
MPEG-4(インターネットでの音・画像・動画などの配信用)
MP4 (MPEG-4に準拠したファイル形式)
AVI (Windows標準の動画用ファイル形式)
H.264、AVC(放送用、ワンセグからディジタルハイビジョンまで)
H.265、HEVC(H.264の後継規格。8k放送)
その他 PDF (電子文書のためのフォーマット)
デジタル化
画像や音声などマルチメディアの元のデータは連続的なアナログデータなのに,コンピュータで処理するデータは離散的なデジタルデータです。できるだけ元のアナログデータを忠実に反映しつつ小さな容量にすることが望まれます。ここでは音声データを例にして,デジタル化の方法を説明します。
音声をデジタル情報に変換するには,まず音声をマイクロホンで電気信号に変えます。すると,図の曲線のような波形になります。音声は大きさと高さで決められます。音声が大きいことは波形が高いことで,音声が高いことは波形の幅が狭い(周波数が大きい)ことで表されます。この波形を図の棒線で近似することによりデジタル化するのです。デジタル化は次のステップで行われます(量子化と符号化を同時に行うこともあります)。
- 標本化
- 棒線の間隔を狭くすれば(サンプリングの回数を増やせば)波形に近くなるので,よい品質になります。しかし,それだけデータ量が大きくなります。
波形の幅の半分の間隔にすれば波形が再現できるという理論(標本化理論)があります。たとえば,人間の声は最大4KHzですので,1秒間に8000回サンプリングすればよいことになります。音楽では,もっと高い周波数の音が含まれますので,サンプリングの回数を多くする必要があります。
- 量子化
- 棒線の高さを数値化することです。音の大きさは連続的なアナログ量ですが、それをいくつかの範囲に区切り、その代表値を定めることです。それにより、離散的なデジタル量になります。この代表値を物理的な値ではなく、符号で示すのが通常です。それを符号化といいます。
図では0~7の8段階に数値化していますが,16段階,32段階と増やせば,それだけ波形に近くなるので品質がよくなります。このとき、段階の区切間隔は任意で、ある範囲は細かく他の範囲は粗くすることができます。
量子化した情報から元のアナログ情報に変換することを逆量子化といいます。量子化するときに元のアナログ情報の持つ特性が失われていることが多く、符号化とも密接な関係があり、高度な理論が用いられています。
- 符号化
- 量子化した数値を0~Nの整数(通常は2進数で表現できる数)に変換することです。8段階ならば、最小を0、最大を7とします。この値は符号であり物理的な数値を示すものではありません。例えば、符号値が4の音の大きさは、符号値が2の音の2倍だとはいえません(等間隔で量子化すれば、このような関係が成立するでしょうが)。
8段階のときは、1サンプリングを3ビットで表現できます(23=8)が,16段階にすれば4ビットが必要になります。
電話の音声をデジタル化したらどの程度の容量になるかを計算してみます。
人声は最大4KHzです。Hzは周波数ですから,波の周期はその逆数で4000回/秒になります。標本化理論により,サンプリングは2×4000=8000回/秒になります。通常は人声は8段階程度で十分ですので,1サンプルあたり3ビットになります。それで,8000×3ビット/秒,すなわち3KB/秒となります。
- CODEC
- このような手段によりアナログデータをデジタル符号に変換することをエンコード(符号化)、エンコードされたデータから元のデータに復号することをデコード(復号)といいます。
エンコード/デコードを行うアルゴリズムをCODEC(COder/DECoder)といいます。
- A/Dコンバータ
- アナログ信号の振幅を離散的な周期で切り出し、符号で表されたデジタル信号に変換することをA/D変換といい、A/D変換を行う装置をA/Dコンバータといいます。
- PCM(Pulse Code Modulation)
- パルス符号変調。音声などのアナログ信号をデジタルデータに変換する方式の一つで、上述の「デジタル化」はこの方式によっています。
狭義には、デジタル化の規格のことです。例えば、PCM方式による音楽CDでは、サンプリング周波数44.1kHz、量子化16ビットと定められています。PCMで記録されたファイルをPCMファイル、演奏などをPCMファイルに記録する装置をPCMプロセッサといいます。
圧縮方式
- 非圧縮方式
- 標本化した個々のデータをデジタル化して保管します。
テキストデータは、復元できるのが必要なので、通常は非圧縮方式です。
静止画でいえば、1画素が1データになるので、大きなデータ量になります。そのため、小さな画像、短時間の音声に限られます。
- 可逆圧縮方式
- 圧縮したデータを完全に復元する方法があるときの圧縮方式です。それができるには極端な圧縮はできません。
- 非可逆圧縮方式
- 完全に復元することは断念して、圧縮度を高くする方式です。大量標本化データを品質は下がるが保管や転送を容易にするときに用います。
動画は、通常は非可逆圧縮方式です。
静止画像
ビットマップ形式とベクトル形式
- ビットマップ形式の画像
- ラスタグラフィックスともいいます。画像を小さな点(画素,ピクセル)に分割し,その点を3原色の濃淡を数値化して表現する方法です。
デジタルカメラやスキャナで取り込んだ写真画像はビットマップ画像です。ビットマップ画像を作成するソフトをペイント系(ラスタ系)グラフィックソフトといいます。
この形式の画像は,写真のようにきめの細かい画像に適していますし,画素単位での修正ができる特徴があります。ビットマップ画像を補正するソフトをフォトレタッチソフトといいます。
ビットマップ画像は,画素以外の情報をもたないので,拡大すると輪郭にジャギ(ギザギザ)が現れたり,縮小すると情報が失われ,それを拡大しても元の画像に復元できないなど,拡大・縮小・変形などに適しません。
- ベクトル形式の画像
- 線や長方形などの図形を起点と終点の座標とそれを結ぶ基本図形の情報を与える方法です。
ベクトル画像を作成するソフトをベクトル系(ドロー系)グラフィックソフトといいます。
この方法は,画像そのものではなくこれらの情報だけを持つので,容量が非常に小さくなる特徴があります。また,拡大・縮小をしても画像が乱れない,変形が容易であるという特徴だあります。また線の色や太さ,図形で囲まれた範囲の塗りつぶしなどが容易にできます。そのためCADやイラスト作成,グラフ作成などに適しています。
静止画像のファイル形式
ビットマップ画像は容量が大きくなるので,なんらかの方式によって容量を小さくする工夫がなされています。それを画像圧縮といいます。圧縮した画像が元の画像に完全に復元できる方式を可逆圧縮方式,完全には復元できない方式を非可逆圧縮方式といいます。次によく用いられているファイル形式を掲げます。
タイプ | 復元 | カラー | その他の特徴 |
BMP | 非圧縮 | フルカラー | Windows標準 |
JPEG | 非可逆 | フルカラー | 写真など |
HEIF | 非可逆 | フルカラー | 写真など |
GIF | 可逆 | 256色 | イラストなど |
PNG | 可逆 | フルカラー | イラストなど |
- BMP
- Windowsで標準的に装備されています。ほとんど圧縮をしないか単純な圧縮しかしないので,この形式のファイルは容量が大きく,保管したりWebページに掲げるのには適していません。
- JPEG(JPG)
- きめが細かく色彩が微妙に変化する写真などの画像を圧縮するのに適した方式です。非可逆圧縮方式です。圧縮度を与えることができるので,圧縮度を少なくして画質を重視したり,画質を犠牲にして圧縮度をたかめたりすることができます。国際標準になっています。
- HEIF
- JPEGの2倍程度の高い圧縮効率で画像データを圧縮でき、連続撮影写真や派生画像の保存などにも対応できます。iPhoneなどのカメラ撮影の標準ファイル形式として採用されています。
- GIF
- イラストのように境界がはっきりしており,色の変化が少ない画像に適しています。可逆圧縮方式ですが,256色に減色されます。1色について透明化(背景が見える)ができるとか,複数の画像を順番に表示するアニメーション機能(服部宣広氏「Animation GIF Maker」より)などがあります。
- PNG
- GIFと同様に,可逆圧縮方式,透明化ができます。フルカラーです。用途はGIFとJPEGの間のような画像に向いています。
- TIFF
- データの先頭に圧縮情報が付いており,多様な圧縮方式を汎用化したものです。GIF圧縮もJPEG圧縮もできます。また,ひとつのファイルの中に複数の画像を格納したマルチページファイルを構成できるのも特徴です。
- SVG(Scalable Vector Graphics)
-
- XMLを用いて線や円などの図形を記述する言語,あるいはそれにより作成した画像。ベクター画像を扱います。これまでは,Webページに画像を表示するにはGIFやJPEGのファイルを組み入れる必要がありましたが,SVGではHTML(HTML5以降で対応)に直接記述できるので,別ファイルにする必要がありません。また,アニメーション機能もサポートしており,これまでFlashを利用していた動的な画像表示もできます。
音声
- WAV(WAVE)
- Windowsで標準に用いられているサウンドデータの形式です。圧縮はしていません。
- MIDI
- シンセサイザメーカーのコンソーシアムが開発した音楽・音声データ通信規格。
- MP3
- MPEG-1規格(後述)に準拠した音声圧縮方式で,WAVデータの10分の1程度に圧縮します。
- AC-3(Audio Coding number 3)/ドルビーデジタル
- DVDビデオ(ビデオ5.1チャネルサラウンドシステム)で使用
- EVS(Enhanced Voice Services)
- LTE環境でのスマートフォン通話での、音声をデジタル化する際に用いられる音声符号化方式(音声コーデック)。VoLTE(Voice over Long Term Evolution)をさらに高音質化したもの
- RAM(Real Audio Metadata Format)
- RealMedia系の動画・音声ファイル
・RealVideo:動画ファイルの形式
・RealAudio:音声ファイルの形式
これらををストリーミング配信するためのメタファイルなので、コンテンツ本体ではありません。
動画
動画は、単純にはパラパラ漫画にように、画面がわずかに異なる静止画を連続して見せることにより実現します。1枚の静止画に当たるものをフレームといい、単位時間あたりに処理するフレーム数をフレームレートといいます。
連続するフレーム間での同じ部分、変化する部分を考慮することにより、圧縮度が大きく変わります。
フレームをどのように見せるかにいろいろな形式があります。
動画処理が遅いと実際の動きに間に合いません。それをカバーする方式もいろいろあります。
- MPEG
- 動画の国際標準です。
圧縮目的
ビット/秒 用途
MPEG-1 1.5M CD-ROMなどの蓄積型メディア。MP3を含む
MPEG-2 60M~ デジタル衛星放送、DVDビデオ
MPEG-4 数十k~数十M ビデオ、放送,通信、動画配信など多様
圧縮目的以外
MPEG-7 マルチメディア用メタデータ表記・検索方法の標準規格
MPEG-21 著作権保護やコンテンツ保護を中心とした規格
- AVI
- Windowsの標準動画圧縮。APIが提供されており、多数のソフトウェアが公開されています。
その他,各社からRealVideo,QuickTime,WindowsMedia,Shockwaveなど,動画をWebブラウザで再生するソフトが開発されています。
- H.264/MPEG-4 AVC
- ITU-Tでは「H.264」、ISO/IECでは、ISO/IEC 14496-10「MPEG-4 AVC」として規格化。MPEG-4 よりも圧縮率が高く、ワンセグ放送はこの方式です。
- HEVC、H.265
- H. 264(MPEG-4 AVC)の後継規格でより圧縮効率の優れた方式です。8k放送など高解像度な映像だけでなく携帯端末向けの映像配信でも使われています。
その他のファイル
- PDF(Portable Document Format)
- 文字や画像を組み合わせた印刷用文書-WORDやPowrPointなどで作成した文書-を,そのままの体裁で保存でき,拡大縮小してもあまり乱れず,不正な更新ができないようにしたツールです。重要文書の保存や文書の配布などに用いられます。
- PostScript
- 文字や画像を含むページをビットマップに変換するプリンター制御言語です。印刷・出版業界で広く用いられています。
- CSVファイル
- Excelなどの表計算ソフトのファイルを,データ間をコンマで区切り,レコード間は改行で区切ってテキスト形式にしたものです。容量が少なくてすむこと,多くの表計算ソフトに使える特徴があります。