Web教材一覧ハードウェアとソフトウェア

マルチメディアと拡張子

キーワード

静止画,音声,動画,拡張子,量子化


概要と主な拡張子

通常の文字データは1バイトあるいは2バイトで表現できますし,数値のデータも数バイトで表現できます。それはこれらがコード化されているからです。それに対してマルチメディアのデータは,画像や音声のアナログデータを1点ずつデジタルデータにするのですから,非常に大きなバイト数になります。それで,データを圧縮する技術が重要になります。
 このように品質とデータ量は逆の関係があるのですが,品質をあまり劣化させずにデータ量を減らすための 圧縮技術が工夫されています。その方法は多様です。方法とそれによって作られたファイルの名称を示したのが拡張子です。
 なお,画像,音声,文字などの素材を画面上で組み合わせて,マルチメディアコンテンツを作るためのツールをマルチメディアオーサリングツールといいます。

静止画像データ
赤い●の画像は600バイト
デジタルカメラ(300万画素)で撮った写真は1枚約1MB
音声データ
電話は8KB/秒(非圧縮)
音楽は約200KB/秒(非圧縮),約20KB/秒(MP3に圧縮)
CD1枚は740MB
動画データ
約30,000KB/秒(非圧縮,表示画面の大きさにより異なる),約330KB/秒(圧縮)
テレビ番組は約1000KB/秒(圧縮)


   テキスト  TXT (メモ帳などで用いている基本的な形式)
         HTML(HTMLで記述したWebページのファイル)
         CSV (表計算用データのテキスト形式)

   静止画像  BMP (非圧縮)
         JPEG(非可逆,フルカラー,写真など)
         GIF (可逆,256色,イラストなど)
         PNG (可逆,フルカラー,イラストなど)
         SVG (XML記述のベクター系画像)

   音声    WAV (非圧縮)
         MIDI(シンセサイザなど)
         MP3 (MPEG-1準拠)

   動画    MPEG-1(ビデオCD用)
         MPEG-2(DVDビデオ,デジタル衛星放送用)
         MPEG-4(インターネットでの動画配信用)
         MP4 (MPEG-4に準拠したファイル形式)
         AVI (Windows標準の動画用ファイル形式)

   その他   PDF (電子文書のためのフォーマット)

デジタル化

画像や音声などマルチメディアの元のデータは連続的なアナログデータなのに,コンピュータで処理するデータは離散的なデジタルデータです。できるだけ元のアナログデータを忠実に反映しつつ小さな容量にすることが望まれます。ここでは音声データを例にして,デジタル化の方法を説明します。

音声をデジタル情報に変換するには,まず音声をマイクロホンで電気信号に変えます。すると,図の曲線のような波形になります。音声は大きさと高さで決められます。音声が大きいことは波形が高いことで,音声が高いことは波形の幅が狭い(周波数が大きい)ことで表されます。この波形を図の棒線で近似することによりデジタル化するのです。デジタル化は次のステップで行われます(量子化と符号化を同時に行うこともあります)。

音声のデジタル化
標本化
棒線の間隔を狭くすれば(サンプリングの回数を増やせば)波形に近くなるので,よい品質になります。しかし,それだけデータ量が大きくなります。
 波形の幅の半分の間隔にすれば波形が再現できるという理論(標本化理論)があります。たとえば,人間の声は最大4KHzですので,1秒間に8000回サンプリングすればよいことになります。音楽では,もっと高い周波数の音が含まれますので,サンプリングの回数を多くする必要があります。
量子化
棒線の高さを数値化することです。音の大きさは連続的なアナログ量ですが、それをいくつかの範囲に区切り、その代表値を定めることです。それにより、離散的なデジタル量になります。この代表値を物理的な値ではなく、符号で示すのが通常です。それを符号化といいます。
図では0~7の8段階に数値化していますが,16段階,32段階と増やせば,それだけ波形に近くなるので品質がよくなります。このとき、段階の区切間隔は任意で、ある範囲は細かく他の範囲は粗くすることができます。
符号化
量子化した数値を0~Nの整数(通常は2進数で表現できる数)に変換することです。8段階ならば、最小を0、最大を7とします。この値は符号であり物理的な数値を示すものではありません。例えば、符号値が4の音の大きさは、符号値が2の音の2倍だとはいえません(等間隔で量子化すれば、このような関係が成立するでしょうが)。
8段階のときは、1サンプリングを3ビットで表現できます(2=8)が,16段階にすれば4ビットが必要になります。

電話の音声をデジタル化したらどの程度の容量になるかを計算してみます。
 人声は最大4KHzです。Hzは周波数ですから,波の周期はその逆数で4000回/秒になります。標本化理論により,サンプリングは2×4000=8000回/秒になります。通常は人声は8段階程度で十分ですので,1サンプルあたり3ビットになります。それで,8000×3ビット/秒,すなわち3KB/秒となります。

PCM(Pulse Code Modulation)

パルス符号変調。音声などのアナログ信号をデジタルデータに変換する方式の一つで、 上述の「デジタル化」はこの方式によっています。
狭義には、デジタル化の規格のことです。例えば、PCM方式による音楽CDでは、サンプリング周波数44.1kHz、量子化16ビットと定められています。PCMで記録されたファイルをPCMファイル、演奏などをPCMファイルに記録する装置をPCMプロセッサといいます。

静止画像

ビットマップ形式とベクトル形式

ビットマップ形式の画像
ラスタグラフィックスともいいます。画像を小さな点(画素,ピクセル)に分割し,その点を3原色の濃淡を数値化して表現する方法です。
 デジタルカメラやスキャナで取り込んだ写真画像はビットマップ画像です。ビットマップ画像を作成するソフトをペイント系(ラスタ系)グラフィックソフトといいます。
 この形式の画像は,写真のようにきめの細かい画像に適していますし,画素単位での修正ができる特徴があります。ビットマップ画像を補正するソフトをフォトレタッチソフトといいます。
 ビットマップ画像は,画素以外の情報をもたないので,拡大すると輪郭にジャギ(ギザギザ)が現れたり,縮小すると情報が失われ,それを拡大しても元の画像に復元できないなど,拡大・縮小・変形などに適しません。
ベクトル形式の画像
線や長方形などの図形を起点と終点の座標とそれを結ぶ基本図形の情報を与える方法です。
 ベクトル画像を作成するソフトをベクトル系(ドロー系)グラフィックソフトといいます。
 この方法は,画像そのものではなくこれらの情報だけを持つので,容量が非常に小さくなる特徴があります。また,拡大・縮小をしても画像が乱れない,変形が容易であるという特徴だあります。また線の色や太さ,図形で囲まれた範囲の塗りつぶしなどが容易にできます。そのためCADやイラスト作成,グラフ作成などに適しています。

静止画像のファイル形式

ビットマップ画像は容量が大きくなるので,なんらかの方式によって容量を小さくする工夫がなされています。それを画像圧縮といいます。圧縮した画像が元の画像に完全に復元できる方式を可逆圧縮方式,完全には復元できない方式を非可逆圧縮方式といいます。次によく用いられているファイル形式を掲げます。

タイプ復元カラーその他の特徴
BMP可逆フルカラーWindows標準装備,圧縮性が悪い
JPEG非可逆フルカラー写真など
GIF可逆256色イラストなど
PNG可逆フルカラーイラストなど
BMP
Windowsで標準的に装備されています。ほとんど圧縮をしないか単純な圧縮しかしないので,この形式のファイルは容量が大きく,保管したりWebページに掲げるのには適していません。
JPEG(JPG)
きめが細かく色彩が微妙に変化する写真などの画像を圧縮するのに適した方式です。非可逆圧縮方式です。圧縮度を与えることができるので,圧縮度を少なくして画質を重視したり,画質を犠牲にして圧縮度をたかめたりすることができます。国際標準になっています。
GIF
イラストのように境界がはっきりしており,色の変化が少ない画像に適しています。可逆圧縮方式ですが,256色に減色されます。1色について透明化(背景が見える)ができるとか,複数の画像を順番に表示するアニメーション機能(服部宣広氏「Animation GIF Maker」より)などがあります。
PNG
GIFと同様に,可逆圧縮方式,透明化ができます。フルカラーです。用途はGIFとJPEGの間のような画像に向いています。
TIFF
データの先頭に圧縮情報が付いており,多様な圧縮方式を汎用化したものです。GIF圧縮もJPEG圧縮もできます。また,ひとつのファイルの中に複数の画像を格納したマルチページファイルを構成できるのも特徴です。
SVG(Scalable Vector Graphics)
XMLを用いて線や円などの図形を記述する言語,あるいはそれにより作成した画像。ベクター画像を扱います。これまでは,Webページに画像を表示するにはGIFやJPEGのファイルを組み入れる必要がありましたが,SVGではHTML(HTML5以降で対応)に直接記述できるので,別ファイルにする必要がありません。また,アニメーション機能もサポートしており,これまでFlashを利用していた動的な画像表示もできます。

音声

WAV(WAVE)
Windowsで標準に用いられているサウンドデータの形式です。圧縮はしていません。
MIDI
シンセサイザメーカーのコンソーシアムが開発した音楽・音声データ通信規格。
MP3
MPEG-1規格(後述)に準拠した音声圧縮方式で,WAVデータの10分の1程度に圧縮します。

動画

 MPEGが国際標準になっており,主なものには,次のものがあります。
   MPEG-1(ビデオCD用)
   MPEG-2(DVDビデオ,デジタル衛星放送用)
   MPEG-4(インターネットでの動画配信用)
なお,MPEG-7は圧縮形式ではなく,マルチメディアコンテンツを有効に検索するための記述方法の標準です。
 Windowsの標準形式にはAVIがあります。APIが提供されており、多数のソフトウェアが公開されています。
 その他,各社からRealVideo,QuickTime,WindowsMedia,Shockwaveなど,動画をWebブラウザで再生するソフトが開発されています。

その他のファイル

PDF(Portable Document Format)
文字や画像を組み合わせた印刷用文書-WORDやPowrPointなどで作成した文書-を,そのままの体裁で保存でき,拡大縮小してもあまり乱れず,不正な更新ができないようにしたツールです。重要文書の保存や文書の配布などに用いられます。
PostScript
文字や画像を含むページをビットマップに変換するプリンター制御言語です。印刷・出版業界で広く用いられています。
CSVファイル
Excelなどの表計算ソフトのファイルを,データ間をコンマで区切り,レコード間は改行で区切ってテキスト形式にしたものです。容量が少なくてすむこと,多くの表計算ソフトに使える特徴があります。