【第25号】ハイレゾ・ロスレス音源てなんだ?

アップルミュージックがついに対応したハイレゾ・ロスレス音源について情報科学の視点から解説
金谷一朗(いち) 2021.05.28
誰でも

いちです,おはようございます.

今週の皆既月食,日本の多くの地域で曇り空になってしまい,残念でした.皆既月食に合わせて,月にまつわる伝説や日本の神社もご紹介させていただいたので,よろしければバックナンバーをチェックしてみてくださいね.

さて,今週2本目の配信になります.レギュラー配信となるこの号では,先週アップルが自社の音楽配信サービス「アップルミュージック」で開始した音楽の「ハイレゾ・ロスレス配信」についてお話ししたいと思います.

ハイレゾ・ロスレス配信にはふたつの要素,すなわち「ハイレゾ」と「ロスレス」が入っています.どちらも「情報科学」と密接に関係する言葉なので,できるだけわかりやすく説明してみますね.

ハイレゾ

ハイレゾは英語の「ハイレゾリューション (high resolution)」つまり「高解像度」の略です.といっても,どの程度の解像度からが「高い(ハイ)」なのかとか,そもそも解像度とは何ぞやと言うことは,特に決まりがありません.一応,なんとなく業界で共有されている「雰囲気」みたいなものがあったり,業種によっては「ローカルルール」みたいなものはあります.

それを説明するために,まず「解像度」についてお話ししましょう.解像度という言葉は,おそらくは音楽よりも先に写真に対して使われたように思います.

フィルムカメラの時代から,レンズの「解像度」は話題になっていました.この時代は解像度よりも「解像力」という呼ばれ方をしていましたので,現在でも解像度と解像力を区別する流儀があるのですが,ここでは解像度で統一します.

レンズのテストパターンの例 (ISO 12233)
レンズのテストパターンの例 (ISO 12233)

カメラレンズの場合,幅1ミリメートルの間に均等に引かれた線を何本区別できるかどうかで解像度が測られました.解像度の高いレンズであれば一本一本の線がくっきり見えるのに対し,解像度の低いレンズであれば全体的にぼやけてしまって,一本一本の線が見分けられないことになります.例えば1ミリメートルの間に30本の線が引かれたテストパターンを撮影して,一本一本の線が区別できれば解像度は「30本/mm」というふうになります.

特に飛行機や人工衛星から敵国のスパイ写真を撮影する時にはレンズの解像度が極めて重要な要素でしたから,光学メーカーはレンズの解像度を上げるために血眼になったものです.

やがてアナログビデオの時代になると,レンズよりも受像素子(カメラ)や伝送経路(TV局の放送設備)の方が解像度を下げる原因になりました.この時代,ビデオは写真に比べるとあまりにも解像度が低かったせいか,縞模様を撮影したときに黒線も1本,白線も1本と「全て」の線を数えるようになります.直感には反する数え方ですが,数学的にはこちらの方が合理的です.のちのデジタルの時代になると,線を何本「区別できるか」ではなく,線が何本「そこにあるか」の方が重要になってくるからです.

アナログビデオの時代に使われたブラウン管TVは,電子線(別名を陰極線,ベータ線)を真空のガラス管の中で電極から撃ち出して,ガラス面の内側にぶつけることで発光させています.このとき,電子線を少しずつ曲げて画面全体を「舐める」ように発光させることで映像を見せています.この電子線の曲げ方は割とデジタルで,1秒の間に横方向に何回曲げる,縦方向に何回曲げるという回数が決まっています.これらの回数をもって,ブラウン管の場合は「解像度」と呼んでいました.地上波アナログTVの場合,横方向がだいたい640回,縦方向がだいたい480回でした.「だいたい」というのは,ブラウン管TVの時代は画面の端っこを捨てていたからですね.

そしてデジタル写真とデジタルビデオの時代,画面の解像度は画像の構成要素である「画素」の数で測られることになります.画素は英語で「ピクセル」と言いますが,これはピクチャー・セル(細胞)またはピクチャー・エレメント(要素)の略です.例えば日本で普及している「フルハイビジョン」の液晶TVの場合,横方向が1,920ピクセル,縦方向が1,080ピクセルあります.フルハイビジョンは横方向がおよそ2,000ピクセルとなるので「2K」とも言います.「K」は1,000を表す「キロ」のことですね.

僕が最初に触ったパソコンの解像度は横160ピクセル,縦100ピクセルでした.今の言葉で言えば「0.2K」でしょうか.それでも誇張表現ですが.ちなみにこんな画面です.

PC-8001の画面例(<a href="https://www.gamepres.org/2019/11/12/pcmini_pc80_program/">ゲーム保存協会</a>)
PC-8001の画面例(ゲーム保存協会

世界最初の民生用デジタルカメラと言われているアップルの QuickTake 100 の画面解像度は横640ピクセル,縦480ピクセルでした.縦横を掛け算すると約30万ピクセルになるので「0.3メガピクセル」とも呼ばれました.「メガ」は100万の意味です.現在では1億ピクセル(100メガピクセル)を超えるデジタルカメラが販売されています.

画像の世界では,フィルム写真からアナログビデオ,デジタル写真とデジタルビデオの時代に至る間,よく使われる解像度が一時的に落ちたことになります.フィルム写真の解像度は,一概には言えないのですがデジタル写真で言えばだいたい1,000万ピクセル(10メガピクセル)から2,000万ピクセル(20メガピクセル)程度と言われています.[参考文献]これが,プロカメラマンがなかなかフィルムを捨てられなかった理由なんでしょうね.

なおコンピュータ業界では,なんとなくですが,640x480ピクセル(0.3メガピクセル)を超えたあたりから「ハイレゾ」と呼ぶようになり,1メガピクセルあたりからは「ハイレゾ」が当たり前すぎて言わなくなったように思います.

さて,以上が画像の方のお話し.

音楽の方はまた話が異なります.

音のハイレゾ

民生用オーディオ機器のデジタル化は1982年のコンパクトディスク(CD)からでしょう.このとき「サンプリング周波数44.1キロヘルツ,(空間)量子化ビット数16ビット」という規格が決められました.ここが出発点なのですが,一体これは何なのでしょう.

まず「サンプリング周波数」について.

およそ音というものは,空気の振動です.いえ,糸電話のように空気以外でも音を伝えるものはいくらでもありますが,人間は空気中で生きているので,空気の振動だけを音と考えます.

振動ということは,1秒間に何回震えているかという単位があるということになります.この単位をヘルツ(Hz)と呼びます.人間の耳は大雑把に言って20ヘルツから20,000ヘルツまでを聞き取れるようです.とは言っても,男性の話し声が500ヘルツ前後,女性の話し声が1,000ヘルツ前後,ソプラノ歌手の歌声で2,000ヘルツ前後ですから,20,000ヘルツまで聞ける人は相当に耳の良い人ということになりましょう.

この最大20,000ヘルツの振動をデジタル情報に記録するために必要なのが,空気の振動を時間的に分解して時系列に記録することなんです.空気の振動は,耳の鼓膜のようにピンと張った薄い膜がどれぐらい音の振動によって押し込まれるかで測ります.

例えば0.01秒ごとに,薄膜の押し込み量を記録するとします.開始時刻(0.00秒)では薄膜が0.001ミリメートル押し込まれたとしましょう.次の時刻(0.01秒)では薄膜の押し込みが0.1ミリメートルでした.さらに次の時刻(0.02秒)では0.05ミリメートル…というふうに記録を取っていきます.0.01秒に1回記録するとすると,1秒間に100回記録を取ることになりますから,これは100ヘルツで記録したことになります.このことを「サンプリング周波数100ヘルツ」と呼びます.

このように,本来は連続した時間をチクタクチクタクと刻んで記録することを「時間量子化」と呼びます.「量子化」とは整数への丸め込みのことで,例えば時計の秒針は1分間を60に分割して1秒,2秒,3秒と量子化していることになります.

では一体,1秒間に何回記録すれば人間の耳に聞こえる音,つまり20,000ヘルツの音までを全て記録できるでしょうか?直感的には1秒間に20,000回記録すれば20,000ヘルツの音を記録できそうです.しかし,音が正確に20,000ヘルツだった場合,1秒間に20,000回の割合で記録していると,運が悪いと毎回「音の谷間」にはまってしまいます(*).そこで,最大20,000ヘルツの音を記録するためには最低でも倍の毎秒40,000回の記録が必要ということになります.つまり記録には40キロヘルツのタイミングが必要ということですね.

(*正確に言うと「エイリアシング」という現象が発生します.)

CDでは若干の余裕をもたせて,サンプリング周波数を44.1キロヘルツに設定しています.

ところで日本では「電子情報技術産業協会(JEITA)」が「CDを上回るクオリティのデジタルオーディオ」を「ハイレゾオーディオ」と規定しています.

「エヴァ」でシンジくんが聞いていた「S-DAT」は日本企業が開発を試みたデジタルオーディオプレーヤーですが,もし販売されていたならば,サンプリング周波数が48キロヘルツになるところでした.CDを上回るサンプリング周波数だったので,シンジくんは「ハイレゾ」を聞いていたことになりますね.

音のデジタル記録にはもうひとつ,量子化しないといけないものがあります.先程の薄膜の押し込み量を覚えていらっしゃいますか?薄膜が何ミリメートル押し込まれたのか,これをデジタルに記録しないといけないのです.長さは本来は連続的な量ですが,これをデジタル記録のために整数に丸め込まないといけないのです.CDでは0から65,535までの数字を使います.これは0から2の16乗(2¹⁶)までということで, 格好をつけて「16ビット」と呼びます.シンジくんの「S-DAT」も規格上は16ビットで記録をしていますが,現在の高性能ICレコーダの中には24ビットで記録できるものもあります.この振幅量の整数への丸め込みを「空間量子化」と呼びます.カタログには「量子化ビット数24ビット」と書かれることが多いのですが,正確には「空間量子化ビット数」と書かないといけないわけですね.

本誌【第23号】を思い出された方は「いやプランク長よりも短い長さは測れないはずだ!」と言われるかもしれません.正解です.しかし,音の記録に使われるマイクロフォンの中の薄膜の振動はプランク長よりも十分長いので,問題にならないのです.

以上見てきたように,音の記録の場合には時間軸をどれだけ細かく刻むかという「サンプリング周波数」と,振動をどれだけ細かく計測するか,いわば空間軸をどれだけ細かく刻むかという「空間量子化ビット数」のふたつがありました.JEITAの定義では,このいずれかがCDのクオリティよりも高い場合,つまりサンプリング周波数が44.1キロヘルツを超えると,あるいは空間量子化ビット数が16ビットを超えると「ハイレゾ」を名乗ることが出来ます.

アップルミュージックのハイレゾ楽曲はサンプリング周波数を48キロヘルツから最大192キロヘルツ,空間量子化ビット数を24ビットに設定しています.確かにハイレゾリューションと言えますね.

ロスレス

もうひとつの話題「ロスレス」についてお話します.

ロスレスは正しくは「ロスレス圧縮」,もう少し丁寧に言うと「ロスレス情報圧縮」の意味です.「情報圧縮」について,僕の学生時代の先生が面白い例えを紹介してくれました.

20世紀のアルバイト情報誌を思い出してください.「まだ生まれてないよ」という方は,まあ,そんな時代もあったんだと思って聞いて下さいませ.特に1990年代前半はまだ景気が良かったせいで,アルバイト情報誌は分厚く,求人広告がびっしりと書き込まれていました.掲載料は面積に比例するので,小さな会社は出来るだけ少ない文字数で募集をしていました.例えば

応募者は写真付き履歴書を郵便で送って下さい.書類選考後,追って面接日程を連絡します.業務内容,労働条件などは面談でお伝えします.

の代わりに

歴写郵送委細面談

を掲載することはよく行われていました.最初の文面が64文字,短縮した文面が8文字ですから,文字数は1/8になったのです.それでいて,情報はだいたい伝わります.アルバイト情報誌を読む人なら「書類選考があるはずだな」などと途中の意味を補完しながら読むでしょうから100パーセント伝わっているとも言えます.

他に「金髪可,ピアス可」みたいなことを言うために「ロック可」と書く場合もあったようです.関西では見たことが無かったかなあ.ロックはもちろん,ロックミュージシャンのことでしょう.今なら許されない表現のような気もしますが,ともかく文字数を削りたいという気持ちは伝わってきます.

このように,伝えたい情報をほとんど削らずに,文字数だけ削ることを「情報圧縮」と言います.伝えたい情報を全く削らない場合を「ロスレス圧縮」,伝えたい情報を少しは削る場合を「ロッシー圧縮」と呼んで,情報科学では厳密に区別します.ロスレス圧縮の場合は,元の情報が100パーセント復元できるため「何も失われていない」のに対して,ロッシー圧縮の場合は元の情報を復元することが出来ないからです.

こう聞くと「ロスレス圧縮」なんて出来るの,と思われるかもしれません.意味を変えずに文字数だけ削るのは,厳密には出来ません.「こころ」を「心」に置き換えた編集者に怒った作家が日本には何人もいらっしゃることでしょう.しかし「情報科学」はそれを可能にするのです.

ロスレス圧縮の技術として有名な方法は大雑把に言うとふたつあります.両方とも見てみましょう.

ひとつめは「連長圧縮」という方法で,とてもわかり易い方法です.例えば

うまーーーーーーい

という台詞があったとします.長音符が6回繰り返されているので,代わりに

うまー⑥い

としちゃいます.9文字が5文字になりました.これは長音符がたくさん並ぶほど有効な圧縮方法です.圧縮された文面を受け取ったほうは「⑥」をもとに戻して

うまーーーーーーい

に戻せますから,これはロスレス圧縮だったのです.この連長圧縮は画像の圧縮によく用いられています.画像は黒や白といったピクセルが続くことが多いですからね.

いまひとつの圧縮方法は「エントロピー符号化」というものです.こちらを簡単に言うと「よく使われる単語は短い略語で置き換える」というものです(*).例えば「文藝春秋」の代わりに「文春」と書けば,この部分だけは1/2になります.コンピュータ上では日本語の1文字はアルファベット2文字分の情報を必要とします.ですので「文春」をさらに「SS」と書けば,この部分は1/4に圧縮できたことになります.「SS」は「センテンススプリング」から採用しました.これで,例えば「文藝春秋によると…」という文章は「SSによると…」と圧縮出来ます.文章を受け取った方は「SS」を「文藝春秋」に戻せば良いので,これはロスレス圧縮でした.

(*正確に言うとここで紹介した手法は「辞書式圧縮」というものですが,説明のためエントロピー符号化に含めました.「よく使われる単語」を「よく出現する文字」に,「略語」を「短いビット列」に置き換えるとかなり正確な表現になります.)

実応用では「連長圧縮」も「エントロピー符号化」も機械的に行います.情報の中から繰り返しを探したり,よく使われるパターンを見つけたりするのはコンピュータの得意分野ですからね.

デジタル化された音楽を配信する際,そのままでは音楽を収めたファイルのサイズが大きすぎることがあります.このファイルサイズを小さくするための工夫が情報圧縮だったわけです.新しいアップルミュージックは,この情報圧縮にロスレス圧縮,すなわち情報を何も失わない圧縮を行うということですね.具体的には「エントロピー符号化」を行っているようです.ロスレス圧縮の場合,原理的に元の情報を再現できますから,録音時のクオリティが再生時にも保たれるということになります.

ではロスレス非対応の音源ではどうなっているのかというと,音楽のファイルサイズをうんと小さくするために,ロッシー圧縮が使われています.と言っても,圧縮技術のほうは「エントロピー符号化」で変わりません.元の録音データのほうを,圧縮効果が高まるように少々加工するのです.

この加工は実に巧妙で,人間の感覚では気づきにくいように設計されています.人間は小さな音や,周波数の高い音,例えば20,000ヘルツに近い音などは聴き取れないことが多いです.そこで,これらの聴き取りにくい音を元データから捨ててしまうのです.「エントロピー符号化」は元データから情報量が減るとより圧縮効率が高まります.

しかし,録音データにこの加工を施すと,もはや元の録音データには戻せません.それ故に「ロッシー」(ロスがある)と呼ばれるのですね.

ハイレゾの情報量・ロスレスの圧縮量

CDで使われた技術は,サンプリング周波数が44,100ヘルツ,空間量子化のビット数が16ビットでした.これを1秒あたりに換算すると

44,100×16 = 705,600 ビット/秒

ということになります.「ビット/秒」は英語の bits per second を略して(圧縮して!)bpsと言いますから,CDはチャンネルあたり 705,600bps で情報を記録していたということになります.CDでは左右併せて2チャンネル分を記録していますから,1秒あたり 1,411,200 ビットを記録していることになりますね.

アップルのハイレゾ音源の「一番いいやつ」は192,000ヘルツ,24ビットですから,左右2チャンネルぶんとして

192,000×24×2 = 9,216,000 ビット/秒

ということになります.CDに比べると6.5倍の情報量ということになりますね.アップルは独自のロスレス圧縮技術 Apple Lossless Audio Codec によっておよそ半分程度に情報圧縮をするそうです.半分と言っても4.6メガビット毎秒(Mbps)ということになります.

なおアップルミュージックでは,ロスレスに対応していない音源の場合は256キロビット毎秒(Kbps)になるように前加工が行われています.

ハイレゾ・ロスレスがどういう規模感か,イメージが湧きましたでしょうか.

しかし,いい時代になりましたね.20世紀では最速の電話モデムでさえ,56キロビット毎秒(Kbps)しか出ませんでした.好条件が揃って56Kbpsが完璧に出たとしても,例えば640x480ピクセルの非圧縮白黒画像を1枚送るのに

640×480 / 56,000 = 5.5

となるので,5.5秒かかることがわかります.実際には通信速度はもっと遅くなりましたし,画像もカラーでやり取りしたわけですから,画像1枚を受け取るのに数分かかっていました.いや懐かしい.

今でもエジプトから日本にデータを送ると100Kbps程度しか出ないことがあります.というわけで,エジプトからピラミッドの測量データを持ち帰る一番速い方法は,ハードディスクごと飛行機で運ぶことになります.飛行機が落ちるとデータが失われてしまうので,必ずコピーのひとつは地上にあるように気をつけています.

僕たちのピラミッドの測量データはちゃんとロスレス圧縮で保存しています.いま公開へ向けて準備中ですので,こちらもお楽しみにお待ち下さい.ちなみに,かなりのハイレゾリューションです.

おすすめ書籍

情報は,なぜディジタル化できるのだろうか?現代の巨大な情報社会を支える情報科学の基礎はシャノンによって作られた.形のない情報をどのように表現し,情報の価値をどのように表すのか?シャノンの築いた情報理論を分かりやすく解説する.
Amazon

今週ご紹介するのは,情報圧縮をもっと深く勉強したい方向けの入門書です.本書のタイトルにもなっている「シャノン」はアメリカの数学者クロード・シャノンのことです.

シャノンは当時経験的に知られていた電気回路と,コンピュータの基礎である「論理代数」という数学を結びつけました.それどころか「情報」という概念を発明し,それを圧縮するとはどういうことかも示しました.また20,000ヘルツの音を正確に再現するには,40,000ヘルツで記録することが必要なことも証明しました.まさに天才ですね.最初の例,電気回路と論理代数を結びつけた例に近い話を最近ツイッターで見かけましたのでご紹介したいと思います.

電波やくざ
@denpa893
東京電力の送電線鉄塔にau基地局ついてたけど
その柵の鍵が頭よかった
これなら東京電力とauの間で鍵の貸し借りしなくても両社独自の鍵で開けられるし
すばらしいな
2021/05/22 20:28
13354Retweet 46141Likes

閂の両端に南京錠をぶら下げておき,片方の鍵を持っていれば閂を外せるようにしたわけですね.これは論理代数でいう「論理和」という一種の足し算に相当します.逆に,二人っしょに鍵を回さないと開かない扉は「論理積」という一種の掛け算に相当します.

映画チャーリーズ・エンジェル(2000)より「論理積」の例.ボタンをふたつ同時に押さないとロックが解除されない.
映画チャーリーズ・エンジェル(2000)より「論理積」の例.ボタンをふたつ同時に押さないとロックが解除されない.

【追記】もっと高度な例がこちらに紹介されていました.(2021年5月28日)

おすすめTEDトーク

TED
TED
サンプリングは「ノスタルジックな音源をハイジャックしてしまう(昔の音源を全てコピーしてしまう)」こととは違うとマーク・ロンソンは言います. それは,自分を曲のナラティブ(物語)の中に存在させ,さらにその物語を続けていくことなのです.このDJは15のTEDトークから音と映像をスクランブルしたオムレツ料理を作り上げ,1984年からあらゆる世代によって再現されてきたダグ・E・フレッシュ&スリック・リックのヒット曲『ラ・ディ・ダ・ディ』の進化を紹介します.
TED

音をデジタル化し,楽器として使うことを可能にするのが「デジタルサンプリング技術」です.デジタルサンプリング技術は音の振動を時間軸に沿って飛び飛びに記録する時間量子化と,音の振動の大きさを整数に丸め込んで記録する空間量子化の両方の技術の組み合わせです.

デジタルサンプリング技術を駆使した,少し変わったTEDトークを是非お楽しみ下さい.

Q&A

匿名質問サイト「マシュマロ」および実名質問サイト「Quora」で質問を受け付けています.普段はツイッターでお返事を書いていますが「ニュースレター読んでます」と入れていただければ,こちらのニュースレターでより長めの回答を書かせていただきます.

今週のピックアップはこちらにしました.

上司がバカだったらどうしますか?
Quora

上司がバカでなければ自分が採用されていなかったと思うことにします.

これは確かアメリカの格言だったと思うのですが,出どころを忘れてしまいました.もし上司がバカでムカつく,ということがあれば思い出してみてください.

こちらの匿名質問サイトで質問を受け付けています.質問をお待ちしております.

振り返り

このニュースレターでは「振り返り」動画を公開しています.今週は「シュレーディンガー博士」について語ろうと思ったところ,偶然猫がやってきたので「シュレーディンガー博士と猫」というタイトルにしました.

動画の音声だけを切り出してポッドキャストにもしています.

是非お楽しみください.

あとがき

今週は皆既月食がありました.皆様も楽しみにされたと思いますが,残念ながら日本各地は曇りまたは雨となってしまいました.僕の住む長崎も雨でした.

いち🏳️‍🌈STEAMニュースレター書いてます
@kanaya
長崎は雨だった☔️
2021/05/26 19:04
0Retweet 1Likes

次回の月食は今年の11月19日で,皆既月食ではないものの98パーセントの部分月食ですので,ほぼ皆既月食と言って差し支えないでしょう.また来年の11月8日には本当の皆既月食が控えています.

次こそ晴れるといいですね.僕は壱岐の島の月讀神社へお参りして,月食が見られるように相談してこようと思います.

今週も最後までお読みいただきありがとうございます.よろしければボタンを押して行ってくださいませ.(ボタンは匿名化されています.集計したデータはこのニュースレターの内容改善以外には用いません.)

ここに配置されたボタンは、ニュースレター上でのみ押すことができます。


では,また来週,お目にかかりましょう.

***

ニュースレター「STEAM NEWS by Ichi」

発行者:いち(金谷一朗)

TEDxSaikaiファウンダー・パイナップルコンピュータ代表・長崎大学情報データ科学部教授

バックナンバーはこちらから👉 https://steam.theletter.jp

匿名質問はこちらから👉 https://marshmallow-qa.com/kanaya

「STEAM NEWS」をメールで読みませんか?

無料で「STEAM NEWS」をメールでお届けします。
コンテンツを見逃さず、購読者限定記事も受け取れます。
夢と現実:スティーブ・ジョブズの失敗作たち【第131号】
読者限定
★ 爆発のノート【第130号別冊】
サポートメンバー
おむすび1個は手榴弾4個分?TNT換算という考え方【第130号】
誰でも
★ 世界一短い論文のノート【第129号別冊】
サポートメンバー
世界一短い論文【第129号】
誰でも
★ アイザック・ニュートンのノート【第128号別冊】
サポートメンバー
人類史上最高の科学者アイザック・ニュートン【第128号】
誰でも
★ アンド(and)とオア(or)のノート【第127号別冊】
サポートメンバー