最近ハイレゾ対応のオーディオインターフェイスを買っているので (基本的にSDR用だけど)、一応オーディオのハイレゾについて調べてみた。
人間の限界
聴覚のダイナミックレンジ(最小で聞きとれる音の大きさと、苦痛に感じるレベルの音の大きさの比)は120dB程度らしい。
聴覚で聞きとれる周波数の範囲は最大20kHz程度で歳をとると高い周波数から聞こえなくなっていく。
ハイレゾ音源
一般的な 16bit サンプリングだと 96dB ( 20*Math.log10(2**16) )、ハイレゾの24bitになると144dBになる。クラシックとかジャズでもなければ大抵むしろダイナミックレンジは圧縮されているので、実質はこれほどいらないだろう。
サンプリング周波数は最大周波数の2倍必要なので、一般的には 44.1kHz とか 48kHz が多い。ハイレゾだと 96kHz とか 192kHz とかになったりするが、出てくる周波数的には聞こえない領域を記録していることになる。細かく記録したほうが高い周波数での位相は保たれそうだけど、人間の耳は絶対的な位相位置を聞きとれない。
実際のところ、リスナーレベルでは適切な環境でそのまま再生するとハイレゾ音源は意味がない。(意味があると言いはる人もいるだろうけど)
ではどういう場合に意味があるか?
基本は編集作業時の音質劣化防止になると思った。例えば、写真ではカメラ上では12bit〜14bit程度のダイナミックレンジで記録をするが、これは現像時の加工性を上げるためで、最終的には 8bit に圧縮している。映画でも、記録時はできるだけダイナミックレンジを広くとれる領域で撮影し、編集時に色を圧縮したりすることある。
同じように、音声データも、後から編集を行う場合、できるだけ情報量が多いほうが編集の範囲が広がることはあるだろうと思う。
再生環境では
再生環境レベルで考えると、リスナーの再生環境において大きなエフェクトをかけたり、音量をデジタルで加減する場合、加工前のデータや加工後のデータが十分なデータを持てないと、綺麗にエフェクトがかからない可能性がある。例えばデジタルで音量を下げると、その分ダイナミックレンジは圧縮されてしまう (出力時に再サンプリングして高いビットレートで出力するのは意味がある)。
誰がうれしいか
- マッシュアップ好きな人
- SDR (ソフトウェア無線) ユーザ (安くて性能がいいデバイスがたくさんでてくる)
備考
よくハイレゾの説明で時間ドメインでの波形の汚なさを例にしたりするけど、人間は周波数ドメインで認識してる (周波数ごとにセンサーが分かれているという意味で) ので、あまり意味がなさそう。デジタルアンプとか、めっちゃ波形汚ないけど音は普通に聞こえたりする。