デジタルフィルタはサンプリング定理をいかほどに具現しているか

16/05/04初稿

 PCMオーディオはサンプリング定理に基づいて音楽データを製作・再生しています。
 定理上は“ある種の可逆圧縮”とも言える仕組みで、「PCMデータを製作(離散化して圧縮)」→「リコンストラクションフィルタで復元して再生」するワケですが、フィルタによる“リアルサンプル”への復元精度はどれほどなのでしょうか。

 よく「ハイレゾのメリットは20kHz以上の成分があることではなく20kHz以下の波形再現性を上げるもの」という説明がありますが、そもそも定理上は「ナイキストの2倍より高い周期でサンプリングすれば“完全に再現可能”=リコンストラクションで復元可能」なのですから、20kHz以下にリアルサンプルを増やす意味はないハズです。
 ですから、説明は“現実的には定理との乖離は大きく、「リコンストラクションでの復元サンプル」と「リアルサンプル」との誤差は音質上無視できないほど大きい=だからハイサンプリングに意味がある”と言ってることになります。

 本当かどうか確かめてみたくなりました。


 Over Sampling Digital FilterはOSDFと略します。


■準備

 ところで、“原音”はそもそもAD段階でLPFかかっていますし、CDなどでは製作最終段階でダウンサンプリング(ビット深度縮小)されているのが一般的でしょう。
 ですので、「製作段階でCDフォーマットにダウンしたデータから、ダウン前のデータを再生側処理でどこまで復元できるか」を見ることになります。

 製作時にどのような作業されているのかは一定ではないでしょうし特定もできませんので、「2496で作成され1644(CD)にダウンサンプリングされている」と仮定します。

 再生装置では、そのデータを24bitや32bitの精度でリコンストラクション(一般的にはDACチップ内蔵の8倍OSDF(*))するワケです。

*:正確にはOSDFはプリフィルタで、アナログのポストフィルタも含めて“リコンストラクションフィルタ”です。

 DACチップがOSDFしたデジタルデータを得る術はありませんし、DACチップに入れる前にPCでやることもできますから、今回はPCによる2倍アップサンプリングでシミュレーションとし、2496に戻したデータがダウン前の2496データにどこまで近づけるかを調べてみます。

 CDは44.1kHzですが、製作時は48kHz系でしょうから、今回は非整数倍サンプルレート変換の影響を排するためダウンした状態も48kHzで代用します。つまり、意識すべきナイキスト周波数は24kHzとなります。
 対象波形は「440Hz/-6dBのサイン波」としました。この単独波形の2496データが復元すべきデータとなりますが、LPF処理の影響を見るため、次の24kHz以上の成分を付加します。いつもの通り≪WaveGene 1.50≫にて生成。
 付加したのは「30kHz/-12dB,35kHz/-24dB,40kHz/-48dBのサイン波」です。これらは48kHz化した時にカットされるべき成分ということです。

 4つの周波数成分を含むデータはこんな波形になりました。
 “再現すべきターゲット波形”である440Hzをグレーにして重ねてあります。

440Hz 24964成分

 最大レベルは-1.76dBでしたのでフィルタ処理でサチることはないでしょう。

 スペクトルは次の通りです。

440Hz 2496 4成分:周波数

 この「24kHz以下1成分+24kHz以上3成分」のデータから、CD化を通して「24kHz以下1成分」だけをどれだけ忠実に復元できるか、を見ることになります。

 製作側ダウンサンプリングと再生側リコンストラクション=アップサンプリングは、≪foobar2000 1.3.8≫のResampler-V(SoX) 2.1をデフォルト設定で使います。

  ・PassBand:91.3%
  ・StopBand:100.0%
  ・Attenuation:-198dB
  ・Phase Response:Linear

 ファイルはConvert機能で得ています。


■16bitソースの再現性

 さて、CDメディア(からリッピングしたデータ)は、メディア製作段階で周波数のダウンと同時に16bitにビット深度縮小されたものです。
 一方、再生側でのリコンストラクション処理精度は、PCでアップサンプリングする場合は

 「32bitFloatで処理」→「24bitまたは32bitFixedでDACチップへI/F」→「24bitまたは32bitFixed(以上)でDAC内部処理」

が一般的でしょう。
 ですので、シミュレーションとしては、2496→1648されたデータを“ビット深度拡張して処理”した場合を見るのが現実的と言えます。
 そこで、仮にリコンストラクションの精度は24bitとしてシミュレーションしてみます。

 ビット深度変更はConvert機能のビット深度設定で行いました。24→16bit時には“17bitめ”は四捨五入されるようです。
 なお、実際の24bit→16bit化ではディザ(ビットマッピング)処理などされていると思いますが、本稿の主旨とは無関係だと思いますので無視します。

・製作時ダウンサンプリング&ビット深度縮小:2496→1648
 まずはソース製作側のシミュレーションです。
 この時点での周波数成分は以下の通りです。1648ネイティブで生成した440Hz/-6dBでもニアリーになりますので、24kHz以上の成分をカットしたことによる明らかな影響(440Hz以外の周波数が出現するなど)は見られません。
 プロ用ツールがこれより劣ることはないでしょう。

440Hz 2496→1648

 波形は、スペクトルを見ても判る通り普通に440Hz/-6dBのサイン波になりましたので省略。
 再生側ではこの“24kHz以上をカットしたデータ”をリコンストラクションすることになります。

・再生時リコンストラクション:1648→2496
 まず周波数成分を見てみます。波形は普通に440Hz/-6dBのサイン波になりましたので省略。

440Hz 1648→2496

 元ナイキスト(24kHz)以下の状況はほぼ変わっていないと思います(周波数レンジはソースの2倍)。
 元ナイキスト以上のイメージングノイズ領域はキレイに消えてると言っていいでしょう。

 ということでいよいよ本題です。この「ダウンサンプリング&ビット深度縮小→リコンストラクションによって復元」された2496データの精度はどれくらいでしょうか。≪WaveGene 1.50≫で24kHz以上の3成分をOFFして生成した“ネイティブ440Hz/-6dB”ファイル(2496)と比較してみます。
 ふたつを反転ミックスして「復元誤差(製作時のダウン処理誤差も含む)」のファイルを作って見てみます。使い慣れた≪SoundEngine Free 5.02≫で処理。

 その波形は以下の通り。≪Wavosaur x64 1.1.0.0≫で最大拡大です。

440Hz 2496→1648→2496

 誤差成分の最大値は-93.04dBでした(冒頭末尾はLinearフィルタ参照サンプルが無くなることによる異常値になるのでカットしての値)。
 16bitの量子化精度は0は-∞、±1は-90dBですから、それ以上の精度で復元できていることになります。

 ちなみにこのファイルは聞こえませんでした。SB-DM-PHD経由HD700を≪foobar2000 1.3.8≫の排他WASAPI音量最大で鳴らして。

 なお、再2496化のAttenuationを最低の-96dBに設定すると-93.13dBになりました。逆に良くなってる?


■すべて24bitの場合の再現性

 製作過程でビット深度縮小しないなら、した場合より精度が上がるのは必然です。
 つまりハイビットハイレゾの効果はいかほどか見てみます。

 2496→2448→2496の反転ミックス結果をバイナリエディタで見ると±1(000001hとFFFFFEh)しか発生していませんでした。
 つまり、すべて24bitなら24bitの演算誤差レベルの精度でサンプルを復元していると言うことになります。

 なお、Attenuation性能を最低の-96dBしても誤差は±1です。16bitとは結果異なるようです。

 ちなみに、2496→1648→1696処理すると16bit演算誤差精度になります。


■ナイキスト近くではどうか

・19kHz
 440Hzでは甘いのかも知れません。もっとナイキストに近い19kHz/-6dBではどうでしょう? 上記の440Hzを19kHzに差し替えて同じことをやってみました。
 途中16bitに落とした場合の反転ミックス波形を示します。

2496→1648→2496 19kHz

 誤差は-96dB以下のレベルに収まっています。このファイルは聞こえませんでした。

 ずっと24bit処理だと±1の誤差しか発生しませんでした。もちろん聞こえません。
 つまり、24bitならナイキストに近くても復元誤差は変わらないということですね。

 Attenuationを-96dB設定すると、16bitを挟むと-96.47dBが-96.61dB。ずっと24bitなら-138.47dBが-116.89dBに。ナイキスト近くになると24bitでも精度悪化するようです。16bitを復元する場合はAttenuationは欲張らない方がいいのかも知れませんね。
 CDリッピングファイルの場合は性能を下げ、24bit以上の場合は欲張った方がいいというちょっとメンドクサイ結果に。まあ、良くなるのは何か演算の相性のようなものかも知れませんけれど、「どうせソースが16bit精度なんだから-198dBとかにしても無駄」と言われればそうかも知れません。

・20kHz
 さらに、試しに20kHzでもやってみました。

2496→1648→2496 20kHz

 やはり-96dB以下の誤差しか発生していません。
 が、このファイルはヘッドホンを耳に押し当てるようにすると微かに聞こえてしまいます。ただ、楽曲はマトモに聴けない大音量ですし、そもそも20kHzは倍音領域ですから-6dBなんて成分は普通はないでしょうけれど。
 ずっと24bitなら±1誤差でした。

 「ナイキストに近いとどうなるか」を見ようと思ったのですが、440kHzと19kHzや20kHzで誤差成分の大きさや聞こえ方が異なる理由は、周波数の違いとは言い切れません。「カットすべきナイキスト以上の高域周波数成分」との“相性”の可能性もあるような気がします。例えば20,30,35,40kHzとキレイに揃っている場合、誤差分に可聴域の疑似周波数が出現してしまうのかも知れません。

 いずれにしても、24bitなら誤差は±1でしたから差はありません。つまり、誤差分が可聴域に入ってくる場合があるのは、「サンプリングレートが48kHzだから」ではなく「ビット深度が16bitだから」ということになります。

 結構オモシロイ結果になった気がします。


■デジタルフィルタの性能

 途中を16bitに落とした場合、再生時にビット深度拡張して処理すれば16bit以上の精度でリコンストラクションできるようです。

 24bitのままの場合、再現誤差は24bitの演算精度レベルに収まるようです。

 つまり、「製作時のダウンサンプリング&ビット深度縮小」も「再生時のリコンストラクション」も、量子化誤差精度でできるようです。
 しかもコンスーマレベル(ていうかフリーソフト)でも、です(笑)。実のところ、ここまで復元できるとは思ってませんでした。

 ということで、ハイサンプリングについては、20kHz以下の領域のリコンストラクションによるサンプル再現性はかなり高い(*)ので、「リアルサンプルである効果はあまりないのでは」「少なくとも「ハイレゾフォーマットの効果」として喧伝するレベルではないのでは」と思えます。

*:パッケージ化するときに16bitに落としても16bit以上、ずっと24bitなら24bit精度

 一方、24bit精度はリコンストラクション処理にもそのまま活かされるようですので、ハイビットには意味があると言えそうです(実際に聴いて差があるかは別として)。


 以上は「Resampler-Vでのシミュレーション結果として」です。DACチップ内蔵OSDFの当該精度は判りません。手がかりがあるとしたらデジタルフィルタのAttenuationスペックくらいでしょうか(PCM1795は-98dB、PCM1792Aは-130dB、AK4490は-100dB)。

 ですが、PCでのアップサンプリングも充分現実的ですので、その結果の評価も意味あるでしょう。
 その復元サンプルの精度は「わりとイケてる」と思うことにしました。単純なサイン波での結果ですのであくまでも“ざっくりした感触として”ですけれど。
 具体的には、
「ハイビットは意味ありそう(16bitの誤差は無視しきれないかも)」
「ハイビットであればデジタルフィルタによる20kHz以下の再現性は高いので、ハイサンプリングによるメリットはやっぱり20kHz以上の成分があることしかない(けど、聴きわけられない気がする)」
ってカンジです。

 じわじわ「ハイビットファン」になってる自分がいます(笑)。

 以上、もちろん「個人的には」ということで。


メインメニューへ

テーマ : オーディオ
ジャンル : 趣味・実用

ハイレゾ探訪

16/04/04初稿

 ハイレゾフォーマットの効能についていろいろ調べて考え始めてかれこれ1年半くらいでしょうか。
 結果、

『CDフォーマットは、ほとんど問題ないがマージンもないレベルで、サンプリング定理が破綻している領域や処理デメリットが大きい領域も可聴域に含んでいる(微少信号の波形再現性や急峻なLPF特性など)。30年経ってAD/DA技術は格段に進化しているのでフォーマットが「ほとんど問題ないがマージンもない」と言えるレベルは上がっている。ハイレゾフォーマットはそれを解消し、さらに+αの余裕を持たせるもの』

と考えるようになりました。
 具体的には次のような効果です。

・ハイビット:微小信号の再現性向上
・ハイビット:デジタルフィルタのリコンストラクション精度向上
・ハイサンプリング:倍音増加による波形再現性向上
・ハイサンプリング:デジタルフィルタのデメリット低減
・ハイサンプリング:TruePeak問題発生可能性低減

 「20kHz以上の高音があること」「ダイナミックレンジが広いこと」って表現がないのがミソですね(笑)。

 (圧倒的ではないものの)意味はありそうだと思いますが、「“器”に収められている音楽がいい音(のデータ)なのか」は全く別の話です。
 世の中のハイレゾ音源はフォーマットのメリットを活かせている(活かして製作されている)のでしょうか。本稿ではそれを考えてみたいと思います。
 「CDじゃなくてハイレゾ買う価値あるの?」という最終判断のため、ですね。
 ハイレゾの価格がCD同等以下なら悩む必要ないんですけどね(笑)。

 音楽製作に詳しいワケではありませんので、「マスタリング」と記していても本当はレコーディングやミキシングなどの過程のことを指している場合があるかも知れません。が、おそらく論の本質には関係ないと思いますのでお許しのほど。


■ハイレゾとはなんぞや

 まず、本稿におけるこの意味を決めておきたいと思います(音源についてです。機器は含みません)。

 その音源がハイレゾか否かの定義は、客観的でなければ意味がありません。
 ですので、原則「ハイレゾフォーマットのスペックを活かしたレゾリューション情報を有する音源データ」と規定すべきと考えています(ただし、ナイキストまでフルに無いとダメという意味ではありません)。
 どんなフォーマットをハイレゾと呼ぶかは本稿では論じませんが、一応、オーディオ協会やJEITAが決めてます(*)よね。

*:オーディオ協会:http://av.watch.impress.co.jp/docs/news/20140612_653038.html
  JEITA:http://av.watch.impress.co.jp/docs/news/20140328_641885.html
  JEITAは48kHzでも24bit以上ならハイレゾと認めている

 ただ、それを前提としたとしても、「ソース」と「手段」というふたつの観点に分けて考えないと混乱するのではないでしょうか。
 具体的には以下ような場合です。

・「ソース(ミックスする前)」から製作工程での「手段」すべてがハイレゾの場合
 何の問題もなく「ハイレゾ」ですね。

・ソースは非ハイレゾだが製作工程での「手段」がハイレゾな場合
 これでも最終的には商品はハイレゾフォーマットになっていますが、元々のソース自体には例えば20kHz以上の成分といった「ハイレゾリューション情報」はありません。
 この「手段系ハイレゾ」をどう位置づけるかが問題ではないかと思っています。

 個人的には、「ソースから手段までハイレゾ」なものをハイレゾと呼び、「手段系ハイレゾ」はシンプルにハイレゾとは呼ばず、プロセス名の方をメインにした名称を付けるなどとすべきではないかと思っています。

 少なくとも本稿では上記の定義を前提として、「ハイレゾ音源」と呼べるのはどんなものか考えてみます。


■これからハイレゾ音源を作る場合

・ハイレゾたるには
 試聴記事に「マスタリングの方が支配的ではないか」と記しました。

 しかし、「音質にこだわったマスタリング」は本来フォーマットのレゾリューションとは関係ありません。CDフォーマットだってこだわれます(こだわるのが普通なハズですけど)。
 逆にハイレゾフォーマットだから自動的に良いマスタリングになるワケでもありません。
 ですから、ハイレゾフォーマットを活かしたマスタリングするなら“そのつもり”で行う必要があるでしょう。
 そして、“そのつもり”が可能な(意味がある)音源は

・ネイティブハイレゾとして売るつもりのフォーマットでレコーディング~マスタリングしたもの・するもの
 
・そのつもりがなかった時のものなら、ハイレゾマスタリングに足るフォーマットでスタジオマスター(*)が残っているもの
 ただし、途中でデジタル処理されている場合は最終フォーマットではなくその処理フォーマットに準ずる(一度48kHzで処理したらその後96kHzにしてもダメ)。

*:「スタジオマスター」とは、CDパッキングなどの「マスタリング」処理前の音源を指すことにさせてください。

・良質なアナログ音源が残っているもの
 一応、良質なアナログは96kHzサンプリングくらいのスペックは持ってるようなので(以下に記す事例より)。
 ただし、マスター作成に用いた機器の仕様がハイレゾレベルであることも条件。途中デジタル処理している場合はその性能も含めて。

らに限られると思います。

 ただ、現実的事情は複雑っぽいですね。例えば、ミックスする前の複数の素材トラックすべてがハイレゾではない場合もあるようです。そのような場合、ミックスダウンした結果「24kHzで一旦減衰するけどその後もスペクトルは振れて48kHzでもういちどノイズ以下に減衰する」データになります。
 これは「パーシャルハイレゾ」とでも言えばいいのでしょうか(苦笑)。だとすると、全素材がハイレゾの場合は「フルハイレゾ」?

・マスタリングの種類
 表題について、14/10/03付けで「ハイレゾとは何か」記事が出ています。
http://www.phileweb.com/review/article/201410/03/1368.html

 内容はほぼ納得できるものですが、要は「制作者に対する信頼」が前提になるワケですから、それを担保するため、記事中にある通り「その音源の出自を明確化すること」こそキモだと思います。

・アナログマスターならサイコー?
 「ネイティブアナログマスター」の場合、ハイレゾという入れ物は「高域が入っているなどの意味での高音質というより“アナログの趣”を再現するために有益」と考えた方がいいかも知れません。
 マスターテープの“ヒスノイズの妙”とか、何かは記録されているけれど機材の仕様を超え“音質”は保証されない周波数帯に“在るような無いような”倍音成分とか。

 アナログだからって無限の周波数が記録されているワケではありません。マイクやテープレコーダなどには、周波数やダイナミックレンジといった仕様があり、それは「その範囲内の品質を保証します」という意味ですから。
 ですので、例えば20kHzまでが仕様のマイクで録った音源には“品質保証された音としては”20kHz以上は残っていないハズです。しかし、デジタルとは違い、20kHz以上になにもないワケではない点がポイントでしょう。たとえゲインがだだ下がっても波形が崩れても何かはあるでしょう。アナログですから…

 つまり、作成途中の機器どれかの仕様が20kHzまでなら、その環境で作られたアナログスタジオマスターに残存している20kHzを超えた周波数帯域の音がどれだけ有意な音かどうかは、その機器の仕様を超えた性能の“実力値”に依存するということでは。
 途中にデジタル機器が入ってるとデジタルは無慈悲ですからLPFで仕様以上はガッツリカットされちゃいますけど。
 まあ、現実的な音楽作成プロセスではフルアナログだとしてもどこかでLPFがかかってるような気がしますけれど。

 アナログテープの場合、経年劣化は大丈夫かという課題もあるでしょうね。

・DSDならサイコー?
 イマイチ確定的に判断できないのですが、普通はDSDネイティブのまま編集・加工することはできないようで、DSDで録音しても編集段階ではPCM変換されているようです。
 アナログ変換して編集したりDSD一発録り最終マスターといったこともあるようですが例外的でしょうから、DSD商品の大半はPCMからの変換ということになります。

 だとするとDSD商品のメリットは何でしょう? ちょっと思いつかないです(苦笑)。
 無理矢理考えると、PCM時には必須のDACチップ内LPF(デジタルフィルタ)処理をパスできるというメリットはあるかも?
 ただし、DSD64程度ではシェイピングしたノイズが可聴域のとなりに発生しちゃいますけれど。DSDネイティブ再生じゃないと意味ないですし。
 変換はユーザ側でもできますしね。
 「変換環境を持っていないけれどDACをDSD動作させたいユーザ向け」ってニッチすぎますよね(苦笑)。

 なお、どうせPCMで編集するのにDSDで録音する場合があるのは、現在のΔΣ式ADコンバータにおいてはDSDの方が“ネイティブ”だから、ということでしょうか。DSDの方がアナログっぽいという定評(?)みたいですからメインマスターとして好まれるのかも知れません。


■既存の非ハイレゾ音源から作る場合

 「手段系」ということになります。

・補間によるハイレゾ化は有意か
 上記のような条件を満たしていない場合、補間技術によって元データのナイキスト以上を生成し、“疑似ハイレゾ化”する商品があります。「ニセレゾ」と呼ばれることもありますが、有意性のある技術なのでしょうか(技術的には「アップサンプリング」とは全く違うものです)。

 有効なのかも知れませんが、同種の処理はPCのツールやプレーヤ搭載の専用チップなどでもできちゃいますから、職人芸ではなく機械的になされた場合は、それらより付加価値があるとはあまり思えないんですよね。
 ですので、有意だとしても、「パラメータを手作業で調整」といった条件付きになるのではと思います。

 代表的な補間技術は「K2HD PROCESSING」ですよね。
 「手段系ハイレゾ」の一種で「(ソース系)ハイレゾ」ではないワケですが、商品には「K2HDによるハイレゾ化」などと明示されており「だったら買わない」という判断はできますから、ニセレゾと言い立てる必要はないでしょう。どれだけ有意かは判りませんけれど。

 が、その説明の中で次のような「不正確な情報」を発信してしまうと信頼感を損ねます。

鈴木さん: 単なるアップサンプリングというのは、サンプリングレートを倍にする場合だと、ふたつのサンプル点の間を線形補間するだけです。サンプル点1の値が10でサンプル点2の値が20だとしたら、その中間にサンプル点1.5を15という値で入れるわけです。
-- ふたつのサンプル地点の中間点を中間値で穴埋めするだけということですか?
鈴木さん:そうです。この処理を行っても、例えば音の周波数には変化はありません。

出典:http://www.phileweb.com/interview/article/201401/24/218_3.html

 アップサンプリングでは周波数成分を増やしていないことを説明したかったのだとは思いますが、10と20の間を15にするような“単なるアップサンプリング”は少なくとも一般的とは言えないでしょう(苦笑)。「サンプリング定理のひみつ」で提示したfb2kによるx2,x4,x8アップサンプリングを見ても、「線形補間(つまり平均)」じゃないことは明白です(もちろんDACチップのデジタルフィルタもです)。
 せめて「簡素化して説明すると」といった注を添えるべきだったと思います。

・アップサンプリングは有意か
 既存のCDやDATレベルの音源から作成する場合、元ナイキスト以上の周波数成分を補間生成しない“アップサンプリング”は、DA変換処理の一部であるデジタルフィルタリングを前倒しでやったこととほぼ等価です。音源作成段階で実施する価値はありません。
 細かいことを言えば、DACチップ内蔵フィルタより高精度かも知れませんし、「DA動作軽減」という効果はあるかも知れませんし、倍率固定のDACチップなら「「トータル倍率が上がる」という違いはありますが、それをハイレゾの効果として言うのは微に入りすぎだと思います(ウリにはならないでしょう)。DACチップによってDA処理方式違いますし。
 そもそも購入後にPCでできちゃいますし。もし、業務用アップサンプラの方が「コンスーマ用より“圧倒的に”高性能」だと言うのなら意味あるかも知れませんが、同じくPC上で動くソフトでしょうからイマドキそこまで差があるとも思えません。
 「アップサンプリング環境を持っていないけれど当該処理してからDACに送り込みたいユーザ向け」ってニッチすぎますよね(苦笑)。

 ただアップサンプリングしただけの商品はハイレゾではありません。「ニセレゾ」といっていいと思っています。レゾリューションはまるでハイになってませんので。

・ハイレゾフォーマットでの編集結果をそのまま出すのは有意か
 リマスターやリペア処理時の演算誤差低減のためにアップサンプリング(ビット深度拡張)し、処理結果をあえてダウンサンプリング(ビット深度縮小)せずに出す、と言った場合も一応有意だとは思います。やや苦しいですが、ただアップサンプリングしただけではなく目的と意味があるワケですから。
 でも、元音源の情報量はハイレゾリューションではなく「手段系ハイレゾ」の一種ですから「ハイレゾ」ではなく、リマスターをハイレゾフォーマットで行った=「ハイレゾリマスター」とか呼んで欲しいですね。

 なお、アナログマスターをハイレゾ録音してマスタリングする場合も「ハイレゾリマスター」に含めていいのではと思います。
 もしアナログマスターのレゾリューションがハイレゾレベルなら、「フルハイレゾ」と言ってもいいでしょう。

・ビット拡張は有意か
 リマスタリングやリペアのためには有効でしょう。
 ただ、もともとピークが潰れていた場合や「コンプかけすぎ」だった場合、ハイビット化を活用した高音質な修復は想像しにくいです(そういうツールもあるようですが)。


■ハイレゾの効果はハイサンプリング領域に有効成分があることではない?

 たまに業界から説明で「ハイサンプリングは有効帯域を高域に拡張するものではなく、有効帯域の再現性を上げるもの」といったものを見かけますが、これは大変疑問に思っています。
 サンプリング定理上ナイキスト以下は「完全に復元可能」なのですから、ナイキストを22.05kHzから48kHzに“細かく”しても、例えば20kHzまでの帯域に対して定理上のメリットは無いためです。増えたサンプルはリコンストラクションで復元できるデータのハズですから。

 定理上の話ではなく“現実的問題”を言っているのなら、そのように説明しないとさらなる誤解を招くでしょう。

 流石に「リコンストラクションフィルタのデメリット低減」はないでしょう。DACチップの仕組みや性能に依存しちゃうことですから。

 じゃあ、例えば「現実的には完全に復元できないのでリコンストラクションサンプルよりリアルサンプルの方が有利」とか?
 しかし、高級DACチップ(*)が生成するリコンストラクションサンプルは有効帯域以上(イメージングノイズ)を-130dBあたりまで抑制しますから、リアルサンプルだとそれ以上なのかとても疑問です。念のためですが、リコンストラクションで生成されるサンプルは元ナイキスト以上の成分を抑制するためのものと言ってもいいので、Attenuationスペックが高い方がよいのは間違いありません。
 もし、逆に、抑制するのではなく「リアルサンプルなら有効帯域を超えたところにも-80dBとかの成分が発生するのがメリット」と言うなら、「そこまでが有効帯域」なワケですからやっぱり高域があることがメリットになってしまい矛盾します。

*:PCM1792AのStopband Attenuationスペック。ちなみに≪foobar2000≫のResampler-V(SoX)は-198dBまで設定可(もちろん実際の性能は処理ビット深度にも関連するハズ)。

 または、例えば「有効帯域とナイキストの差を大きくしてリコンストラクション処理に余裕を持たせることで復元精度を上げられる」とか?
 だとすると、それを充分に活用するためには「PCMデータ化する際のナイキストに対する有効帯域(AD時のLPF特性)の規格化」が必要だったのではないかと。例えば、以下の引用が正しいのなら、有効帯域は32kHzあたりと決めてしまえばよかったハズ。
 決めませんでしたから、(LPF特性がCDと同じSharpのままだと)例えばAK4490はどうせ無いのに43.5kHzまで通過させ、まだ大丈夫なのに52.5kHzからカットしてしまいます(急峻な動作してしまいます)。
 なのでこのメリットは実際には享受できていません。

 残念ですね。

また鈴木氏は、「ハイレゾはマスター音源と同じものではない」と、ハイレゾ音源に対してのよくある誤解についても触れた。「サンプリング周波数と周波数帯域とは完全にイコールではないのだが、そのあたりが誤解されている。収録されるのは実際の演奏の帯域であって、それを96kHz/24bitの“器”に入れているからといって高帯域まで入っているというわけではない」。例えば、ピアノの最高音の基音は約4kHzで、倍音を入れても20kHzくらいしかない。アナログマイクで収録できるのは30kHzくらいまでとされているし、古いアナログ音源も40kHzまで帯域が伸びているわけではない。ハイレゾ音源の特徴とは高域まで収録されているということではなく、「従来のCD音源よりもサンプリング周波数と量子化精度が細かいことによって、アナログに近い状態を再現できること」と鈴木氏は語った。
出典:http://www.phileweb.com/news/audio/201603/22/17054.html

 「周波数成分が連続的に減少して30kHzくらいでノイズレベルになる2496」はハイレゾだって言うのは解ります。
 が、「20kHzくらいでいきなり減衰する2496」はどうなんでしょう? そのあたりも(ラベリングなく)ハイレゾとして売ってよしとしていることこそ“誤解”なのでは?

 なお、ハイサンプリングではなくハイビットについては、「16bitからリコンストラクション」するより「24bitのオリジナルサンプル」の方が有利なのは間違いないでしょう。


■やっぱり気になる「生まれ」と「育ち」

 ということで、ハイレゾ商品が本当に「ハイレゾフォーマットの意味があるデータ」であるためには、上記のような“出自条件”を満たしている必要があるでしょう。

 しかし、実際には、上述した「フルハイレゾ」「パーシャルハイレゾ」「アプコンによるハイレゾ化」「ハイレゾ編集」「ハイレゾリマスター」といった様々な出自を“一緒くたにハイレゾよばわり”しちゃっています。
 だから疑念を抱かれるワケで、定義されて分別されていれば買った後で「ニセレゾ掴まされた」って話にはならないと思います。
 中でも一番の問題は「ハイレゾフォーマットに変換してきちんとリマスターした商品」と「ただのアップサンプリング」の区別がつかないことです(*)。
 出自表記する規定がないと、無邪気に「とりあえずアップサンプリング」とか、意図的に「アップサンプリングして適当にコンプかけただけでハイレゾリマスター」「消費者がスペクトル見て騒がないようアップサンプリングの高域にそれっぽい雑音を付加する」といった詐欺行為も“お咎めなく出来て”しまいます。


*:ソースをAD変換して得た場合はテープや機器のフロアノイズが残りますので判ると思います。
  また、ここでの「ただの」は、意図の有無に関わらず有効性がないという意味で使っています。

 そのあたり、現状は制作者側の常識や良心次第ってことになってるワケですが、以下の記事などからすると信じていいのか疑わしいです。

-- ところで、本日はせっかくe-onkyo musicの黒澤さんにもご同席いただいているので、ひとつご質問させて頂きたいことがあります。e-onkyo musicで販売されているハイレゾ音源でK2HDなり何なりの表記がないものは、マスター音源がそもそもハイレゾであるか、もしくはアナログマスターから直接にハイレゾでデジタル化されたものと考えてよいのでしょうか?

黒澤さん: レコード会社さんにはそのようにお願いしています。また納品されたデータの波形を弊社の方でチェックして、例えば「これは96kHzの形で納品されているけれど、96kHzで録音された音源の波形としてはおかしい」と思えるものがあれば、それは確認を入れています。

-- それはつまり、この記事で言うところの「単なるアップサンプリング」をされた音源かもと思われる場合には、ということでしょうか?

黒澤さん: そうです。e-onkyo musicとしては44.1kHzや48kHzでも、24bitであればハイレゾだと考えています。ですので48kHz/24bitで制作された作品であればそれをそのまま配信させていただきたいという気持ちなのですが…。

-- それが伝わっていない場合もある?

黒澤さん: 「ハイレゾ」「96k」「192k」という言葉が先行してしまって、それに合わせた形にアップサンプリングしておこうと考えてしまう場合があるようです。ですので、できる限り弊社でチェックして、そういった音源と思われるものについては、弊社の考えを説明して元の48kHz/24bitなりのデータをいただき直す場合もあります。

出典:http://www.phileweb.com/interview/article/201401/24/218_7.html

 実際「ハイレゾだって謳っているがアップサンプリングっぽい」「しかもその有意性が疑わしい」商品の存在はネット上で指摘されていますから、そういうことしちゃダメだって認識がない制作者(レーベル?)は確かに存在するのでしょう。残念ながら。
 これが「ニセレゾ疑惑」の実体だと思います。
 K2HDはアプコンだって明示してますから疑惑ではないでしょう。

 ちなみに、個人的にはハイビットもハイレゾとして充分有意だと思っていますが、「本当に有意な24bitなのか」はまるで判断できません(周波数成分よりさらに)。

 ですので、「ハイレゾ音源販売におけるその出自の明示」はとても重要なことだと思っています。市場を健全に育てるためにも。明示してもどこまでマジメにやったかは表現できませんが、一定の品質保持効果はあるのでは。
 ですが、現状ではほとんど明示されていません。なので2496商品でも「2448制作音源やCD音源の単なるアップサンプリング」である疑念は拭えません。
 「最近は違うよ」と言われても保証はどこにもありません。なのでなかなか手が出せません。


 ということで、そのような現状を踏まえると購入判断コンセプトは、まあ、

1.新作の場合
 「ハイレゾフォーマットだから」ではなく「ハイレゾフォーマットを意識した良マスタリングされている“可能性”が高いから」という理由で積極的にCDではなくハイレゾ版を選ぶのもアリかと思います。
 お値段変わらければ、ですが。

2.旧作ハイレゾ化の場合
 「リマスター版」だと思って価値判断すればよいのではと思います(K2HDなどの補間音源もこれに位置づけ)。
 お値段が通常のリマスター商品の値付け水準同等以下なら、ですが。

というカンジでしょうか。

 ただ、そう割り切ってなお、現実は単純ではなさそうです。
 新作でも、ハイレゾ版の方が良マスタリングだという保証はありません。
 旧作でも、せっかくのハイレゾリマスタリングなのに「音圧マシマシでクリッピング多発」なことがあるようです。CDでもリマスターの方がいいとは限らないのと同じ話ですね。

・お値段のハナシ
 と言うことで、要するに問題は「価格(コストパフォーマンス)」ですよね。まあアタリマエですけど。
 それについてちょっと考えてみます。CDとハイレゾ配信の比較として。

1.新作の場合
 原則としてハイレゾに高値を付ける理由はないでしょう。ハイレゾ配信の方がマスターに近いでしょうから、CDフォーマットにマスタリングする手間が省けるとか物理メディアがない(ブックレットもない。物流コストもない)とかって点を考えると、逆に配信ハイレゾの方が安くできるハズ。サーバ維持費用とかは増えるでしょうけれど、PC用ソフトウェアだってDL版の方が安いの当たり前ですよね。
 「中古市場ができない(ハズ)」であろう点も、CDより安くできる理由になるでしょう。

2.旧作ハイレゾ化の場合
 楽曲自体の制作費がかかってませんし上記の通り配信ですから、リマスター版CDより安価にできるハズです。


 実際にはもっと微妙な点もありますけれど。
 例えば、新作発売直後ではあまり値差がなくても、時間が経った作品はCDなら値下がりしたり中古で買ったりできます。
 また、配信ハイレゾの1曲の価格は(すごく)高い気がしますがCDでは曲単位では買えないので比較しようがありません。

 以上、ざっくり言うと、“お値段がCD同等以下なら”新作であれ旧作であれハイレゾ配信を商品として否定する必要はないのではないかと。
 あれ? 音質関係ないや(笑)。

 商品の価格は原価で決まらないのはもちろんですが、個人的にはCDと同価格以下とすべきであり、プレミア価格を付けるようなモノではないと思っています。プレミア価格だと「ハズレ掴まされたら悔しい」って疑念がつきまといますしね。
 「手間かけてるから高い」なら納得しますし「手間かけてないから安い」でも納得しますよね。

 やっぱり素性は明かすべきです。ちゃんとやってる自負あるなら。


■「既存音源から作ったハイレゾ」を調べる

 ということで、いよいよ実践編です。上に挙げた「既存音源のハイレゾ化商品」の実例を少々。

 ただし、あくまでも「フォーマットと出自と実際の周波数成分や音圧」のハナシです。だから音質がどうかとは直接関係ありません。


■中山美穂「COLLECTION Ⅳ」

   ←当然ながらハイレゾではなくCDですが、記事に彩り欲しかったので(笑)

 これを選んだ理由は以下の通りです。

・\2,000(8%税込み)という価格は“リマスター商品”として良心的

・出自が詳しく明示されており好感が持てる
  http://www.e-onkyo.com/music/album/nopa00518/
  http://www.e-onkyo.com/feature/42

・出自には
   『今作はキングレコードが保有するアナログ・マスターテープからデジタル化した音源となります。
    *Tr.6、8は44.1kHz/16bitで収録され、96kHz/24bitでマスタリングされています。
    *トラック9は48kHz/16bitで収録され、96kHz/24bitでマスタリングされています。』
とあり、track01~05,07はアナログマスター、track06,08は1644マスター、track09は1648マスターと、3種のマスターによる違いを比べることができる(ディスクじゃないですけど便宜的にtrackと呼称します)

 CDとしては2006年2月発売のようです。1995~1999のシングルをリリース順に収録とのこと。
 潔く2496WAVで購入。ファイル名が楽曲名になっている(アルバム名も入ってて長いですけど)e-onkyoにて。

 ということで、マスター違いごとに中身を見てみたいと思います。

・アナログマスター(track01~05)
 さて、「アナログマスター」にはどんな音(特に高域)が入っているのでしょうか。一番古いtrack01の例です。

COLLECTIONⅣ01

 古いといっても1995年ですので、残っているマスターはアナログでも制作プロセスにはデジタル入っていると思います。
 ナイキスト20kHzくらいで一旦周波数成分なくなっているのはそのためでしょう。
 そしてそこから上、新たな2496AD変換のナイキストである48kHzまでの領域は音楽に合わせて変動します。LPFは40kHzあたりからゆったりかけているようですね。

 CDナイキストですっぱり切れておらず(24bitの最低値まで落ちていない)そこから48kHzまでの成分が変動するということは、ローレゾデータをアップサンプリングしたものでないことは確かです。キャプチャにはありませんが、24kHz以上にパルス性ノイズが見られることからも、アナログ再生をハイレゾ録音したという出自情報に矛盾ありません。
 この20~48kHz領域は、変動はしますが倍音が立ったりすることはありません。ので有意な音楽成分ではないでしょう。正確には解りませんが、アナログテープのヒスノイズ成分が有効周波数帯域につられて変動しているのでしょうか。

・アナログマスター(track07)
 このtrackだけCDナイキストでの明らかな減衰は見られず48kHzまで連動していましたので、ハイサンプリング(またはアナログ?)制作っぽいです。ただし、20kHzくらいに段差が見えることもあることから、CD・DAT級サンプリングレートの音声トラックもミキシングされているようです。

COLLECTIONⅣ07

 というスペクトル違いが判るということは、「アナログマスターテープは、“実力値的能力”としては96kHzサンプリングクラスの周波数は記録できる」ということかと思います。ただし、どこまで品質(音質)保っているかは別ですし、アナログマスターにも性能違いはあるでしょう。

 なお、track07を聴いたカンジ「お~ さすがアナログマスターのネイティブハイレゾ! 他のtrackとは全く違う!」とは思いませんでした(笑)。

・1644マスター(track06,08)
 つまりCD音源ではないかと思います。
 が、CDナイキストで減衰はしますが24bit最低値までは落ちていないことから、アップサンプリングではなくDA変換再生をAD変換したもののようです。これも出自情報に偽りナシですね。
 アナログマスターと異なりCDナイキスト~AD変換ナイキスト領域はおとなしいままです。つまり、当該領域は楽曲成分と無関係=再生機器のフロアノイズと思われます。
 それでもアップサンプリングではなく当該領域のデータが(ノイズでも)在るということはハイレゾのひとつの効能になると思ってます。

COLLECTIONⅣ06

・1648マスター(track09)
 つまりDAT音源ではないかと思います。
 事情は1644マスターに準じます。若干オリジナルナイキストが高めですかね。

COLLECTIONⅣ09

 何故か44.1kHzのパルスノイズがあるのはご愛敬?(笑)

・総評
 出自が明確に開示されており、実際偽りなしでしたのでとてもキモチいいです。

 アナログマスターの実力については、少なくとも、CDを超える高域が入っているいう意味においては「可能性がある」が、「サイコーとは限らない」と言えるでしょう。

 音圧は、全体的に高め(*)でしたが、ざっと見た限りピーク潰れ(データ値としてではなく波形としての)はないようです。track03,04だけ連続2サンプル以下のクリップがありましたが問題にすべきものではないでしょう。
 track08だけが異様にレベル低いです。何故? とも思いますが、元音源そのままだとすると逆に好ましいとも思います。

*:CDと比較して同じくらいのもの、2496の方が高いもの、など混在しているようですが、CD音源も初出や再録などいろいろなバージョンがあると思いますので総論はありません。

・比較試聴
 「ハイレゾでリマスター」するとどれくらい違うのか、CD(ただしシングルではなくアルバム版)でも持っている曲とざっくり音質比較してみます。以下のシステムです。

 ハード:X79システム→UD-503→MDR-Z7(アクティブGND)
 ソフト:≪foobar2000≫のResamlper-Vでx2x2x2x2→DSD256(TypeD FP64)変換

 ハイレゾの方が若干レンジ感が広くヴォーカルが生々しくなるような気はします。が、そのつもりで聴き比べればそうかな、という程度かと思います。少なくとも「ハイレゾすげえぇぇぇ!」ってカンジではないですね。

 なお、DACユニットとしてまだUDA-1を使っていた時にも同じ比較したことがあります。

 ハード:X79システム→UDA-1→DSP-Z7→HD700
 ソフト:≪foobar2000≫のResampler-Vでx2x4→DSD256(TypeD FP32)変換

 いくつかの短いフレーズを交互に再生して比較してみましたが、ハイレゾは「CDより若干空間が広めなような気がするかも?」程度で、「明らかに、圧倒的に、いい!」とは思いませんでした。「リマスターだから音質違うのはアタリマエ」のレベルかと。
 確かな記憶ではありませんが、UD-503システムの方が違いを感じるような気はします。

・DSD変換試聴のワケ
 ところで、ネイティブ再生ではなくPCM→DSD変換再生にしたのは、「再生ハードウェア動作の差(影響)を極力小さくするため」です。
 Resampler-Vの1段目のx2は44.1kHzと48kHz以外はスルーするように設定していますので、CD音源と2496はプレーヤの設定を変えず連続再生しても「x2するかしないかの差」だけになります。一方、DAC側はDSD256ストリームに対する「アナログLPF」としてのみ動いています。
 よって、再生システム動作の違いは最低限の「PC側でのx2処理有無だけ」になっており(*)、それはX79システムにとっては軽微な負荷差でしょうからつまり再生処理の差はほぼ隠蔽でき、「音源の差」だけに注目できるのではないかと。
 ただし、UD-503のDSDは44.1kHz系しか受け付けないので2段目出力で176.4kHzに揃えています。その点では2496は若干不利かも知れません。UDA-1は48kHz系DSDも通りましたのでこの限りではありません。

*:DSD変換再生ではなくPCMデータのままネイティブに再生した場合は、DACユニットの最大処理能力を192kHzで100%とすると44.1kHzは約23%&96kHzは50%の負荷となり、微少な差とは言えないでしょう。


■K2HD:小泉今日子「あなたに会えてよかった」

   ←シングルCDです

 よく店頭試聴に使われていることもあり、表題技術がどんなものか確認するため買ってみました。
 以下がそのスペクトル。一応、「補間生成された領域」が目立ったところをキャプチャしたものです。

K2HD.png

 確かに元ナイキスト以上の領域に成分はありますが、それがどれだけ有意なもので、聴いて有効なのかはなんとも言えません。

 音圧・音量についても一応CD版(シングルではなくアルバム版)との比較を載せておきます(上がCD。Lch)。

CD VS K2HD

 どちらもフルビットにドンツキしているところはありません。拡大して追ってみても、波形として潰れてるところもなさそうでした。
 クリップはしていませんが、イマドキの音源らしくK2HD版の方が音圧高く変更されてるようです。
 音量も大きくなってますね。≪SoundEngine Free 5.02≫によると、CD版とK2HD版はそれぞれ最大音量-1.00dB/-0.40dB、平均音量-14.83dB/-12.03dBとなりました。
 ハイサンプリングにするほどTruePeak防止のためのマージンは減らせますのでそれを削ったカンジですかね。
 フルビットよりやや低いところで頭が揃ってますので、最大値をそのように設定してマスタリング(コンプ)したのでしょう。最近はクリッピングもよく話題になりますから、音圧上げても≪Audacity≫で赤くならないようにしとかないとね(笑)。


 ざっくり比較試聴してみると、K2HD版の方が空間の広がり感というか楽器やヴォーカルの明瞭感で好ましい気はします。
 「すげ~イイ! K2HD最高!!」ってことはありませんが、比較すればCD版よりいいと思えます。個人的には、ですが。
 ただ、\540(8%税込み)というコストパフォーマンスは…どうでしょうね?(苦笑)

 なお、CD音源はアルバム版なので、シングル版から音量ノーマライズなどの加工されてるかも知れません。


■おまけ

・ダウンローダ
 配信音源を購入する際のDLはブラウザの機能を使うので、1ファイルずつ選択することになります。流石にメンドクサイのでe-onkyoのダウンローダを使ってみました。
 2曲同時に落としてました。速度表示は70~85Mbpsくらい。ファイルサイズと秒数から換算する実測値と同等でした(日曜午前中、100Mbps契約のフレッツ光にて)。

・試聴
 評論家などは「フォーマットで音質は決まらない、音楽は聴いてナンボ、聴いて良ければ買えばよい」みたいなことを言います。基本的に異論はありませんが、“買わなきゃ聴けない”じゃないスか。矛盾してますよね。
 なので、ハイレゾの試聴は、商品のそのものの音質やマスタリングの確認ができないと意味がないと思っています。
 試聴音源が圧縮だと周波数特性や音質変わっちゃいますし、そのハイレゾ商品から作ったものという保証もありませんから、工夫して“ハイレゾネイティブ”なものを聴けるようにして欲しいものです。そうすれば「ホントに2496なのか」といった“出自”もたぶん確認できるでしょう。
 せめて、1曲買った後でアルバム買う場合はアルバム価格から1曲価格を引いてくれるとか。
 もはや“試聴”じゃないですけど(苦笑)。


メインメニューへ

テーマ : オーディオ
ジャンル : 趣味・実用

PhaseとImpulseのハイレゾ効果を確かめる

16/03/05初稿

 前稿で、遂にデジタルフィルタのパラメータが演算結果に及ぼす影響について調べました。

 とりあえずサンプリングレート1fs(44.1kHz)ソースについて見ましたが、これって、同じ波形でもサンプルレートが違うと影響度は異なるのではないでしょうか。もし、ハイサンプリングだと“影響”が緩和されるなら、それはハイレゾの効能と言えるでしょう。
 もちろんフォーマットとして、ですけれど(実際に聴いて差があるかは別)。

 ということで、調べてみました。
 以前、「ない高域をサンプリングして“ないことをデータとして確定”させることでイメージングノイズ発生帯域をその上の高域にシフトし、OSDF影響を下げることがハイレゾの効果(のひとつ)」と考察したことがありますが、本稿はPhaseとImpulseの側面での効果確認になるかと思います。

 本稿では、その主旨からハイレゾはハイサンプリングのことを指します。


■Phase Response

 前稿で扱った「14.7kHzと7.35kHzのサイン波を合成した波形」の変形につき、サンプルレートを変えたソースで調べてみます。
 44.1kHzに加え、同じ方法で88.2kHzと176.4kHzのデータを作成。それぞれx2x2x2とx2x2とx2してすべて352.8kHz(8fs)化した時の変形を比較します。
 同じ8fsにするにしても、フィルタで再生成したものではなく最初から2倍分4倍分の“リアルサンプル”があるデータの変形度合いの比較、ということですね。
 8fs(8倍)で揃えたのはDACのOSDFがΔΣブロックに入れる前に「8fs」にする(*)処理のシミュレーションとするためです。

*:AK4490などはそのように動いていると理解しています。

 以下、 ≪Resampler-V≫のMinimal設定の結果を示します。Linearは変形しないので省略。

14700+7350 0per ハイレゾ比較 サイン波重ね

 「44.1kHz x2x2x2(上図)」と比較すると、「88.1kHz x2x2(中図)」ですでに変形はかなり抑制されています。「176.4kHz x2(下図)」の“リコンストラクション再現率”は、ほとんどLinearと遜色ないのでは。

 もちろんこの例のみでのイメージですが、特殊事例ではないと思います。


■Impulse Response(の代替特性)

 こちらも、前稿の「1周期の4kHz -0dB」波形につき、サンプルレートが異なるデータを作って比較します。
 これは一般的な「Impulse Response」ではありません。その理由などの詳細は前稿を参照ください。

 前稿で見た48kHzをx2x2x2した場合(上図)に加え、96kHzをx2x2(中図)、192kHzをx2(下図)してぞれぞれ8fs化した場合につき、MinimalとLinearを示します。

・Minimal

4000HzResponseハイレゾ比較 0per


・Linear

4000HzResponseハイレゾ比較

 すべて8fsで揃えていますので、同じ時間スケールでの比較です。サンプリング周波数が高くなるとエコー成分はどんどん減っていく様子が解ります。
 ちなみに≪Wavosaur x64 1.1.0.0≫の表示限界以下で見えないワケではありません(別途拡大表示して確認しました)。


 なお、余談かつおそらくですが、これは基音と倍音でハイレゾの効果を見た時と同じ現象を別の見方しているのではないか、という気がしています。


■デジタルフィルタにみるハイレゾの効果

 以上より、デジタルフィルタにおける「Phase Response」「Impulse Response」の絶対的影響は、ソースのサンプルレートが高くなるほど小さくなると言っていいのではと思います。
 まあ、当たり前ではありますが、実際に波形で比較してみるとその“程度感”などが解ってヨイですね。

 つまり、「Minimal系特性にすると波形変形が発生する」「Linear系特性にするとプリエコーが発生する」と言う(言われる)デジタルフィルタのデメリットは、ハイレゾ(ハイサンプリング)になればなるほど軽減されるということです。
 もちろん同じ周波数帯について見た場合です。人間の可聴域や音楽の周波数はハイレゾだと移動するってワケではありませんから、例えば「ハイレゾの場合は2倍・4倍の領域(ナイキストに対して同じ比率の領域)で比較しなければ意味がない」といったことはないでしょう。

 さて、上記はPCソフトのフィルタ演算結果ですが、DACチップのOSDFも基本的に同じ特性を示すハズです。

 具体的な例を挙げると、AK4490のOSDF結果は8倍固定ですので、最初から8fs=352.8kHzや384kHzソースの場合はOSDFかかりません。LinearもMinimalも関係なくデジタルフィルタのデメリットは発生しないワケです。それは極端な例としても、4fsソースの場合はOSDFは2倍ですので影響はかなり抑制されるでしょう。

 ですので、「(OSDF式の)DAC動作」という観点では、ハイサンプリングだとデジタルフィルタのデメリットを抑制できるメリットありと言えるのではないでしょうか。

 言い方を変えると、「フィルタ特性による音の差が少なくなる」「“デジタル臭さ”が減る」といった表現もできるでしょうか。
 もちろん、これはDACの仕組みにも依存するので絶対的一般論とは言えませんし、実験はサイン波(せいぜい成分としてふたつ)でのものですから、当然ながら実際の楽曲においてどれくらい有意差があるかは別問題ですけれど。

 なお、当然かつ重要な点ですが、ソースがネイティブハイサンプリングじゃないと当該メリットはありません。「AD変換が1fs、またはAD変換が2fsや4fsでも製作過程で一度でも1fs化したデータ」をアップサンプリングしたハイレゾでは、その時点で1fsを2倍4倍するためのデジタルLPFかかっているのですから。


メインメニューへ

テーマ : オーディオ
ジャンル : 趣味・実用

「Phase Response」に応答してみる

16/02/03初稿

 ≪foobar2000≫の≪SoX Resampler≫や≪Resampler-V≫などをはじめとするリサンプリング機能には「Phase Response」なる設定項目があります。

 ちゃんと解らないまま概ねデフォルトのまま使っていましたが、「Phase Response=位相応答」とは何で、アナログ化にどんな影響があるのでしょう?

 「オーディオにおけるサンプリング定理」について調べてから芋づる式に(?)「デジタルデータがアナログ化されるまでのお仕事」についていろいろ考えてきたのですが、難しくて先送りしていた最大の難問(?)に、いよいよチャレンジしてみます。


■「位相応答」とは何か

 とりあえず説明してみます。なかなかに難しいので合ってる自信はありませんが(苦笑)。

・「位相シフト」と「ズレ時間」
 リサンプラにおける「位相応答」とは、デジタルLPFを通した際、「“位相シフト”がどのように発生するか」だと思います。
 「位相シフト」をイメージし易さ最優先で超ざっくり言うと「周期の開始点がズレること」です。
 さらに純音に限定して超具体的に言うと、位相シフトすると波形変形はしませんが全体的に時間軸上でズレます。
 じゃあ位相応答って時間ズレのことなのかというと、そうも言えません。
 位相応答のミソはおそらくそこ、「位相シフト量は時間軸上のズレ量ではない」ということだと思います。

 それってどういうことか、基本波形(純音)のサイン波で考えてみます。
 位相シフトが180°だったとすると、1周期は360°ですから1/2周期です。周期100ms(10Hz)なら50msのズレ、10ms(100Hz)なら5msのズレ量になります。つまり、位相シフト量が同じなら周波数によって時間ズレ量は異なるということです。
 逆に100ms周期でも10ms周期でも5msのズレになっている場合、位相シフトは前者で18°(1/20周期)、後者で180°(1/2周期)です。
 ですので、周波数に依らず時間ズレ量を一定にしたいなら位相シフト量を周波数に線形に変化させる必要があるのです。

 線形に変化せず周波数によって時間ズレ量が変わったらどんな影響があるのでしょう?
 そこで思い出すべきは、すべての波形はフーリエさんの言うように複数周波数のサイン波で構成されているということです。
 ですので、フィルタを通した時の位相シフト量が周波数に対して非線形(例えば一定で変化しない)だと、「周波数成分ごとに時間ズレ量が異なる=合成された波形が変化する」ことになります。
 線形なら、時間ズレ量は周波数によって変化せず一定ですので変形はありません。

 つまり、LPF特性「Phase Response」のミソは、位相シフトが発生すること自体ではない上に、“量の大小”ではなく“周波数依存性が線形か非線形か”ということだと思います。

 言うまでもありませんが「オーディオ再生において」の話です。
 音響補正のようなフィードバック制御などの場合は遅延も問題になる(*)ようですが、Audio再生においてフィルタ演算での遅延が問題になることはないでしょう。再生中に遅延時間が変化することはありませんので、問題になるとしたら読み出されたデータが再生されるまでにディレイが発生することですが、たとえ再生ボタンを押して音が出るまでに100ms遅れたとしてもたぶん気付きませんよね。

*:http://proaudio.yamaha.co.jp/downloads/documents/data/white_papers/my8lake_white_paper_ja.pdf

・「位相応答」を体験する
 といっても、具体的な波形変化で確認できないと確証は持てません。チマチマと思いついたことを試していたのですが、その中で、先日やっと具体的な事例としてなんとかイケそうなやり方を見つけました。
 前回同様≪Wavosaur x64 1.1.0.0≫で表示します。ファイル名などは無視してください(笑)。

 準備したのは次に示す上図の波形です。
 7.35kHz(中図)と14.7kHz(下図)のサイン波の合成波形です(サイン波のレベルは合成後にサチらないよう-6dB)。
 14.7kHzの方は前稿で扱ったのと同じく位相を30°ズラしています。合成波形のカタチに特徴を出し、今回の目的である位相応答を解りやすくするためです。

14700+7350.png


 次に、上記の3波形を44.1kHzサンプリングしたデータを示します。“点”がサンプルポイントです。
 メンドクサイので“補助線”で結ばれた表示のままです(今回の趣旨には影響ないと思います)。

14700+7350 3244 サイン波重ね

 上図の“ふたつの周波数成分を持つ”44.1kHzデータを、≪foobar2000≫で「Phase Response」設定を変えてアップサンプリングすると結果はどう変わるでしょう?
 DACのフィルタを想定して8倍(x2x2x2)してみます。

・「Impulse Response」とは何か
 ところで、実は「Phase Response」特性を変えると「Impulse Response」特性も連動して変化します。
 「Impulse Response」とは、ざっくり言うと「リコンストラクションフィルタ演算による、Impulseに対するエコー成分の付き方の違い」です。ざっくり言うと、ですが。
 さらに難しいのでちゃんと解ってるワケではありませんけれど、フィルタで再生成される成分が“Impulseに対しては”エコーのような値になるのではないかと。であれば、一般的なエコーのイメージで捉えない方がよいかも知れません。

 ということで、リサンプラには≪Resampler-V 2.1≫を用います。設定ウィンドウでスライダを操作するとLPF特性だけでなくエコー特性表示もリアルタイムで変化するので、連動具合が解りやすいためです。

・Phase Response 「Minimal」 (SoX Resamplerの0%)

Resampler-V 0

 位相シフト量変化が周波数にリニアではない=非線形になる設定だと理解しています。
 以下、8倍結果です。

14700+7350 0per Vx2x2x2 サイン波重ね

 ありゃ、上図は再現すべき元波形とは似て非なる形になってしまっています。
 何故かと言えば、中図と下図に示した通り、その周波数成分たる14.7kHzと7.35kHzの時間ズレ量(*)が違うためです。周波数成分の時間軸上のタイミングが変わってしまったので合成結果も変わったということです。

 つまり、この設定でアップサンプリングすると、設定ウィンドウの通り「プリエコーなし」というメリットが得られる一方「波形変形する」というデメリットがある、と言うことですね。

 なお、3個のファイルはそれぞれ個々にアップサンプリングしたものですが、14.7kHzと7.35kHzのアップサンプリング結果を波形編集ソフトで足し合わせると合成波形の結果と一致することを確認しました。

*:ズレ絶対量の正確を期すより作図を優先しています。元波形と8倍波形の中では3個のタイミングは合ってますので、今回の主旨に影響ないと思います。

・Phase Response 「Linear」 (SoX Resamplerの50%)

Resampler-V 50

 位相シフト量変化は周波数に線形=Linearという意味のようです。

14700+7350 50per Vx2x2x2

 合成波形に変形なしと言っていいでしょう。ふたつの周波数成分でズレ時間に違いがないためです(なので成分波形の8倍結果は省略)。
 ただし、設定ウィンドウにある通りプリエコーが発生するということですね。

・ピーク値が変わる?
 本項16/02/15追記:ところで、Minimal系特性では周波数成分によって時間ズレ量が異なるってことは、周波数成分のピークの位置関係も変わるってことですよね。とすると、合成後のピーク値が変わっちゃうのでは?
 ≪Audacity 2.0.6≫で8倍ファイルのクリッピング表示してみます。上がMinimal、下がLinearです。

14700+7350 クリッピング比較

 Minimalでは(再現すべき)元波形にはないクリップが発生しています。本例では周波数成分のピークを-6dBにしていますのでドンピシャ重なってもフルビットになるだけですが、一般的には「TruePeak」のような問題があると言うことです。
 実際に発生する可能性を確認するため、「LinearでTruePeakが発生しないがMinimalだと本クリップが発生するCDデータ」を探してきました。曲全域でTruePeakはありません。
 上図が元データ、中図がLinear、下図がMinimalです。目的からして充分な2倍です。
 実際の楽曲においてMinimalがどのような波形変形するかの例にもなってると思います。

クリップ比較CD例

 寡聞にして言及されているのを見たことはありませんが、これはMinimal系特性のデメリットではないでしょうか。
 実際の再生音で「ヴェールがかかったようになる」「割れてる」などには至らないと思いますが、「演算としてはLinearにはないピーク潰れを発生させることがある」とは言えるでしょうから。
 TruePeakが発生するデータの場合は逆にピークズレすることで消えるTruePeakもあるでしょうけれど、それはメリットとは言えないですよね。

・再生音に差はあるか
 本稿で取り上げた合成波形のリコンストラクション結果は、「波形」として見るとLinearとMinimal設定で全然違います。一見するとMinimalの変形はマズイんじゃないかと思っちゃいますよね。
 しかし、見た目はずいぶん違いますが周波数成分は同じで、違うのは“ふたつの成分の位相だけ”ということになります(ピーク問題はさておき)。
 そして、人間の聴覚は位相には鈍感らしいです(ちゃんと調べていませんので詳細不明、あくまで“らしい”のレベルです)。
 確かに、DACユニット側のデジタルフィルタはOFFにしてLinearとMinimalで8倍したファイルを聴き比べても差は判らないような…
 このケースだけ、の話ですけれど。


 Linear系特性は過去だけでなく未来のサンプル値も参照できるデジタルフィルタならではのものです(ですよね?)。アナログフィルタでは実現できません。逆に、未来のサンプル値を参照することによってその影響を受け、「プリエコー」が生じるということですね。
 ですので、「Linear系特性は不自然。Minimal系特性の方がデジタル臭くなくて好き」と言う嗜好もあるでしょう。
 一方、「波形変形がないのは(ピーク問題も含め)デジタルフィルタならではのメリットなのでLinear系を積極的に利用する」と言う考え方もできるでしょう。


■DACチップはどうしているか

 上記ではPCで行うアップサンプリングについて見てきましたが、DACチップに搭載されているOSDF(Over Sampling Digital Filter)も同種機能ですから同じ事情があるハズです。

 ただし、≪Resampler-V≫で比較したLinearとMinimalは違いを解りやすくするための極端な設定です。DACチップ内蔵フィルタはいろいろ考慮されていると思います。

・DACチップの実装
 DACチップには、位相応答特性が異なるOSDFが内蔵されているものがあります。そして、どのOSDFを用いるかユーザに開放しているDACユニットもあります(独自のフィルタを搭載しているDACユニットもあるでしょう)。
 そのようなDACユニットで位相応答特性が違うフィルタが選択可能だった場合、極端に言うと

「波形変形するのはキモチワルイから、プリエコーを許容する」
「波形変形してても違いが知覚できないんだから、プリエコーがない方を優先する」

どちらかはお好み次第ということですね。

 では、どのフィルタがどの特性なのでしょう?
 AKM社AK4490内蔵のフィルタ名称をみてみます。

    ・Sharp roll-off filter
    ・Slow roll-off filter
    ・Short delay Sharp roll-off filter(default)
    ・Short delay Slow roll-off filter

 一般的に、SharpとSlowの違いは遮断減衰特性が急峻か緩慢かの違いのようです。
 この特性値もエコーに影響を与えます。プリかポストかではなく“量”が変化するようです。≪Resampler-V≫のPB,SB,Attスライダを動かしながら「LPF Impulse Response」を見ると解りやすいですね。Slowの方がイメージングノイズは漏れるがエコー成分は減る、ということです。
 そして、AKM社の説明(*)によると、「Short delay」と付くモードがプリエコーを抑制する方向性のようです。Mininalとは言いませんが、「非Linear系」特性ということでしょう。
 一方、「無印」はプリエコーとポストエコーが同量のようですから、Linear系特性と思われます。

*:http://www.phileweb.com/review/closeup/akemd-ak4399/
  http://av.watch.impress.co.jp/docs/topic/20151215_725922.html

 TI社もSharpとSlowは同様の定義と推定されます。
 ですが、AKM社に「Super Slow」、ESS社には「Fast roll-off」といったモードもあるようですので、名前だけでフィルタ特性を判断するのは難しそうですね。

・DACユニットの実際
 さて、では、OSDF設定を変えると実際のアナログ出力はどう変化するでしょう?
 TEAC製DACユニットUD-503は搭載しているAK4490のOSDFを変更できますので、「FIR SHARP」と「SDLY SHARP」で上記44.1kHzの合成波形データを再生し、PCオンボードサウンドでキャプチャしてみました(キャプチャ環境は直近記事と同じです)。
 OSDF倍率は8のハズです。

・FIR SHARP(アナログキャプチャ)

UD-503 FIR SHARP

 DACチップによるリコンストラクション結果、確かに「変形なし」のようですね。

・SDLY SHARP(アナログキャプチャ)

UD-503 SDLY SHARP

 “≪Resampler-V≫の極端な設定”ほどではありませんが、確かに元波形とは違う形に復元されるようです。


 一応、≪Resampler-V≫で試してみたことの裏取りにはなったでしょうか。


■ちょっとだけ:「プリエコー」は本当にヤバいのか

 本項16/02/14追記改訂。

 以上、変形について具体的に見てきました。
 が、本稿で取り上げたのは「周波数成分をふたつしか持たない単純な波形」による一例であり、実際の音楽においてどんな影響があるかは別問題であることは言うまでもありません。

 また、変形とバーターであるプリエコーに関しても、特性説明に示される例は≪Resampler-V≫をはじめとして普通「インパルス応答」です。“インパルス”は自然界にある音ではなく、その“応答”はあくまでもフィルタ特性を示すものであって、実際の音楽への影響そのものではないでしょう。
 よくLinear系特性は「プリエコーがあるのでアタック音が立ち上がる前から音が聞こえてしまって不自然」などと評されますが、音声波形のリコンストラクション特性と直結させてイメージするのはちょっと疑問に思っています。
 
 ということで、今回の「Phase Response」とリンクしていることもあり、「Impulse Response」についても少し考えてみました。
 Impulseではなくもうちょっと自然の音・音楽の音に近い波形のプリエコーは本当に気にするべきものなのか、という観点です。「変形」とバーター要素ですので、その影響度をちょっとでも知っておきたいと思いますので。
 全くちゃんと解っていないのですが、解っていない故に理解を深めるためとりあえず(以下、理解の仕方は間違ってるかも知れませんが、事例としてはやってみたそのままです)。

 どんな波形がいいか考えてみたのですが、「1周期だけいきなり立ち上がって消える4kHz(0dB)のサイン波」はどうでしょう? 音楽の基音は4kHzくらいまでしかないようですし、-∞から一気に0dBになる以上に急峻な立ち上がりはありませんので。なお、基音より高周波数の倍音成分は、基音よりレベルは必ず低くなりますのでエコー成分も小さくなるハズです。

 その波形(1648フォーマット)を≪WaveGene≫やバイナリエディタを使って作り、アップサンプリングでプリエコー・ポストエコーがどんなふうに付加されるのか試してみました(48kHzなのはサンプル数を整数個にするため、16bitなのはバイナリエディタで弄りやすくするためです)。
 リサンプラは上記と同じ≪Resampler-V(SoX)≫を用います。目的からして充分なので2倍です。
 中図がMinimal、下図がLinear設定です。

4000HzResponse1648.png

 Linearのプリエコー、そんなにヤバいものでしょうか。そもそもエコーと呼んではいますがくっつく波形は元の4kHzじゃなくナイキスト周期(24kHz)ですし。目立つレベルとしてはそれが数周期ある程度だと思いますが、でっかいアタック音の前にこれを違和感として感じることがあるのかちょっと疑問です。このレベルの24kHzの単独サイン波はおそらく聞こえないでしょうし、無音からフルビットに立ち上がるアタックも普通音楽にはないでしょうから。
 個人的にはMinimalのポストエコーの大きさと長さも気になります。

 さて、「4kHzのフルスケールアタック音」っていうのもある意味“非現実的”ですよね。ので、さらに試しに1kHzの場合も採取してみました。

1000HzResponse1648.png

 エコー成分はかなり目立たなくなっています(時間軸密度の違いは脳j内変換お願いします(笑))。
 これらを見ると、デジタルフィルタのエコーは「かなり大きなインパルス的な高周波成分」についてのみ気にすればいいのではないかという気がします。
 実際の音楽波形の周波数成分としてそれがどのくらいあるのかが問題ということになりますが、素人には解りません(笑)。

 そもそも、“自然界の音・音楽の音”は立ち上がりも収束も上図のようなものではありませんし、いろんな周波数成分が入り交じりますので、どんなふうにどこまで影響があるかはなんとも言えませんけれど。

・フィルタ特性を“ゆるゆる”にすると
 本項16/04/13追記。
 LFPの遮断特性を緩くすると、デメリットは低下するハズです。どれくらい違うのでしょう?
 ≪Resampler-V(SoX)≫の設定を最も緩くして4kHzの結果を採取してみました。

  Pass Band:91.3→54,2%
  Stop Band:100.0→120.0%
  Stop Band Attenuation:-198→-96dB

4000HzResponse1648 大甘設定

 上がMinimal、下がLinearです。
 Linearは思ったほど劇的な差ってカンジでもないです。Minimalは効果アリ? もちろんイメージングノイズ遮断特性の劣化とバーターの効果ですけれど。



 いずれにしろ、「変形」と「プリエコー」、どっちをどこまで気にするかは“お好みで”ってことですね。


 それにしても、PCMのリコンストラクションって「あちらを立てればこちらが立たず」でいろいろ大変ですねぇ…(苦笑)


メインメニューへ

テーマ : オーディオ
ジャンル : 趣味・実用

「サンプリング定理」のひみつ

16/01/04初稿

 (PCMデジタルオーディオにおける)サンプリング定理のリクツは一応納得したつもりです。
 でも、なかなかスッキリ腑に落ちるカンジにはならないですよね。きっと具体的にイメージできないからでしょう。

 そこで、PCMデジタルデータがどのようにDACチップでアナログ波形に「再構築=リコンストラクション」されるのか、サンプリング定理に基づいたシミュレーションによる“見える化”で追ってみたいと思います。
 CDフォーマットである44.1kHzを例にします。

 波形表示には≪Wavosaur x64 1.1.0.0≫を用いましたが、説明に適した波形を描くためデータはいろいろ弄っています。ファイル名などは無視してください。
 また、「サンプリング周波数44.1kHzでは実際には22.05kHzは記録再生できない」といった実事情は説明簡素化のため無視しています。


■1周期に数個のサンプルから連続波形を再現するプロセスを体験する

 たとえ1周期に2~3点ほどしかサンプルがなかったとしても、サンプリング定理によれば「完全に復元される」ハズです。
 その具体例を44.1kHzサンプリングにおける14.7Hzのサイン波で見てみたいと思います。44.1kHzの1/3の周波数ですので、1周期にちょうど3個のサンプルがあるPCMデータになっています。レベルはドンツキを避けるため-3dBにて。
 マイナスピークにサンプルポイントを合わせるため(極端な例にするため)、開始を30°ズラして≪WaveGene 1.50≫で生成したものです。

 以下にふたつの図を並べます。
 上図は、14.7kHz/-3dBサイン波を示すデジタルデータです。デジタルですので当然情報は“点”しかありません。
 が、サンプリング定理上「ナイキスト以上の周波数成分はない」という条件が必ず付きますので、その具体的イメージを添えたのが下図です。22.05kHz/0dBのサイン波=サンプリング周波数44.1kHzで表現できる最高の周波数の図となります。

14700Hzの点と220500サイン波

 DACチップは上図の離散サンプル間をつないで波形を復元します。「自然界に存在し得るなめらかな波として」なのは言うまでもありません。
 そのままだとどんな線でも引けてしまいますが、「下図以上に急峻な変化はできない」という条件が付くワケです。
 さらに、最大振幅が0dB以下という条件もあります。

 その条件で上図の点を線で結ぶとどうなるでしょう?


 どんなに工夫しても「1周期に3個のサンプルがある14.7kHzのサイン波」になっちゃうハズです。
 ピークもサンプル値に拘ってはいられません。プラス側はサンプル値としては最大-9dBしかないのに-3dBに頂点を持っていかざるを得ないですよね(TruePeak)。

14700Hzの点・サイン波重ね

 ということで、1周期に3個しかないサンプルからサイン波が再現できました。3サンプルポイントが時間軸上ズレている場合や1周期のサンプルが整数個ではない場合は、応用編としてイメージできると思います。
 そして、サイン波が復元できるということはいろんな波形が復元できるということです。
 なお、本例は人工の単独サイン波ですが、自然音の場合も、「AD変換する前にナイキスト以上の周波数はLPFでカット」がPCMの前提ですから、「22.05kHzサイン波以上に急峻な成分なし」という条件はやはり成立します。

 これが「サンプリング定理」によるリコンストラクションです。


■DACチップでは44.1kHzの離散データを如何に連続アナログ値に復元するか

 要するに、上で“脳内シミュレーション”したのと同じことがDACチップ内ではデジタル演算で行われているのです(正確に言えばDACチップ外のアナログポストフィルタも含めてですが)。

 PCMデジタルデータをサンプリング定理に基づいてアナログ値に戻す作業=リコンストラクションフィルタの前段(というか大半)を担うのが「オーバーサンプリングデジタルフィルタ(以下OSDFと略)」です。PCでやる時はアップサンプリングと呼ばれる動作です。
 これは、あるサンプルの周辺サンプルを参照することによって、あるべき中間サンプル値を算出していくものです。上で点を繋ぐ線を想像した時、きっと周りのサンプルを参照しましたよね。DACチップ内ではそれを同じことをデジタル回路がOSDFとしてやっているのです。参照する周辺サンプル数が多い(Tap数が多い)ほど再現性が高くなることもイメージできると思います。

 ということで、次に、DACチップ内でどのようにリコンストラクションが行われているか、PCのアップサンプリングによるシミュレーションで可視化してみます。

 例は上と同じサンプルレート44.1kHzの14.7kHzサイン波の復元です。
 1周期に3個しかない点(サンプル)から14.7kHzのサイン波が再現されるプロセス、となります。

・何もしない(NOS-DAC状態)
 ところで、3個しかないサンプルを何もしないでアナログ化するとどうなるでしょう?
 あるサンプル値から次のサンプル値まではデータがない状態であり、未来のサンプル値がどうなるかは判らないのですから、DACチップとしてはサンプル値が変化するまで同じ電圧(電流)値を出力キープするしかありません。
 これを「零次ホールド(Zero Order Hold)」といいます(*)。

*:http://ednjapan.com/edn/articles/0607/01/news010.html

 再現すべきサイン波と重なったところが上でも示したサンプルポイントです(1周期に3個)。

14700Hz-3dB:零次ホールド:サイン波重ね

 全然サイン波じゃないですよね(笑)。
 マジかよ~と思いますが、OSDFかけないと実際こうなります。
 OSDFじゃなかった時代は、DACチップからのこういう出力波形をアナログフィルタでリコンストラクションしてたってことですよね? 確かに音質よくするのは大変そうです。

・OSDF(一般的なDACスペックの8倍まで)
 OSDFを≪foobar2000 1.3.8≫のアップサンプリングでシミュレートしてみます。リサンプラには≪SoX Resamlper 0.8.3≫を用いました。
 「Phase response(位相応答)」パラメータを変えると結果は大きく変わりますが、本稿ではその事情は無視し、主旨説明のために解りやすい50%(linear)としています。左記を含め、デフォルト設定のままです。

 上図が2倍、中図が4倍、下図が8倍です。

14700Hz-3dB:x2x4x8:サイン波重ね

 8倍でだいぶサイン波っぽくなりましたね。オリジナルサンプルは(一番最初の図の通り)3個しかないのに大したものです(笑)。
 8倍でもまだカクカクしていますが、これは、ざっくり「8倍(44.1x8=352.8kHz)のナイキストである176.4kHz以上のイメージングノイズ」と言えます。ので、たとえDACチップからそのまま出力されても、アナログポストフィルタ(おおむね100kHz以上はカットされるハズ)でならされちゃう帯域ですから、ここまでやっとけば充分ってことだと思います。

 なお、上記はあくまでも“見える化”しただけであり、DACチップのOSDFでこれと同じようなリコンストラクションが出来ているという意味ではありません(できてないという意味でもありません)。

・OSDF後(ΔΣ変換)
 実際には、8倍されたのちΔΣ変換するためさらに16倍(128fs)や32倍(256fs)されます。ここではOSDFのような凝ったサンプル生成(オーバーサンプリング)は行いません(行えません。できるくらいならやってる(笑))。
 DACチップにおけるその処理がどんなものなのかは解っていません。ハードウェア資源を割いていないハズなので、零次ホールドか、やっててもリニア補間程度ではないかと思っているのですが…

 一方、PC処理の代表として≪foobar2000≫を調べてみたところ、DSD変換する際ひと仕事しているようです。零次ホールドではなく「Linear Interpolation(リニア補間)」、つまりサンプル間平均値を生成することでオーバーサンプルしているようです。波形編集ソフトでサンプル間を線で結んだようなデータにしているということですね。
 それを見える化してみます。以下は、上記8倍のデータをさらにLinear Interpolationで結んだものです。

14700Hz-3dB:x8のちリニア補完8倍

 ≪Sox Resampler≫で8倍したデータを同じく≪foobar2000≫のプラグイン≪MultiResamlper 1.1.0≫で「Linear Interpolation」して作りました。あくまで説明のための波形です。8倍OSDFからさらに16倍とか32倍になるワケですが、直線で結ぶだけですし、もはや最後のカクカクは無視できますから、リニア補間の倍率は気にしないでください(笑)。

 ピーク付近がやや角張っているようですが、全体的には充分なめらかに見えます。≪foobar2000≫でDSD変換する場合は、このようになったPCMを対象にしているということです(あくまで“説明のための図”におけるイメージですが)。
 ていうか、DACチップのOSDFが8倍だからとアップサンプリングを8倍で止める必要は実はないので、8倍以上に設定すれば上記よりさらになめらかになったPCMデータをDSD変換できるということになります。

 このあたりは≪foobar2000≫(*)によるDSD変換のメリットではないかと思えるのですが、上述の通りAK4490やPCM1795などのDACチップは8倍した後どのようにオーバーサンプリングして128fsや256fsにしているのか解らないのでなんとも言えないです。

*:正確には「そういう設定ができるPCシステム」です。


■ハイレゾデータはどう処理されるか

 本稿は44.1kHzデータについて記していますが、表題についてもカンタンに記しておこうと思います。
 ただし、本項はデータシートなどから個人的に推察したものです。ですので合ってる保証はありません(苦笑)。
 「ハイレゾ」と記していますが、パラメータとしてはハイサンプリングのみが対象です。

・AK4490(AKM社の主力)
 OSDFは倍率可変で出力レートを8fs(1fsは44.1または48kHz)に固定しているようです。96kHzが来たら4倍の384kHz(8fs)にしてΔΣブロックに渡すと理解しています。ΔΣブロックはそれを固定倍率の32倍でオーバーサンプリングして256fsを得ています。
 ハイレゾを入れてもΔΣブロックにおける「デジタルフィルタリングではないオーバーサンプリング処理」倍率は変わらないということです。

・PCM1795(TI社の主力)
 OSDFは8倍固定で出力レートが可変になります。96kHzが来たら8倍の784kHzにしてΔΣブロックに渡すと理解しています。そのかわりΔΣブロックの倍率は可変で、どんな周波数でも最終128fsにすることを推奨しているようです。つまり、44.1kHzソースの場合はOSDF8倍xΔΣ16倍で128fs、96kHzの場合はソースで2倍xOSDF8倍xΔΣ8倍=128fsだと推定しています。
 ハイレゾを入れるとOSDF処理結果のfsが上がり、その分ΔΣブロックにおける「デジタルフィルタリングではないオーバーサンプリング処理」倍率が下げられるということですね。ΔΣ部処理はOSDFより低精度でしょうから、それが下がった分の倍率は前段のデジタルフィルタ処理になるので、ハイサンプリングはDAC処理プロセスとしてもメリットありそうです。


メインメニューへ

テーマ : オーディオ
ジャンル : 趣味・実用

ERIへようこそ

Author:らかせ
 「最新記事」または「メインメニュー」からどうぞ

・ファイルへの直接リンク以外はリンクフリー(連絡不要)です
・一応、拍手にコメント(非公開)付けられるようにしてあります
・DB的に利用しており、過去記事もガシガシ書き換えています。特に「最新記事」は初稿から一週間くらいは直してることが多く、大幅に変わっちゃうことも。ご了承ください
・ということもありますし、記すまでもないですが無断転載(ファイル含む)はご遠慮ください
・引用の考え方については「007:諸事」をご参照ください
・アフィリエイトはAmazonのみです
・ハイパーリンクは当Blog記事のみです(054:節電記事のみ例外)

最新記事
カテゴリ
検索フォーム
FC2カウンター