ハズレゾ奇譚

17/08/11初稿

 珍しく(笑)CDではなく配信ハイレゾを買いました。
 「マジでハイレゾ」と判断したためです。
 ですが、ファイルを覗いてみたらいろんなこと考えさせられちゃいました…

 「CDより高くてディスクやブックレットなどの“実体”もないけど、ハイレゾ買うべきか否か(特に新譜)」は、やっぱり難しい問題ですねぇ。


■PCMかDSDか

 買ったのは寺井尚子「HOT JAZZ」です。

 出自情報はありませんでしたが、「CDのブックレットにずっと使用機材が掲載されている」「過去CDに酷いピーク潰れは見当たらない」「本作ではDSD2.8MHz(DSD64)配信もしてる(SACDでもリリースされてる)」ことなどから、音質にはこだわってるハズだと思って。

・変換元を買いたい
 このアルバムは複数のメディア・フォーマットで販売されています。

  ・配信:DSD64(2.8MHz),PCM2496
  ・ディスク:CD,SACD

 なので配信ハイレゾに限ってもDSD64かPCM2496か選ばねばなりませんが、個人的には「PCMかDSDか」ではなく、「変換元」の方を買いたいんですよね。
 どっちが元でしょう?
 一般的には「DSDは編集できないのでPCMで編集を行った後変換して生成している」ハズです。
 もし当作品が“一般的”ではなく「DSD一発録り」や「DSDマルチ録り」だったら絶対ウリにすると思いますが、それはありません。
 また、後付け情報ですが、本作品のCD(結局このあと購入)のブックレットには、2496のAD/DA機材はありますがDSDのそれはありません(SACDプレーヤはありますが…)。

 ので、PCM2496にしました。
 DSD64は30kHz以上はノイズですのであんまり魅力感じないワリにはPCM2496より高いということもあり。

 しかし…

・「ハイレゾノイズ」がある!?
 本稿、「リベルタンゴ2015(Lch)」を代表例として記します。

リベルタンゴ2496スペクトル

 20kHz以上にも倍音が出てますので「リアルハイレゾ」です(ヴァイオリンって判りやすいかも)。
 しかし、高域が徐々に減衰しておらず、ノイズがもりもりと盛り上がっていくではありませんか。

 それってDSD64の特徴です。なんと想定とは逆で「PCMはDSDからの変換」だったようです。

 PCMで編集した後DSD化して、それをまたPCM化してるということに。
 確かに以前からCDに「DSDロゴ」が付いているのですが、漠然と「アーカイブ用にDSD化してるのかな」「CDはDSDマスターから変換してるらしい」くらいに思ってました。でも、2496以上のPCMマスターはあるハズですから、てっきり配信2496はDSDと無関係だと。
 「とにかくDSDでマスター作る。CD用も配信用ハイレゾもPCM商品データはそこから変換する」ってポリシー?

 し、しまった…

 まあ、どんな商品でも何等かの変換は入ってるでしょうからあんまりこだわっても仕方ありませんが、「せっかくのハイレゾ」ですし、「変換元により近い方(*)も売ってるのに変換の方を買っちゃった」となると“ナンカクヤシイ”です。
 「DSD64より安かった」って納得しようかとも思ったのですが、やっぱり、どんな事情があるのか知りたくなり、結局配信DSD64もCDも入手するハメに(苦笑)。

*:「配信DSD64がそのまま変換元」かもしれませんが違うかもしれません。いくら考えても解らないのでそれは考えません。が、「少なくともPCM版よりは変換元に近い」とは考えています。

 以下、DSD64ファイルは≪AudioGate 2.3.3≫のゲイン設定デフォルト(DSD0dB=PCM0dB。DSD+dB領域は潰れる)でPCM2496のWAVに変換して扱っています。


■PCM版の質

 できれば“よりマスターに近い方が欲しい”ですが、変換は絶対ダメだと思っているワケではありません。
 しかし、そう納得できるのは変換においてもキチンと質を保っている場合です(当たり前ですけれど)。
 その点、この配信PCM2496、残念ながら私にとってはハズレでした。

 「周波数成分」としては20kHz以上に成分があるのでハイレゾではありますが、「波形」を見ると酷いピーク潰れを起こしているためです。

・DSD版のピーク潰れ
 先に、配信DSD64を見ておきます。

 ≪Audacity 2.1.0≫で「クリッピング表示」します。この機能では1サンプルでもフルビットだと赤くなりますが、差異比較目的としては問題ないでしょう。実際にどれくらい潰れているいるかは、もちろん拡大して確認しています。

ピーク潰れ:dsf

 なんかとってもイイカンジに見えます。
 途中と最後の方にクリッピングがありますが、拡大して確認すると酷いものではないですし、そもそもDSDにはMaxPeakという+dB領域が許容されています。後述します。

・PCM版のピーク潰れ
 次に、PCM版はどうでしょう。上が配信PCM2496、下がCDです。

ピーク潰れ

 激しくクリッピングしています。
 拡大してみると60サンプル以上の連続ドンツキも多数あり、「数サンプルクリップした箇所がちょっと多い」といったレベルではありません。「酷いピーク潰れがある」と言っていいでしょう。
 その実態をPCM2496(上)とDSD64(下)の比較で示します。

ピーク潰れ:WAV VS DSF

 どう見てもDSD64の方が好ましい…というか正常です。PCM2496では波形の機微が失われているのがよく解ると思います。

・DSD版はピーク潰れしていない
 ところで、DSDにはScarletBookで認められた「MaxPeak領域(PCM0~+3.1dBに相当する)」があり、そこに入ってもピーク潰れではありません。
 本稿で扱っているDSD64はゲイン設定0dBでPCM2496に変換したものですので、赤くなっているのは即潰れを示すものではなくMaxPeak領域に入ったことを意味するものです。
 -3.1dBでPCM化しての確認も行いましたが、DSDとしてのピーク潰れ(MaxPeakオーバー)はありませんでした。
 規格に準じた問題ない最大レベルになっているということです。


■意図なのかミスなのか

 PCM版のピーク潰れはかなり酷いと思います。一転、DSD64は好ましい波形になっています。
 激しく対照的なワケですが、この差は意図的に作られたのでしょうか。それともPCM版は何らかのミスで潰れちゃったのでしょうか?

・過去CDはどうだったか
 そのアタリを付けるため、過去CDのピーク潰れをチェックしてみます。
 「HOT JAZZ」はCD版でもかなりピーク潰れしていますが、過去CDもずっとそうなら“潰し”は意図的なのでしょうし、今回だけ特殊ならミスの可能性が高まるのではないかということで。

 まず、「音源商品種類の変遷」を明確にします。
 「ハイレゾを始めた」「DSDも加えた」といったラインナップの違い=制作プロセスの違いであり、ピーク潰れはプロセス違いと関係あるとの仮定からです。
 e-onkyoやmoraで調べた限りでは次のようです。解りやすくするため作品順にNoを付けました。

 「20:C'est La Vie」・・・ハイレゾ商品なし
 「21:Very cool」・・・PCM2496登場
 「22:HOT JAZZ」・・・PCM2496にDSD64も追加(SACDもあり)

 このうちNo.22は調査済みですので、No.20とNo.21について調べます。

・「20:C'est La Vie」~ハイレゾ商品ラインナップがないもの
 「20:C'est La Vie」だけでなく、より前の作品全般について共通の事情と言っていいと思いますが、100%確認はできませんので例外はあるかも知れません。ご了承ください。

(1)ピーク潰れ
 クリッピングが数か所あるtrackもありますが、そのドンツキは連続数サンプルで全体の音圧バランスから意図的に潰したと言われて納得するレベルであり、「ピーク潰れ」「波形変形」と声高に言いたてるべきものはありませんでした。
 一例として、当アルバム中一番潰れがある「Like In Fire(燃えつきるまで)」の波形を貼っておきます。

Like In Fire:ピーク潰れ

(2)スペクトル
 「高域にノイズ盛り上がり」などは見当たりません。同曲冒頭です。

Like In Fire:CD冒頭スペクトル

・「21:Very cool」~ハイレゾ商品(PCM2496)があるもの
 まずはCDを購入し、その中で一番ピーク潰れがあった「Tempus Fugit」の配信PCM2496も購入。
 この曲について調べます。

(1)ピーク潰れ
 上が配信PCM2496、下がCDです。

テンパス・フュージット:ピーク潰れ

 かなり潰れているように見えますが、拡大してみるとクリッピング表示から受けるイメージよりはマトモです。あまり密集はしておらず連続ドンツキも数サンプルに留まっているようで、個人的にはまあ許せる範囲でした。
 平均音量はCD:-14.87dB、2496:-14.84dB(«Sound Engine Free 5.02»にて)でほぼ同じですし、ピッチも同じに見えますので、波形はほとんど同じと言っていいと思います。

(2)スペクトル
 まずは配信PCM2496。

テンパス・フュージット:スペクトル

 やっぱりDSD64特有のノイズがありますね。「22:HOT JAZZ」と同じくDSD64からの変換だと思われます。

 次にCDのスペクトルを見てみます。ナイキストまで成分がありますので、高域のノイズ有無が分かる演奏開始直前です。

テンパス・フュージット:CD冒頭スペクトル02

 何故か高域にノイズ盛り上がりがあります。15kHzくらいから発生している状態は配信PCM2496とも異なっているので、DSDのシェイピングされたノイズそのものではなさそうです。
 これはひとつ前の「20:C'est La Vie」までは見られませんし、次作「22:HOT JAZZ」にもありませんから、挟まった本作だけ何か作り方が違うようです。

・商品ラインナップとピーク潰しとその意図
 状況をまとめると、

・ハイレゾ商品作り始めてからは過渡期なのか都度制作プロセスが変わっているように見える
・ハイレゾ商品がなくCDだけだった時代(「20:C'est La Vie」以前)は潰して(れて)いなかった
・ハイレゾ商品がPCM版だけだった時(「21:Very cool」)もほとんど潰して(れて)いなかった
・DSD版も準備したら(「22:HOT JAZZ」)どっさり潰した(れた)
・でもDSD版では潰して(れて)いない(ScarletBookで許可されているDSD0~+3.1dB領域にもほとんど入っていない)


ということになります。
 さて、そこに作為はあったのでしょうか…?

A.意図的だったとしたら
 “DSD版も作るとなったら”PCM版はDSD版と異なる「ピーク潰しマスタリング」したことになります。
 同じ楽曲(アルバム)なのにフォーマットが違うと潰し方が違う点がポイントです。「この楽曲(アルバム)はそういうマスタリングがよいと判断したから」ということにならないからです。

瀬戸:曲によっては「音が歪(ひず)んでいるのでは」と思う箇所がある場合もあるかもしれませんが、意図しない歪みがあったら製品検査の段階でNGとなるので出せないはずなんですよね。
出典:http://www.phileweb.com/interview/article/201704/27/451.html

 という記事がありましたが、本作もそうだとすると「PCM版だけ意図的に歪ませた」「しかもDSD版を併売する場合は」ってことになります。
 「敢えてDSDとPCMの音質差を演出した」ということに。

 もし「演出ではない。DSDでは潰さない方がよいマスタリング、PCMでは潰した方がよいマスタリングなのだ」などと言われても理解に苦しみます。DSDとPCMのフォーマット違いは再生動作の違いで音質差を生むこともありますが、それを「ソースのピーク潰し有無」で際立たせたり相殺したりできるハズがありませんので。
 同じPCMでも「16bit(96dB)しかなかったCDだけの時代は潰さなかったのに24bit(144dB)になったら潰した」って点とも矛盾しますし。

 いずれにしてもピーク潰しを厭わずやることではありません。「PCM版の音質を疎かにした」ということですよねぇ。

B.意図的でなかったとしたら
 「変換時のミス」ということになります。
 先のまとめが正しいとすると「ハイレゾ商品も作るため制作プロセスを変えたため」だと思いますが、ミスが見逃されたってことは「キチンと製品検査してない」ってことですよねぇ。


 もちろん真相はワカリマセン。どちらにしてもガッカリですけれど(苦笑)。


■潰れた(した)のは何故か

・ピッチが違う!?
 なんでこんなことになってるのか知りたくてDSDとPCMの波形差分採取など試みたのですが、何故か上手くいきません。
 妙な違和感を感じながら波形を見ていたら、「DSD版とPCM版で曲の長さが異なる」ことに気づきました。

 カット編集で冒頭を揃えても最後になるとズレている=つまりピッチが異なっているのです。
 ≪Audacity 2.1.0≫でその様子を示します。画像編集で冒頭と末尾を繋げたものです。
 DSD64(上),PCM2496(中),PCM1644(下)の順です。

ピッチズレ

 ふたつのPCM版の長さは同じです。
 「DSDからPCMに変換する際ピッチが変化した」、つまり単位時間あたりのサンプル数が増減したということになりますが、それはデジタル変換では起こりえません(考察は稿末)。
 ですので、「PCM版は、DSD64をアナログ再生(DA)・PCM録音(AD)して得た」と考えざるを得ません。
 そしてその際マスタークロックが同期していないDAとADだったということです。ざっくり290秒で6/1000秒ほどズレてますので約20ppm差です。すんごくクロック精度差っぽいですよねぇ。
 なお、他の曲もこの状態(PCM2496の方が速い)であることを確認しましたので、この曲の特殊事情ではありません。

#「何らかのDSD64マスターからデジタル変換でPCM版、アナログマスタリングでDSD64を生成」といった可能性もゼロではありませんが、DSD64再生をDSD64録音すると30kHz以上のノイズが重畳されちゃう気がしますが大丈夫なのでしょうか? など、考えてもキリがありませんので本稿ではシンプルに判断しておきます。

 ですので、潰れている理由は「マスタリングの際に音圧マシマシにした」以外に、「DSD再生をPCM録音する際のアナログ入力レベルオーバー」という可能性も考えられるのでは。

 なんでアナログ変換なのかはワカリマセン。アナログマスタリングなのでしょうか?

・デジタル変換なら設定ミスの可能性もある
 DSD→PCM変換はツールによってフルスケールの扱いが異なりますので、ちゃんと設定しないと激しくピークが潰れたりします(詳しくはMaxPeak考察記事参照)。


■ニセレゾじゃなくてハイレゾでもハズレゾかもしれない

 「HOT JAZZ」配信PCM2496は「ただのアップサンプリング」といった「ニセレゾ」ではありませんでしたが、個人的には「ハズレゾ」でした(苦笑)。
 一方、配信DSD64はアタリっぽいです。

 ということで、ハイレゾ商品についての“学び”を改めて。

(1)「ハイレゾの方がCDより良マスタリングされている可能性が高」くないかも知れない
 以前、ハイレゾを選ぶ理由として「CDより良マスタリングされている“可能性”が高い」を挙げましたが、あんまり高くないのかも知れません。

(2)「DSD版も作るくらいだから音質こだわってるハズ」とは言えない
 DSD版も売ってるような作品ではPCM版も高音質な印象受けますが、逆に注意した方がいいのかも知れません。

(3)ハイレゾ版がある場合はCD版は劣化してるかもしれない
 今回の例では、DSD64をラインナップするために“制作プロセスを変えたことでCD音源が劣化”したように見えます。

 さらに、今回の例ではありませんが、次のような事例もありました。

(4)波形異常の商品が流出している
 明らかに波形がおかしくなってる商品に遭遇したこともあります。指摘したら修正されましたけれど。
 デジタル演算エラーのようなカンジでグシャグシャになっており、実際「ジャッ」というノイズとして聞こえるものでした。検査(仕上がり確認)すれば当然判ったハズ。

 けっこう大きな品質問題もあったようです。

F.I.X.RECORDS様の下記音源に関して、DSDマスターをPCM(WAV/FLAC/ALAC/mp3/AAC)に変換した際に設定が適切ではないものが含まれていました。
http://ototoy.jp/feature/information_20150123

2014年10月24日よりe-onkyo music様で配信開始しておりました一部WAV音源にフォーマット変換エラーに由来する不備がございました。そこで、e-onkyo music様と協議の結果、同日に配信開始した作品の配信を停止いたしました。
検証が済み次第、配信再開いたします。また、既に同サイトにてご購入されたお客様には、e-onkyo music様より再ダウンロードの通知がございますので、誠に申し訳ございませんがしばらくお待ちいただきますようお願いいたします。
また、同様のフォーマットでの音源配信を行っておりますOTOTOY様にも検証の依頼をいたしました。

出典:http://fixrecords.com/20150123_2/

(5)こっそりアプコンしているものもある
 明示せずにアップコンバートな商品もありました。


■まとめ:ハイレゾ購入前の“心の準備”

 「こんなハズじゃなかった…」と悲しい思いをしないために、以下覚えておこうと思います(苦笑)。

・ハイサンプリングは「有効な成分が入ってればめっけもの」くらいに考えておく
・ハイビットの効果は最近の作品だったら期待できるかも(ホントにハイビットかの確認はできないけど)
・ピーク潰しを含むマスタリング品質がCDよりいいかどうかは博打と心得る
・DSD64は「30kHz以上はノイズ」と承知しておく
・特にDSD版がある場合はPCM版は変換である可能性を覚悟する
・もちろんDSD版もPCM版からの変換である可能性を覚悟する
・DSD版とPCM版は、どちらかがアタリでどちらかがハズレの可能性がある

 ぶっちゃけ、「CDより高音質なハズだから」の“ハズ”は通用しないということですね。残念ながら。
 やっぱり、キチンと出自を示してもらいたいです。

 CDよりプレミアムな値段付けるなら。


■エトセトラ

・デジタル変換ならピッチ変化は発生しない
 1秒間に2,822,400個のサンプル(1bit)を96,000個のサンプル(24bit)に置き換える処理でサンプル数が変化する可能性は思いつきません。リアルタイム変換じゃありませんから欠損やダブリはあり得ませんし。
 ですが念のため、以下の実験してみました。

 ≪AudioGate 2.3.3≫で「300secの4kHzサイン波2496→DSD64→2496」変換し、変換前後の2496を比較

 ピッチは変化していませんでした。
 微妙にピッチ変化していたら反転mixすると共鳴周波数が出てくると思いますが、それもありませんでした。
 さらに念のため≪TASCAM Hi-Res Editor 1.0.1≫でも同じことをしてみましたが同結果でした。

 なお、「DSDディスクやSACDを試作→対応プレーヤで再生→変換されたPCM出力を記録」といった方法でも、デジタルのままならデータレートが変わることはありません。ヘンなプレーヤでない限り。
 SRCかかってるという可能性も理由が想定できないので無視します。

・LPF
 どれもこれもナイキスト以上の成分をカットするLPFをかけてるように見えないのですが、そういうものなのでしょうか?

・変換元はどっちだ
 試聴音源は商品そのもののデータではありませんから、購入前に試聴で「どっちが変換元か」を判別することはできません。
 PCMとDSD両方配信する場合はどっちがマスターだか(より近いか)明示して欲しいなぁ(PCMでの編集終了後に分岐した場合は「どっちもマスター」かな?)。
 特にDSDの出自はより明確化して欲しいですね。クリプトンさんの提言には全面的に賛成です。

 最後のこだわりは、上記のような制作プロセスを公開し、クオリティーに対する信頼性を担保することだ。DSD配信については、以前から業界内でファイルの制作過程が不明瞭という点が指摘されていた。樋泉氏は、「DSDで録音し、そのまま配信できるならベストだが、実際には“ライブ一発録り”などを除いて商品としては皆無に等しいはず。編集が事実上できないからだ」と指摘。ユーザーから見て、DSDフォーマットが持つ本来の特徴を活かしているか判断しにくい販売方法は問題だという。

 「例えば192kHz/24bitのPCM音源からDSDに変換することは難しいことではないし、CDの44.1kHz/16bitをDSDに変換することは個人でも容易に行える。しかし、商品となれば話は別。どのようなプロセスで制作したかを明らかにするべきだ」(同氏)。

出典:http://www.itmedia.co.jp/lifestyle/articles/1411/27/news112.html

 「PCMは変換です」とか記載するとあらぬ誤解されそうなので難しいでしょうけれど。無理かなぁ。「芸能山城組 恐山/銅之剣舞」とかは公開(*)してますよね。

*:http://ascii.jp/elem/000/000/991/991223/index-4.html

・品質管理
配信によるハイレゾ音源購入は、手に取れるパッケージ商品ではないため、責任の所在が希薄になる危険性を秘めています。例えばCDやDVDといった実際に“盤”として存在する音楽ならば、たった1ヵ所にノイズが混入するだけで最悪の場合は商品の全回収といった事故にまで発展する場合があるでしょう。配信版の音楽ならば、再ダウンロードという処置で解決できますし、誠意の無い制作会社ならば事後に音源を差し替えて「作品にはノイズが入っていませんでした」とミスを隠蔽する可能性すら考えられなくもありません。従来の“盤”としての音楽制作では何階層もあった音質やノイズに対するチェック機構が、音楽配信時代になり制作予算削減とともに失われていく傾向が見受けられます。

この配信販売によって生じた制作側の甘えは、ハイレゾ音源の音質にも影響を与えます。ハイレゾ音源の制作は、いったい誰が行っているのでしょう?音楽に興味はないけれどパソコンの操作には長けているスタッフが、アップサンプリング・ソフトで192kHz/24bitやDSDに変換した音楽データ。実際には絶対に存在してほしくありませんが、こういった過程で作られた音源でもハイレゾ作品として販売することは不可能ではありません。商品の姿を実際に見ることができない音楽、そして顔が見えない配信販売であるがゆえに、制作側の真摯な姿勢が要求されるのです。

出典:http://www.e-onkyo.com/news/57/


メインメニューへ

テーマ : オーディオ
ジャンル : 趣味・実用

ハイレゾ解体

17/06/12初稿

 本稿は対象音源追加を機に「ハイレゾ探訪」記事から独立させたものです。

 上記記事でハイレゾとはなんぞやについて一通り考えましたので、いよいよ実践編(購入編)です。
 ただし、あくまでも「フォーマットと出自と実際の周波数成分や波形」のハナシです。だから音質がどうかとは直接関係ありません。


■2496:中山美穂「COLLECTION Ⅳ」

 まずは「既存音源のハイレゾ化商品」の実例を少々。

   ←当然ハイレゾではなくCDですが記事に彩り欲しかったので(笑)

 これを選んだ理由は以下の通りです。


(1)\2,000(8%税込み)という価格は“リマスター商品”として良心的

(2)出自が詳しく明示されており好感が持てる

今作はキングレコードが保有するアナログ・マスターテープからデジタル化した音源となります。キング関口台スタジオのエンジニア、安藤明氏に訊く「中山美穂 COLLECTIONシリーズ ハイレゾ配信」近日公開予定!

*Tr.6、8は44.1kHz/16bitで収録され、96kHz/24bitでマスタリングされています。
*トラック9は48kHz/16bitで収録され、96kHz/24bitでマスタリングされています。

出典:http://www.e-onkyo.com/music/album/nopa00518/

安藤明(以下 安藤):1/4インチアナログマスター、1/2インチアナログマスター、DAT(一時期デジタルということで流行った)など、すべてオリジナル・マスターを使用しました。

-具体的にどういった流れでマスタリングをされましたか?

安藤:マスターをアナログで出力 →(DOLBY)→ ラインアンプ → ADコンバータ → Digital Audio Workstationという流れです。極力、イコライザーやコンプレッサーは使用せず、マスターの音を限りなくピュアにハイレゾ化することに注力しました。また、それぞれのマスターごとに接続ケーブルや電源ケーブルを厳選することにより、より魅力的な音を目指しています。

出典:http://www.e-onkyo.com/feature/42

(3)出自によると、以下3種のマスターによる違いを比べることができる
  (ディスクじゃないですけど便宜的にtrackと呼称します)
   ・track01~05,07・・・アナログマスター
   ・track06,08・・・1644マスター
   ・track09・・・1648マスター


 CDとしては2006年2月発売のようです。1995~1999のシングルをリリース順に収録とのこと。
 潔く2496WAVで購入。

 ということで、マスター違いごとに中身を見てみたいと思います。

・アナログマスター(track01~05)
 さて、「アナログマスター」にはどんな音(特に高域)が入っているのでしょうか。一番古いtrack01の例です。

COLLECTIONⅣ01

 20kHzくらいで一旦周波数成分が減少します。
 そしてそこから上、新たな2496AD変換のナイキストである20~48kHz領域は、変動はしますが倍音が立ったりすることはありません。ので、有意な音楽成分ではないでしょう。正確には解りませんが、アナログテープのヒスノイズ成分が有効周波数帯域につられて変動しているのでしょうか。

 CDナイキストですっぱり切れておらず(24bitの最低値まで落ちていない)そこから48kHzまでの成分が変動するということは、ローレゾデータをアップサンプリングしたものでないことは確かです。キャプチャにはありませんが、24kHz以上にパルス性ノイズが見られることからも「アナログ再生をハイレゾ録音した」という出自情報に矛盾ありません。
 LPFは40kHzあたりからゆったりかけているようですね。

 古いといっても1995年ですので、残っているマスターはアナログでも制作プロセスにはデジタル入っていると思います。
 有意な周波数成分が20kHzくらいまでしかないのはそのためでしょう。

・アナログマスター(track07)
 このtrackだけCDナイキストでの明らかな減衰は見られず48kHzまで連動していましたので、ハイサンプリング(またはアナログ?)制作っぽいです。ただし、20kHzくらいに段差が見えることもあることから、CD・DAT級サンプリングレートの音声トラックもミキシングされているようです。

COLLECTIONⅣ07

 というスペクトル違いが判るということは、「アナログマスターテープは、“実力値的能力”としては96kHzサンプリングクラスの周波数は記録できる」ということかと思います。ただし、どこまで品質(音質)保っているかは別ですし、アナログマスターにも性能違いはあるでしょう。

 なお、track07を聴いたカンジ「お~ さすがアナログマスターのネイティブハイレゾ! 他のtrackとは全く違う!」とは思いませんでした(笑)。

・1644マスター(track06,08)
 つまりCD音源ではないかと思います。
 が、CDナイキストで減衰はしますが24bit最低値までは落ちていないことから、アップサンプリングではなくDA変換再生をAD変換したもののようです。これも出自情報に偽りナシですね。
 アナログマスターと異なりCDナイキスト~AD変換ナイキスト領域はおとなしいままです。つまり、当該領域は楽曲成分と無関係=再生機器のフロアノイズと思われます。
 それでもアップサンプリングではなく当該領域のデータが(ノイズでも)在るということはハイレゾのひとつの効能になると思ってます。

COLLECTIONⅣ06

・1648マスター(track09)
 つまりDAT音源ではないかと思います。
 事情は1644マスターに準じます。若干オリジナルナイキストが高めですかね。

COLLECTIONⅣ09

 何故か44.1kHzのパルスノイズがあるのはご愛敬?(笑)

・総評
 出自が明確に開示されており、実際偽りなしでしたのでとてもキモチいいです。

 アナログマスターの実力については、少なくとも、CDを超える高域が入っているいう意味においては「可能性がある」が、「サイコーとは限らない」と言えるでしょう。

 音圧は、全体的に高め(*)でしたが、ざっと見た限りピーク潰れ(データ値としてだけでなく波形としても)はないようです。track03,04だけ連続2サンプル以下のクリップがありましたが問題にすべきものではないでしょう。
 track08だけが異様にレベル低いです。何故? とも思いますが、元音源そのままだとすると逆に好ましいとも思います。

*:CDと比較して同じくらいのもの、2496の方が高いもの、など混在しているようですが、CD音源も初出や再録などいろいろなバージョンがあると思いますので総論はありません。

・比較試聴
 「ハイレゾでリマスター」するとどれくらい違うのか、CD(ただしシングルではなくアルバム版)でも持っている曲とざっくり音質比較してみます。以下のシステムです。

 ハード:X79システム→UD-503→MDR-Z7(アクティブGND)
 ソフト:≪foobar2000≫でx2x2x2x2→DSD256(TypeD FP64)

 ハイレゾの方が若干レンジ感が広くヴォーカルが生々しくなるような気はします。が、そのつもりで聴き比べればそうかな、という程度かと思います。少なくとも「ハイレゾすげえぇぇぇ!」ってカンジではないですね。

 なお、DACユニットとしてまだUDA-1を使っていた時にも同じ比較したことがあります。

 ハード:X79システム→UDA-1→DSP-Z7→HD700
 ソフト:≪foobar2000≫でx2x4→DSD256(TypeD FP32)

 いくつかの短いフレーズを交互に再生して比較してみましたが、ハイレゾは「CDより若干空間が広めなような気がするかも?」程度で、「明らかに、圧倒的に、いい!」とは思いませんでした。「リマスターだから音質違うのはアタリマエ」のレベルかと。
 確かな記憶ではありませんが、UD-503システムの方が違いを感じるような気はします。

・DSD変換試聴のワケ
 ところで、ネイティブ再生ではなくPCM→DSD変換再生にしたのは、「再生ハードウェア動作の差(影響)を極力小さくするため」です。
 どちらもリサンプラはResampler-Vを使っていますが、その1段目のx2は44.1kHzと48kHz以外はスルーするように設定していますので、CD音源と2496はプレーヤの設定を変えず連続再生しても「x2するかしないかの差」だけになります。一方、DAC側はDSD256ストリームに対する「アナログLPF」としてのみ動いています。
 よって、再生システム動作の違いは最低限の「PC側でのx2処理有無だけ」になっており(*)、それはX79システムにとっては軽微な負荷差でしょうからつまり再生処理の差はほぼ隠蔽でき、「音源の差」だけに注目できるのではないかと。
 ただし、UD-503のDSDは44.1kHz系しか受け付けないので2段目出力で176.4kHzに揃えています。その点では2496は若干不利かも知れません。UDA-1は48kHz系DSDも通りましたのでこの限りではありません。

*:DSD変換再生ではなくPCMデータのままネイティブに再生した場合は、DACユニットの最大処理能力を192kHzで100%とすると44.1kHzは約23%&96kHzは50%の負荷となり、微少な差とは言えないでしょう。


■K2HD:小泉今日子「あなたに会えてよかった」

   ←シングルCDです

 よく店頭試聴に使われていることもあり、表題技術がどんなものか確認するため買ってみました。

・スペクトル
 以下がそのスペクトル。一応、「補間生成された領域」が目立ったところをキャプチャしたものです。

K2HD.png

 確かに元ナイキスト以上の領域に成分はありますが、それがどれだけ有意なもので、聴いて有効なのかはなんとも言えません。

・波形
 音圧・音量についても一応CD版(シングルではなくアルバム版)との比較を載せておきます(上がCD。Lch)。

CD VS K2HD

 どちらもフルビットにドンツキしているところはありません。拡大して追ってみても、波形として潰れてるところもなさそうでした。
 クリップはしていませんが、イマドキの音源らしくK2HD版の方が音圧高く変更されてるようです。
 音量も大きくなってますね。≪SoundEngine Free 5.02≫によると、CD版とK2HD版はそれぞれ最大音量-1.00dB/-0.40dB、平均音量-14.83dB/-12.03dBとなりました。
 ハイサンプリングにするほどTruePeak防止のためのマージンは減らせますのでそれを削ったカンジですかね。
 フルビットよりやや低いところで頭が揃ってますので、最大値をそのように設定してマスタリングしたのでしょう。最近はクリッピングもよく話題になりますから、音圧上げても≪Audacity≫で赤くならないようにしとかないとね(笑)。

・比較試聴
 ざっくり比較試聴してみると、K2HD版の方が空間の広がり感というか楽器やヴォーカルの明瞭感で好ましい気はします。
 「すげ~イイ! K2HD最高!!」ってことはありませんが、比較すればCD版よりいいと思えます。個人的には、ですが。
 ただ、\540(8%税込み)というコストパフォーマンスは…どうでしょうね?(苦笑)

 なお、CD音源はアルバム版なので、シングル版から音量ノーマライズなどの加工されてるかも知れません。


■2496:Kalafina 「far on the Water」

 本項17/06/12追記。

    ←もちろんCDです

 本作は最初からハイレゾ商品を出す想定で作られたハズの新作ですので、本項は「既存音源のハイレゾ化」という観点ではありません。
 ネット上に「Kalafinaは2448制作で2496商品はアップコンバート(高域補間生成)ではないか」という話があったので、それを調べてみようと思いまして。

 どの曲も概ね同傾向ですので、代表として「heavenly blue」を見てみます。全編音量大きめという意味もあり。

・スペクトル
 確かに48kHzまで周波数成分があり音楽とリンクして変動しますので、高い方もランダムなノイズではないようです。
 しかし、≪WaveSpectra≫再生でその動きをしばらく眺めていると、“24kHzを中心とした左右対称”になっているように見えてきます。

heavenly blue合成02

 静止画でも解りやすくするためペイントソフトで24~48kHzを左右反転して24kHz以下に貼り付けました。

 ぶっちゃけ、ネイティブな24kHz以上の成分ではこうなりません。
 念のためですが倍音成分はナイキストで対称にはなりません。
 24kHzまでのソースが混在している場合はそこで“段差”になると思いますがそうも見えません。

 よって、元ナイキストは24kHzだと思われます。
 では24kHz以上の正体は何でしょう?

 アップサンプリングではサンプルは増えますがナイキスト以上の高域は増えません。
 ナイキストで折り返したように発生する成分は「イメージングノイズ」の特徴です。デジタルドメインでイメージングノイズをシミュレーションするため「単純間足し」してみたことがありますが、ナイキストを中心にクッキリ左右対称なスペクトルになります。が、本作はそこまで明確に対称になっているワケではありません(当たり前ですが)。

 元は2448だとするとサンプル間に1個サンプルが増えていることになりますが、それは「有意な倍音成分ではなく」「イメージングノイズを抑制するものでもない」し「同じサンプルの繰り返しでもない」のです。
 つまり、「ネイティブ」ではなく「アップサンプリング」でもなく、当然ながら「単純間足し」でもないということです。

 ということで「アップコンバート」だと思います。

#有意な2496ソースとアプコンソースがミックスされてる可能性も絶対ないとは言えませんが、もしそうでもアプコンと呼んでいいでしょう。

 ただ、イメージングノイズ成分がここまで見えるアップコンバートというのも疑問ではあります。K2HDではこんなふうには見えませんでした。「アップコンバータがそういう仕様(ていうか性能がイマイチ?)」または「ナイキストで明確に減衰させないため敢えてそのように設定している」ため?
 前者なら可愛げもありますけれど、後者だと「アプコンであることを隠すため」かも知れず、だとするとちょっと姑息ですね。

 17/07/29追記:コメントいただきました(ありがとうございます)ので、この曲をリニア補間したらどうなるか試してみました。
 同曲をResamlperーV(SoX)の一番キツイStopband/Passband設定で2448化し、それをMultiResamlperでLiner補間して2496に戻したスペクトルを以下に示します。SB=PBにはできませんので、元ナイキストで谷ができちゃうのはやむなしです。

heavenly blue 2448→Liner2496

 単純間足しと同じく、高域のエネルギーは結構残ったままワリとクッキリ反転するようですね。
 なお、「平均値を挟んでいるようには見えない」ことは先に波形拡大して確認していますが、本稿では、フィルタ演算ではないサンプル追加手法は説明用「単純間足し」以外は無視しています。商品としてまずありえないとの判断からです。

・高域成分を除去して聴く
 いずれにしても私には「イメージングノイズを含む好ましくない高域成分」だと思えます。実際、むわっとした圧迫感を感じて聴いていて気持ち良くありません。アルバム全曲聴くとなんだか疲れちゃいます。
 あるDSD64(30kHz以上にDSDノイズ満載)ファイルと同じような違和感です。
 そこで、「24kHz以上は低品位な補間成分=ハイレゾノイズ」と仮定し、LPFでカットして聴いてみます。

 DSD64の時はカットオフ30kHzのリアルタイムLPFをDSD再生でどう実現するかちょっと考えましたが、今回はリサンプラで96kHz→48kHzにダウンサンプリングするだけです。もともとResampler-V(SoX)の多段構成(x2x2x2x2x2)で32倍まで上げていますから、その前にひとつ追加するだけ。X79システムにとっては大した負荷増ではありません。
 PassBandはお好みですがStopBandは目的からして100%に。

 やってみると、2448化した方がいいです。
 音質的にも問題ないと思います。ていうか、聴き疲れどころかローテーションするくらいキモチよくなりました。
 もちろん、そういうつもりでやってますからプラシーボかも知れませんけれど(笑)。
 まあ、「高域がアヤシイ」「なんか圧迫感」みたいな時はこういう聴き方もあるのでは、ということで。

・波形
 さて、波形的にはどうでしょう? ピークは潰れてないでしょうか。

heavenly blue波形

 これだけ見ると「海苔」に見えるかも知れませんが、そもそも全編ずっとハイテンションな曲ですから無理に音圧上げた結果ではないのではと思います。
 「クリッピングを表示」にしていますが引っかかっていませんので、フルビットになっているサンプルはありません。
 拡大して波形をみても潰れてはいないようです。音量大きなところでも以下のようなカンジになっています。

heavenly blue波形2

 音圧に関しては良心的ではないでしょうか。

・総評
 以上、「素性はいいけど、何故か低品位(?)なアップコンバートで2496化された商品」みたいです。
 個人的にはそう判断しましたが、間違ってたら申し訳ありません。

 2448制作なら堂々と2448で出せばいいのにと思います。個人的にはハイビットだけでも有効だと思うんですけれど。
 有効だと思ってるならアプコンしたって明示して欲しいですし。

 でも、マーケティング上難しいんでしょうね。「CDを超える周波数ガ~」って喧伝してますから48kHzじゃハイレゾ扱いされないのでしょう。といって、ニセレゾ扱いされることが多いようなのでアップコンバートも言い出しにくいのでしょう。いわんや高域成分が無いことがハッキリ分かってしまうアップサンプリングをや。
 「ナイショでアプコン」の方が印象悪いんですけどね。
 もし「意図したアプコンではなく2496化するマスタリング処理の一環」とか言われても、それは詭弁です。

 ダウンサンプリングすれば“24bitの恩恵があるような気がする”音で聴けますので一応許容しますけど… ていうかアプコンの可能性も覚悟して買ってますからね。想定してなかったら激怒したかも~(苦笑)。


■24192:Eric Clapton 「Motherless Children」

 本項17/06/12追記。

 192kHzサンプリングのハイレゾ商品とはどんなものかと1曲だけ買ってみたものです。

・スペクトル
 一般的な96kHzの2倍のサンプルレートにメリットはあるのでしょうか?

MotherlessChildrenスペクトル

 25kHzくらいまではよく動きますので有効成分でしょう。その後も30kHzくらいまでは動いているように見えます。
 さらにそこから96kHzまである高域は全く演奏にシンクロせずこの“カタチ”を保ったままぞわぞわします。DSD特有ノイズとも似ていませんので、おそらく「AD変換前のアナログノイズの集合体」ではないかと思います。

 CDやDAT音源からのアップサンプリングでないですね。20kHz以上に3か所高周波ノイズもありますし(苦笑)。
 この商品の出自は定かではありませんが、もともと古い曲(1974)ですので、良質なアナログマスターからのデジタル化だとしたらこんなカンジなのかなと。

 192kHzである意味はよくワカリマセン(本作に限りませんけれど)。
 確かにAD変換時点で高サンプリングレートであることに意味はあるとは思ってはいますけれど、マジでそれくらいしか思いつかない(苦笑)。
 やっぱり「アナログの風味を残すため」ですかね。

・波形
 一方、波形の方はどうでしょう。
 以下は「クリッピングを表示」結果ですので1サンプルでも赤くなっちゃいますが、拡大して確認すると多数潰れています。

MotherlessChildren波形

 潰れの代表例を示しておきます。

MotherlessChildren潰れ

 同じ潰れ方でも192kHzサンプリングですからサンプル数はCD音源の約4倍になることは考慮しなくてはなりませんが、波形として見事に潰れてますよね。
 とりたてて音圧マシマシしてるようにも見えませんので、単純に、「マスタリング時ピークを潰しちゃいけないという意識がなかった」ように見えます。
 結構大きな高周波ノイズ(*)が3か所もあるところとか、制作環境大丈夫かとも思っちゃいます。

*:約28.7,54.0,86.5kHz。(音としては)かなりの高周波ですしレベルもそこそこ高いですから、オリジナル音源にあるものではないでしょう。


 192kHzであるメリットは特になさそうですしピークは潰れてますし、しかも\607(8%税込み)もしますし、調査目的じゃなかったらこれも残念感ハンパなかったでしょう。

 192kHzだからお高め?


■「ピーク潰し」の何が問題か

 私は「ピーク潰しは原則やってはいけない」し「音の表現手段にはならない」と思っています。
 その理由をちょっと説明します。

・サンプリング定理違反
 まずは、そもそもPCMデータとして間違っているためです。「天井にドンツキしててっぺんが切り取られて真っ平になったデータ」が示す音声波形は、自然界には存在し得ません。
 切り取られた急峻な変化や平らになった部分のDC成分はサンプリング定理によるリコンストラクションで再現できないものです。例えDACがそういうアナログ信号を生成できたとしても、スピーカやヘッドホンはそのように振動できません。

 つまり音質以前に「PCMオーディオの基本原理に反している」ということです。「ナイキスト以上の周波数成分があってはならない」というPCMの大原則を破ってるのと同レベルでダメだと思うのですが。たとえ潰れているのがフルビットでなくてもそれは変わりません。

 特に「高音質」を謳う(ウリにしてますよね?)ハイレゾ商品においては、ハイサンプリング領域に周波数成分が有るか無いかより重要だと思っています。
 上述した通りハイサンプリング領域が気に入らない場合はなんとかなりますが、波形が潰れちゃってるともうどうにもなりませんし。

 なお、DSDでも「自然界に存在しない音(*)」である点でNGなのは自明と思います。

*:「自然界には存在しない」とは、電子音という意味ではなく、空気や鼓膜がそのように振動できないという意味です。

・TruePeak無視
 PCMには「TruePeak」という現象があり、リコンストラクションするとピークが上昇します。そのため、最大値を若干低めにマスタリングしないと再生時にピーク潰れすることになります。
 データの段階でフルビットになってるのは論外ということです。

・ピーク潰しは音楽表現ではない
 ピーク潰れは、音声波形としてみると音楽の情報が喪失しているということです。再生音は歪んだりノイズになったりします。
 エレキギターなど、歪みが音楽である場合もあります。しかし、データ値をクリップさせて再生音を歪ませる(というか破綻させる)意味は全くありません。歪みを表現するためには歪んだ波形を音声データにすればよいだけです(この場合の歪は立派に自然界に存在しえる音です)。念のため(笑)。

 そもそも、クリップさせてピークを潰したデータの再生音がどう歪むかは再生環境に依存するのですから、制作側が想定できるものではありませんし。

 でも、実際にはわざとクリップさせることがあるらしいですね。

柏谷:クリップのような音になっているとすれば、それはあえて、わざとそのように作っていますね。音圧が強めなアプローチでミックスされた曲は、その方向でマスタリングをしますから。
出典:http://www.phileweb.com/interview/article/201704/27/451.html

 音楽制作サイドの方々は、「ピーク潰すと音声情報が欠落し音声データとして破綻する(サンプリング定理に違反する)」ことに疑問を持たれていないようです。
 そして、デジタルのピークをオーバーすることやフラットなDC成分による「再生過程での破綻」は「音楽としての歪み」じゃないことを理解されていないようです。理解しかねます。

・「ピーク潰しマスタリング」は絶対ダメなワケではない
 ピーク潰しは原則として許容できませんが、「ピークを潰さないためには楽曲全体の音量はどれだけ小さくなっても仕方ない」とも言えないと思います。ダイナミックレンジはなるべく使い切った方がいいワケですから(*)。
 そのため、「楽曲の“ほんの一瞬だけ”突出したピークがある」ような場合、敢えてそこをクリップさせても全体のレベルを上げた方が総合的によいと判断したマスタリングもあり得るでしょう。

*:DACのオーバーサンプリングデジタルフィルタでピークが上がる“TruePeak”も絡んで難しい問題ですけれど、方向性として。

 と言ってもあくまでも“ほんの一瞬だけ”です。それも、ちゃんと意識して(理解して)目的をもってデメリットよりメリットが大きいと判断してやってる場合に限ります。
 目的と志の問題ですね。

・24bitと16bit
 16bitだと微細音の再現性に難がありますが、24bitなら144dBもありますから小さい音もキチンとデジタル表現できるので、ピークを潰してまでコンプレッションする必要はないでしょう。個人的にはハイビットフォーマットでクリップしてる(させてる)ってヘンだと思っています。

#念のためですが、「コンプ=ピーク潰れ」ではありません。「ピークを潰してまで」というところがミソで、コンプレッションを全否定しているワケではありません。

 もちろん、そうすると再生できるシステムや環境が必要になりますが、、小さい音も漏らさず聴きたいなら用意するのがスジだと思います。こだわらないなら聴こえないままでいいワケですし。ていうかハイレゾ(ハイビット)でなくてもいいワケですし。
 ハイレゾソース側で「ポータブルやカーステで聴くことを優先したマスタリング」は矛盾です。
 「高音質」を謳うなら、ですけれど(謳ってますよね?)。

 ていうか本来ならCDでもカンベンして欲しいですけど。「周りがうるさい環境で使うので小さな音が聞こえない」「そこまで性能ない」といった再生機器側の事情は再生機器側で対応すべきものですから。例えば再生時にコンプレッションするとか。


■エイリアシングノイズ除去

 サンプリング定理上2496なら48kHz、24192なら96kHz以上の成分はあってはなりません。
 しかし、KalafinaとClaptonはそれをカットするLPFをかけてるように見えません。
 Passband=Stopbandなフィルタリングは無理なのでどうしてもナイキスト直前でLPF減衰領域ができてしまうハズですが、それが見えないことからの判断です。せっかくのハイサンプリングですから急峻な特性にする必要もないでしょうし。
 実際、中山美穂と小泉今日子の2496には減衰領域がありますし。 

 「ハイサンプリングならエイリアシングノイズはもはや問題にならない」と判断してLPFかけずノイズを許容する場合もあるってことでしょうか。
 でも、ナイキストまでフルに成分がある場合、通常のDACチップのStopbandは100%より大きいですから、再生時にイメージングノイズが漏れ出てしまいますけど、それも許容するってことですかね。


■おまけ

・FLAC
 WAV版を持っていたある曲のFLAC版も入手して≪foobar2000≫のConvert機能でWAV化、WAVファイルコンペア(≪音くらべ3.00β1≫にて)したところ一致しましたので、本稿ではFLACかWAVかは無視し特に注記していません。
 FLACファイルはWAV変換して扱っています。

・ダウンローダ
 配信音源を購入する際のDLはブラウザの機能を使うので、1ファイルずつ選択することになります。流石にメンドクサイのでe-onkyoのダウンローダを使ってみました。
 2曲同時に落としてました。速度表示は70~85Mbpsくらい。ファイルサイズと秒数から換算する実測値と同等でした(日曜午前中、100Mbps契約のフレッツ光にて)。
 17/03/20追記:祝日の17:00ごろ。20~30Mbpsくらいしか出ませんでした。


メインメニューへ

テーマ : オーディオ
ジャンル : 趣味・実用

デジタルフィルタはサンプリング定理をいかほどに具現しているか

16/05/04初稿

 PCMオーディオはサンプリング定理に基づいて音楽データを製作・再生しています。
 定理上は“ある種の可逆圧縮”とも言える仕組みで、「PCMデータを製作(離散化して圧縮)」→「リコンストラクションフィルタで復元して再生」するワケですが、フィルタによる“リアルサンプル”への復元精度はどれほどなのでしょうか。

 よく「ハイレゾのメリットは20kHz以上の成分があることではなく20kHz以下の波形再現性を上げるもの」という説明がありますが、そもそも定理上は「ナイキストの2倍より高い周期でサンプリングすれば“完全に再現可能”=リコンストラクションで復元可能」なのですから、20kHz以下にリアルサンプルを増やす意味はないハズです。
 ですから、説明は“現実的には定理との乖離は大きく、「リコンストラクションでの復元サンプル」と「リアルサンプル」との誤差は音質上無視できないほど大きい=だからハイサンプリングに意味がある”と言ってることになります。

 本当かどうか確かめてみたくなりました。


 Over Sampling Digital FilterはOSDFと略します。


■準備

 ところで、“原音”はそもそもAD段階でLPFかかっていますし、CDなどでは製作最終段階でダウンサンプリング(ビット深度縮小)されているのが一般的でしょう。
 ですので、「製作段階でCDフォーマットにダウンしたデータから、ダウン前のデータを再生側処理でどこまで復元できるか」を見ることになります。

 製作時にどのような作業されているのかは一定ではないでしょうし特定もできませんので、「2496で作成され1644(CD)にダウンサンプリングされている」と仮定します。

 再生装置では、そのデータを24bitや32bitの精度でリコンストラクション(一般的にはDACチップ内蔵の8倍OSDF(*))するワケです。

*:正確にはOSDFはプリフィルタで、アナログのポストフィルタも含めて“リコンストラクションフィルタ”です。

 DACチップがOSDFしたデジタルデータを得る術はありませんし、DACチップに入れる前にPCでやることもできますから、今回はPCによる2倍アップサンプリングでシミュレーションとし、2496に戻したデータがダウン前の2496データにどこまで近づけるかを調べてみます。

 CDは44.1kHzですが、製作時は48kHz系でしょうから、今回は非整数倍サンプルレート変換の影響を排するためダウンした状態も48kHzで代用します。つまり、意識すべきナイキスト周波数は24kHzとなります。
 対象波形は「440Hz/-6dBのサイン波」としました。この単独波形の2496データが復元すべきデータとなりますが、LPF処理の影響を見るため、次の24kHz以上の成分を付加します。いつもの通り≪WaveGene 1.50≫にて生成。
 付加したのは「30kHz/-12dB,35kHz/-24dB,40kHz/-48dBのサイン波」です。これらは48kHz化した時にカットされるべき成分ということです。

 4つの周波数成分を含むデータはこんな波形になりました。
 “再現すべきターゲット波形”である440Hzをグレーにして重ねてあります。

440Hz 24964成分

 最大レベルは-1.76dBでしたのでフィルタ処理でサチることはないでしょう。

 スペクトルは次の通りです。

440Hz 2496 4成分:周波数

 この「24kHz以下1成分+24kHz以上3成分」のデータから、CD化を通して「24kHz以下1成分」だけをどれだけ忠実に復元できるか、を見ることになります。

 製作側ダウンサンプリングと再生側リコンストラクション=アップサンプリングは、≪foobar2000 1.3.8≫のResampler-V(SoX) 2.1をデフォルト設定で使います。

  ・PassBand:91.3%
  ・StopBand:100.0%
  ・Attenuation:-198dB
  ・Phase Response:Linear

 ファイルはConvert機能で得ています。


■16bitソースの再現性

 さて、CDメディア(からリッピングしたデータ)は、メディア製作段階で周波数のダウンと同時に16bitにビット深度縮小されたものです。
 一方、再生側でのリコンストラクション処理精度は、PCでアップサンプリングする場合は

32bitFloatで処理

24bitまたは32bitFixedでDACチップへI/F

24bitまたは32bitFixed(以上)でDAC内部処理

が一般的でしょう。
 ですので、シミュレーションとしては、2496→1648されたデータを“ビット深度拡張して処理”した場合を見るのが現実的と言えます。
 そこで、仮にリコンストラクションの精度は24bitとしてシミュレーションしてみます。

 ビット深度変更はConvert機能のビット深度設定で行いました。24→16bit時には“17bitめ”は四捨五入されるようです。
 なお、実際の24bit→16bit化ではディザ(ビットマッピング)処理などされていると思いますが、本稿の主旨とは無関係だと思いますので無視します。

・製作時ダウンサンプリング&ビット深度縮小:2496→1648
 まずはソース製作側のシミュレーションです。
 この時点での周波数成分は以下の通りです。1648ネイティブで生成した440Hz/-6dBでもニアリーになりますので、24kHz以上の成分をカットしたことによる明らかな影響(440Hz以外の周波数が出現するなど)は見られません。
 プロ用ツールがこれより劣ることはないでしょう。

440Hz 2496→1648

 波形は、スペクトルを見ても判る通り普通に440Hz/-6dBのサイン波になりましたので省略。
 再生側ではこの“24kHz以上をカットしたデータ”をリコンストラクションすることになります。

・再生時リコンストラクション:1648→2496
 まず周波数成分を見てみます。波形は普通に440Hz/-6dBのサイン波になりましたので省略。

440Hz 1648→2496

 元ナイキスト(24kHz)以下の状況はほぼ変わっていないと思います(周波数レンジはソースの2倍)。
 元ナイキスト以上のイメージングノイズ領域はキレイに消えてると言っていいでしょう。

 ということでいよいよ本題です。この「ダウンサンプリング&ビット深度縮小→リコンストラクションによって復元」された2496データの精度はどれくらいでしょうか。≪WaveGene 1.50≫で24kHz以上の3成分をOFFして生成した“ネイティブ440Hz/-6dB”ファイル(2496)と比較してみます。
 ふたつを反転ミックスして「復元誤差(製作時のダウン処理誤差も含む)」のファイルを作って見てみます。使い慣れた≪SoundEngine Free 5.02≫で処理。

 その波形は以下の通り。≪Wavosaur x64 1.1.0.0≫で最大拡大です。

440Hz 2496→1648→2496

 誤差成分の最大値は-93.04dBでした(冒頭末尾はLinearフィルタ参照サンプルが無くなることによる異常値になるのでカットしての値)。
 16bitの量子化精度は0は-∞、±1は-90dBですから、それ以上の精度で復元できていることになります。

 ちなみにこのファイルは聞こえませんでした。SB-DM-PHD経由HD700を≪foobar2000 1.3.8≫の排他WASAPI音量最大で鳴らして。

 なお、再2496化のAttenuationを最低の-96dBに設定すると-93.13dBになりました。逆に良くなってる?


■すべて24bitの場合の再現性

 製作過程でビット深度縮小しないなら、した場合より精度が上がるのは必然です。
 つまりハイビットハイレゾの効果はいかほどか見てみます。

 2496→2448→2496の反転ミックス結果をバイナリエディタで見ると±1(000001hとFFFFFEh)しか発生していませんでした。
 つまり、すべて24bitなら24bitの演算誤差レベルの精度でサンプルを復元していると言うことになります。

 なお、Attenuation性能を最低の-96dBしても誤差は±1です。16bitとは結果異なるようです。

 ちなみに、2496→1648→1696処理すると16bit演算誤差精度になります。


■ナイキスト近くではどうか

・19kHz
 440Hzでは甘いのかも知れません。もっとナイキストに近い19kHz/-6dBではどうでしょう? 上記の440Hzを19kHzに差し替えて同じことをやってみました。
 途中16bitに落とした場合の反転ミックス波形を示します。

2496→1648→2496 19kHz

 誤差は-96dB以下のレベルに収まっています。このファイルは聞こえませんでした。

 ずっと24bit処理だと±1の誤差しか発生しませんでした。もちろん聞こえません。
 つまり、24bitならナイキストに近くても復元誤差は変わらないということですね。

 Attenuationを-96dB設定すると、16bitを挟むと-96.47dBが-96.61dB。ずっと24bitなら-138.47dBが-116.89dBに。ナイキスト近くになると24bitでも精度悪化するようです。16bitを復元する場合はAttenuationは欲張らない方がいいのかも知れませんね。
 CDリッピングファイルの場合は性能を下げ、24bit以上の場合は欲張った方がいいというちょっとメンドクサイ結果に。まあ、良くなるのは何か演算の相性のようなものかも知れませんけれど、「どうせソースが16bit精度なんだから-198dBとかにしても無駄」と言われればそうかも知れません。

・20kHz
 さらに、試しに20kHzでもやってみました。

2496→1648→2496 20kHz

 やはり-96dB以下の誤差しか発生していません。
 が、このファイルはヘッドホンを耳に押し当てるようにすると微かに聞こえてしまいます。ただ、楽曲はマトモに聴けない大音量ですし、そもそも20kHzは倍音領域ですから-6dBなんて成分は普通はないでしょうけれど。
 ずっと24bitなら±1誤差でした。

 「ナイキストに近いとどうなるか」を見ようと思ったのですが、440kHzと19kHzや20kHzで誤差成分の大きさや聞こえ方が異なる理由は、周波数の違いとは言い切れません。「カットすべきナイキスト以上の高域周波数成分」との“相性”の可能性もあるような気がします。例えば20,30,35,40kHzとキレイに揃っている場合、誤差分に可聴域の疑似周波数が出現してしまうのかも知れません。

 いずれにしても、24bitなら誤差は±1でしたから差はありません。つまり、誤差分が可聴域に入ってくる場合があるのは、「サンプリングレートが48kHzだから」ではなく「ビット深度が16bitだから」ということになります。

 結構オモシロイ結果になった気がします。


■デジタルフィルタの性能

 途中を16bitに落とした場合、再生時にビット深度拡張して処理すれば16bit以上の精度でリコンストラクションできるようです。

 24bitのままの場合、再現誤差は24bitの演算精度レベルに収まるようです。

 つまり、「製作時のダウンサンプリング&ビット深度縮小」も「再生時のリコンストラクション」も、量子化誤差精度でできるようです。
 しかもコンスーマレベル(ていうかフリーソフト)でも、です(笑)。実のところ、ここまで復元できるとは思ってませんでした。

 ということで、ハイサンプリングについては、20kHz以下の領域のリコンストラクションによるサンプル再現性はかなり高い(*)ので、「リアルサンプルである効果はあまりないのでは」「少なくとも「ハイレゾフォーマットの効果」として喧伝するレベルではないのでは」と思えます。

*:パッケージ化するときに16bitに落としても16bit以上、ずっと24bitなら24bit精度

 一方、24bit精度はリコンストラクション処理にもそのまま活かされるようですので、ハイビットには意味があると言えそうです(実際に聴いて差があるかは別として)。


 以上は「Resampler-Vでのシミュレーション結果として」です。DACチップ内蔵OSDFの当該精度は判りません。手がかりがあるとしたらデジタルフィルタのAttenuationスペックくらいでしょうか(PCM1795は-98dB、PCM1792Aは-130dB、AK4490は-100dB)。

 ですが、PCでのアップサンプリングも充分現実的ですので、その結果の評価も意味あるでしょう。
 その復元サンプルの精度は「わりとイケてる」と思うことにしました。単純なサイン波での結果ですのであくまでも“ざっくりした感触として”ですけれど。
 具体的には、
「ハイビットは意味ありそう(16bitの誤差は無視しきれないかも)」
「ハイビットであればデジタルフィルタによる20kHz以下の再現性は高いので、ハイサンプリングによるメリットはやっぱり20kHz以上の成分があることしかない(けど、聴きわけられない気がする)」
ってカンジです。

 じわじわ「ハイビットファン」になってる自分がいます(笑)。

 以上、もちろん「個人的には」ということで。


■おまけ

 本項16/12/31追記。

 「オーバーサンプリングデジタルフィルタ(リコンストラクションフィルタ)による復元では、プリエコーやポストエコーによる悪影響がある(波形が変形している?)」という問題提起をよく見かけます。本当でしょうか?
 ということで、上記より多くの周波数を含む場合のリコンストラクション精度を確かめてみました。

1.ソース生成
   すべての周波数を含むソースということで、≪WaveGene 1.50≫で
   「ホワイトノイズ -6dB 16bit44.1kHz(以下1644)」を生成

2.無音挿入
   普通のtrackでは曲間無音があるので、≪SoundEngine Free 5.02.≫で
   前後に1secの無音(0000H)を挿入

3.帯域制限
   上記に対し、≪Wavosaur x64 1.1.0.0≫のHigh Performance LPFを
   19600.00kHzカットに設定して周波数成分をCD規格に合わせて
   20kHz以下に制限
   ちなみに、≪WaveSpectra 1.50≫で成分が20kHz以下になるように
   調整した結果が19600.00kHz

4.88.1kHz化
   ≪foobar2000 1.3.8≫のResampler-V(SoX) 2.1の以下設定でx2
   「PB90.6%~SB109.2%(DACシミュレート) -198dB」
   Linearフィルタの遮断特性としてPBは約20kHz以上になります
   3で帯域制限していますので、PB以上に有効成分はありません
   (CD規格の通り)

 こうしてできた1688ファイルから単純に1個おきにサンプルを削除し、それが復元できるかをみてみます。

5.サンプル間引き
   単純間引きする≪WAVEフォーマット変換プラス 1.02≫で44.1kHz化

6.リコンストラクション
   1644ファイルを上記と同じ設定でx2

7.6の1688を波形反転して4の1688とmix

 結果、±1bit(90dB)しか残りませんでした。16bitの最低精度で復元できたということです。
 ホワイトノイズでこうなったのですから、フィルタ演算で再生成するサンプルにはヘンテコなエコー成分などはほぼ含まれていないということではないかと。
 実際のシステムでは24bit以上の精度で演算しますしね。アナログフィルタだと変形しないってワケでもありませんし。

 なお、上記のやり方だと3のLPFでエコー成分が付加(千分の数秒ほど付いてる模様)されていますので、無音からの立ち上がり・無音への立ち下がり部分についてはエコー込みでの結果となります。
 ちなみに、「インパルス応答」はフィルタ特性のパラメータであってインパルスは自然音としてはあり得ませんし、インパルス“的な”エコーもほぼ気にしなくていいと思っています。


メインメニューへ

テーマ : オーディオ
ジャンル : 趣味・実用

ハイレゾ探訪

16/04/04初稿

 ハイレゾフォーマットの効能についていろいろ調べて考え始めてかれこれ1年半くらいでしょうか。
 結果、

『CDフォーマットは、サンプリング定理が破綻している領域や処理デメリットが大きい領域も可聴域に含んでいる(微少信号の波形再現性や急峻なLPF特性など)。それは「ほとんど問題ない」が「マージンもない」レベルだった。
 しかし、CD登場から30年経ってAD/DA技術は格段に進化しているため、フォーマットに求められる「ほとんど問題ないがマージンもない」と言えるレベルは上がっている。
 ハイレゾフォーマットはそれを解消し、さらに+αの余裕を持たせるもの』

と考えるようになりました。
 具体的には次のような効果です。

・ハイビット:微小信号の再現性向上
・ハイビット:デジタルフィルタのリコンストラクション精度向上
・ハイサンプリング:倍音増加による波形再現性向上
・ハイサンプリング:デジタルフィルタのデメリット低減
・ハイサンプリング:TruePeak問題発生可能性低減

#「20kHz以上の高音があること」「ダイナミックレンジが広いこと」って表現がないのがミソですね(笑)。

 「ハイレゾフォーマットには(圧倒的ではないものの)意味はありそう」だというのが結論です。

 しかし、「“器”に収められている音楽がいい音(のデータ)なのか」は全く別の話です。
 世の中のハイレゾ音源はフォーマットのメリットを活かせている(活かして製作されている)のでしょうか。本稿ではそれを考えてみたいと思います。
 「CDよりプレミア価格ついてるハイレゾ、買う価値あるの?」という最終判断のため、ですね。
 ハイレゾの価格がCD同等以下なら悩む必要ないんですけど(笑)。

 ちなみに当方、音楽製作に詳しいワケではありませんので「マスタリング」と記していても本当はレコーディングやミキシングなどの過程のことを指している場合があるかも知れません。が、おそらく論の本質には関係ないと思いますのでお許しのほど。


■ハイレゾとはなんぞや

 どんなフォーマットをハイレゾと呼ぶかは本稿では論じませんが、一応、オーディオ協会やJEITAが決めてますよね。

・オーディオ協会:http://av.watch.impress.co.jp/docs/news/20140612_653038.html
・JEITA:http://av.watch.impress.co.jp/docs/news/20140328_641885.html

 大きな違いとしては、JEITAは48kHzでも24bit以上ならハイレゾと認めている点でしょうか。

 しかし、ハイレゾフォーマットのスペックは当然ローレゾを内包できますので、そこに収録されている音のデータがハイレゾが否かはフォーマットでは決まりません。そこで、まず、本稿における表題の意味を決めておきたいと思います(機器については本稿では対象外)。
 その定義は客観的でなければ意味がありません。
 ですので、原則

「ハイレゾフォーマットのスペックを活かしたレゾリューション情報を有する音声データ」と規定すべき

と考えています(ただし、ナイキストまでフルに無いとダメという意味ではありません)。

 ただ、「ソース」と「手段」というふたつの観点に分けて考えないと混乱するのではないでしょうか。
 具体的には以下ような場合です。

・「ソース(ミックスする前)」=ハイレゾ + 製作工程の「手段」=ハイレゾ
 何の問題もなく「ハイレゾ」ですね。

・「ソース(ミックスする前)」=非ハイレゾ + 製作工程の「手段」=ハイレゾ
 これでも最終的には商品はハイレゾフォーマットになっていますが、元々のソース自体には例えば20kHz以上の成分といった「ハイレゾリューション情報」はありません。
 この「手段系ハイレゾ」をどう位置づけるかが根本的問題ではないかと思っています。

 個人的には、

「ソースから手段までハイレゾ」なものをハイレゾと呼び、「手段系ハイレゾ」はシンプルにハイレゾとは呼ばず、プロセス名の方をメインにした名称(例えば「ハイレゾリマスタリング」)で呼ぶべき

ではないかと思っています。

 それはどういうことなのか、上記の定義を前提として、「ハイレゾ音源」と呼べるのはどんなものか考えてみます。


■これからハイレゾ音源を作る場合

・ハイレゾたるには
 試聴記事に「マスタリングの方が支配的ではないか」と記しました。

 しかし、「音質にこだわったマスタリング」は本来フォーマットのレゾリューションとは関係ありません。CDフォーマットだってこだわれます(こだわるのが普通なハズですけど)。
 逆に、ハイレゾフォーマットだから自動的に良いマスタリングになるワケでもありません。
 ですから、ハイレゾフォーマットを活かしたマスタリングするなら“そのつもり”で行う必要があるでしょう。
 そして、“そのつもり”が可能な(意味がある)音源は

・ネイティブハイレゾとして売るつもりのフォーマットでレコーディング~マスタリングしたものorするもの
 
・そのつもりがなかった時のものなら、ハイレゾマスタリングに足るフォーマットでスタジオマスター(*)が残っているもの
 ただし、途中でデジタル処理されている場合は最終フォーマットではなく途中フォーマットに準ずる
 例えば、一度48kHzで処理したらその後96kHzにしてもダメ

*:「スタジオマスター」とは、CDパッキングなどの「マスタリング」処理前の音源を指すことにさせてください。

・良質なアナログ音源が残っているもの
 一応、良質なアナログは96kHzサンプリングくらいのスペックは持ってるようなので
 ただし、マスター作成に用いたアナログ機器の仕様がハイレゾレベルであることも条件
 もちろん、途中デジタル処理している場合はその仕様も含めて

らに限られると思います。

 ただ、現実的事情は複雑っぽいですね。例えば、ミックスする前の素材トラックすべてがハイレゾではない場合もあるようです(電子楽器の仕様がローレゾだったり)。そのような場合、ミックスダウンした結果「24kHzで一旦減衰するけどその後もスペクトルは振れて48kHzでもういちどノイズ以下に減衰する」といったデータになります。
 これは「パーシャルハイレゾ」とでも言えばいいのでしょうか(苦笑)。だとすると、全素材がハイレゾの場合は「フルハイレゾ」?

・マスタリングの種類
 14/10/03付けで表題に関連する「ハイレゾとは何か」記事が出ています。
http://www.phileweb.com/review/article/201410/03/1368.html

 内容はほぼ納得できるものですが、要は「制作者に対する信頼」が前提になるワケですから、それを担保するため、記事中にある通り「その音源の出自を明確化すること」こそキモだと思います。

・アナログマスターならサイコー?
 「ネイティブアナログマスター」の場合、ハイレゾという入れ物は「高域が入っているなどの意味での高音質というより“アナログの趣”を再現するために有益」と考えた方がいいかも知れません。「マスターテープの“ヒスノイズの妙”」とか、「何かは記録されているけれど機材の仕様を超え“音質”は保証されない周波数帯に“在るような無いような”倍音成分」とか。

 アナログだからって無限の周波数が記録されているワケではありません。マイクやテープレコーダなどには周波数やダイナミックレンジといった仕様があり、それは「その範囲内の品質を保証します」という意味ですから。
 ですので、例えば20kHzまでが仕様のマイクで録った音源には“品質保証された音としては”20kHz以上は残っていないハズです。しかし、デジタルとは違い、20kHz以上になにもないワケではない点がポイントでしょう。たとえゲインがだだ下がっても波形が崩れても何かはあるでしょう。アナログですから…

 つまり、使用された機器どれかの仕様が20kHzまでだった場合、「その環境で作られたアナログマスターに残存している20kHz以上の音」がどれだけ有意かどうかは、「その機器の仕様を超えた性能=“実力値”に依存する」ということでは。
 途中にデジタル機器が入ってると、デジタルは無慈悲ですからLPFで仕様以上はガッツリカットされちゃいますけど。
 まあ、現実的な音楽作成プロセスでは、フルアナログだとしてもどこかでLPFがかかってるような気はしますけれど。

 アナログメディアには「経年劣化」という課題もあるでしょう。

・DSDならサイコー?
 イマイチ確定的に判断できないのですが、普通はDSDネイティブのまま編集・加工することはできないようで、DSDで録音しても編集段階ではPCM変換されているようです。
 アナログ変換して編集したりDSD一発録り最終マスターといったこともあるようですが例外的でしょうから、「DSD商品の大半はPCMからの変換」ということになります。

 だとするとDSD商品のメリットは何でしょう? ちょっと思いつかないです(苦笑)。
 無理矢理考えると「PCM時には必須のDACチップ内LPF(デジタルフィルタ)処理をパスできる」?
 DSDネイティブ再生じゃないと意味ないですけど。

 PCM→DSD変換はユーザ側でもできますしね。
 「変換環境を持っていないけれどDACをDSD動作させたいユーザ向け」ってニッチすぎますよねぇ(苦笑)。

 デメリットはありますね。DSD64程度ではシェイピングしたノイズが可聴域のとなりに発生しちゃいますので。

 PCMで売るか再DSD変換で売るかは別として、最初にDSDで録音することがあるのは「現在のΔΣ式ADコンバータにおいてはDSDの方が“ネイティブ”だから」でしょうか。DSDの方がアナログっぽいという定評(?)みたいですから、メインマスターとしては好まれているのでしょうか。


■既存の非ハイレゾ音源から作る場合

 「手段系」ということになります。

・補間によるハイレゾ化は有意か
 補間技術によって元データのナイキスト以上の成分を生成し、“疑似ハイレゾ化”する商品があります。「ニセレゾ」と呼ばれることもありますが、有意性のある技術なのでしょうか?

 個人的には、「パラメータを手作業で調整」といった付加価値が必要ではないかと思っています。同種の処理はPCのツールやプレーヤ搭載の専用チップなどでもできちゃいますから。

 代表的な補間技術は「K2HD PROCESSING」ですよね。
 「手段系ハイレゾ」の一種で「(ソース系)ハイレゾ」ではないワケですが、商品には「K2HDによるハイレゾ化」などと明示されており、「だったら買わない」という判断はできますから、ニセレゾと言い立てる必要はないでしょう。

 が、その説明の中で次のような「不正確な情報」を発信してしまうと信頼感を損ねます。

鈴木さん: 単なるアップサンプリングというのは、サンプリングレートを倍にする場合だと、ふたつのサンプル点の間を線形補間するだけです。サンプル点1の値が10でサンプル点2の値が20だとしたら、その中間にサンプル点1.5を15という値で入れるわけです。
-- ふたつのサンプル地点の中間点を中間値で穴埋めするだけということですか?
鈴木さん:そうです。この処理を行っても、例えば音の周波数には変化はありません。

出典:http://www.phileweb.com/interview/article/201401/24/218_3.html

 アップサンプリングでは周波数成分を増やしていないことを説明したかったのだとは思いますが、「10と20の間を15にするような“単なるアップサンプリング”」は少なくとも一般的とは言えないでしょう(苦笑)。「サンプリング定理のひみつ」で提示したfb2kによるx2,x4,x8アップサンプリングを見ても、「線形補間(つまり平均)」じゃないことは明白です(もちろんDACチップのデジタルフィルタもです)。
 せめて「簡素化して説明すると」といった注を添えるべきだったと思います。

・アップサンプリングによるハイレゾ化は有意か
 既存のCDやDATレベルの音源から作成する場合、元ナイキスト以上の周波数成分を補間生成しない“アップサンプリング”は、DA変換処理の一部であるデジタルフィルタリングを前倒しでやったこととほぼ等価です。よって、音源作成段階で実施する価値はありません。

 細かいことを言えば、「DACチップ内蔵フィルタより高精度」かも知れませんし、「DA動作軽減」という効果はあるかも知れませんし、倍率固定のDACチップなら「「トータル倍率が上がる」という違いはありますが、それをハイレゾの効果として言うのは微に入りすぎだと思います(ウリにはならないでしょう)。DACチップによってDA処理方式違いますから一般的効果としての訴求もできません。

 そもそも購入後にPCでできちゃいますし。もし、業務用アップサンプラの方が「コンスーマ用より“圧倒的に”高性能」だと言うのなら意味あるかも知れませんが、同じくPC上で動くソフトでしょうからイマドキそこまで差があるとも思えません。
 「アップサンプリング環境を持っていないけれど当該処理してからDACに送り込みたいユーザ向け」ってニッチすぎますよね(苦笑)。

 ただアップサンプリングしただけの商品はハイレゾではありません。「ニセレゾ」といっていいと思っています。レゾリューションはまるでハイになっていないためです。

・ハイレゾフォーマットでの編集結果をそのまま出すのは有意か
 「リマスターやリペア処理時の演算誤差低減のためにアップサンプリング(ビット深度拡張)し、処理結果をあえてダウンサンプリング(ビット深度縮小)せずに出す」
 と言った場合も一応有意だとは思います。やや苦しいですが、ただアップサンプリングしただけではなく目的と意味があるワケですから。
 でも、元音源の情報量はハイレゾリューションではなく「手段系ハイレゾ」の一種ですから「ハイレゾ」とは呼ばず、リマスターをハイレゾフォーマットで行った=「ハイレゾリマスター」とか呼んで欲しいですね。

 なお、アナログマスターをハイレゾ録音してマスタリングする場合も「ハイレゾリマスター」に含めていいのではと思います。
 もしアナログマスターのレゾリューションがハイレゾレベルなら、「フルハイレゾ」と言ってもいいでしょう。

・ビット拡張は有意か
 リマスタリングやリペアのためには有効でしょう。
 ただ、もともとピークが潰れていた場合や「コンプかけすぎ」だった場合、音楽情報は失われているワケですから、ハイビット化を活用した高音質な修復は想像しにくいです(そういうツールもあるようですが)。


■やっぱり気になる「生まれ」と「育ち」

 ということで、ハイレゾ商品が本当に「ハイレゾフォーマットの意味があるデータ」であるためには、上記のような“出自条件”を満たしている必要があるでしょう。

 しかし、実際には、上述した「フルハイレゾ」「パーシャルハイレゾ」「アプコンによるハイレゾ化」「ハイレゾ編集」「ハイレゾリマスター」といった様々な出自を“一緒くたにハイレゾよばわり”しちゃっています。
 だから疑念を抱かれるワケで、定義されて分別されていれば買った後で「ニセレゾ掴まされた」って話にはならないと思います。
 中でも一番の問題は「ハイレゾフォーマットに変換してきちんとリマスターした商品」と「ただのアップサンプリング」の区別がつかないことです(*)。
 出自表記する規定がないと、無邪気に「とりあえずアップサンプリング」とか、意図的に「アップサンプリングして適当にコンプかけただけでハイレゾリマスター」「消費者がスペクトル見て騒がないようアップサンプリングの高域にそれっぽい雑音を付加する」といった詐欺行為も“お咎めなく出来て”しまいます。
 「ハイレゾ=高音質=プレミア価格」で売っているのですから、それに反する品質は問題です。聴いて良ければよいという問題ではありません。


*:ソースをAD変換して得た場合はテープや機器のフロアノイズが残りますので判ると思います。また、ここでの「ただの」は、意図の有無に関わらず有効性がないという意味で使っています。

 そのあたり、現状は制作者側の常識や良心次第ってことになってるワケですが、以下の記事などからすると信じていいのか疑わしいです。

-- ところで、本日はせっかくe-onkyo musicの黒澤さんにもご同席いただいているので、ひとつご質問させて頂きたいことがあります。e-onkyo musicで販売されているハイレゾ音源でK2HDなり何なりの表記がないものは、マスター音源がそもそもハイレゾであるか、もしくはアナログマスターから直接にハイレゾでデジタル化されたものと考えてよいのでしょうか?

黒澤さん: レコード会社さんにはそのようにお願いしています。また納品されたデータの波形を弊社の方でチェックして、例えば「これは96kHzの形で納品されているけれど、96kHzで録音された音源の波形としてはおかしい」と思えるものがあれば、それは確認を入れています。

-- それはつまり、この記事で言うところの「単なるアップサンプリング」をされた音源かもと思われる場合には、ということでしょうか?

黒澤さん: そうです。e-onkyo musicとしては44.1kHzや48kHzでも、24bitであればハイレゾだと考えています。ですので48kHz/24bitで制作された作品であればそれをそのまま配信させていただきたいという気持ちなのですが…。

-- それが伝わっていない場合もある?

黒澤さん: 「ハイレゾ」「96k」「192k」という言葉が先行してしまって、それに合わせた形にアップサンプリングしておこうと考えてしまう場合があるようです。ですので、できる限り弊社でチェックして、そういった音源と思われるものについては、弊社の考えを説明して元の48kHz/24bitなりのデータをいただき直す場合もあります。

出典:http://www.phileweb.com/interview/article/201401/24/218_7.html

 実際「ハイレゾだって謳っているがアップサンプリングっぽい」「しかもその有意性が疑わしい」商品の存在はネット上で指摘されていますから、そういうことしちゃダメだって認識がない制作者(レーベル?)は確かに存在するのでしょう。残念ながら。
 これが「ニセレゾ疑惑」の実体だと思います。
 K2HDはアプコンだって明示してますから疑惑ではないでしょう。

 ちなみに、個人的にはハイビットもハイレゾとして充分有意だと思っていますが、「本当に有意な24bitなのか」はまるで判断できません。

 ですので、「ハイレゾ音源販売におけるその出自の明示」はとても重要なことだと思っています。市場を健全に育てるためにも。明示してもどこまでマジメにやったかは表現できませんが、一定の品質保持効果はあるのでは。
 ですが、現状ではほとんど明示されていません。なので2496商品でも「2448制作音源やCD音源の単なるアップサンプリング」である疑念は拭えません。
 「最近は違うよ」と言われても保証はどこにもありません。なのでなかなか手が出せません。

 16/11/17追記:次のような記事からすると、無邪気な間違いではなく確信犯とも思えます。

オンキヨー&パイオニアイノベーションズ社の黒澤拓氏(ネットワークサービス本部音楽コンテンツ部)は、ハイレゾ配信サービス側としては、とにかく音源の素性をたどろうと努力しようとはしているが、なかなかそれが難しいのが実情であるともいう。
特に、海外レーベルの音源などは、音源の素性を知ろうとして問い合わせても、教えてもらえなかったり、あるいは、問い合わせの返事さえ得られないことも少なくないらしい。同社としても楽曲の波形をチェックするなどして、ハイレゾと呼ぶにふさわしいものになっているかどうかは確認しているという。
e-onkyo musicでも、音源ごとに、そのマスタリング情報をアイコンなどで明示しようとしていた時期もあったが、ほとんど情報が集まらず、企画倒れに近い形で立ち消えになってしまった過去がある。

出展:http://news.mynavi.jp/column/compass/080/


 ということで、そのような現状を踏まえると購入判断コンセプトは、まあ、

1.新作の場合
 「ハイレゾフォーマットだから」ではなく「ハイレゾフォーマットを意識した良マスタリングされている“可能性”が高いから」という理由で積極的にCDではなくハイレゾ版を選ぶのもアリかと思います。
 お値段変わらければ、ですが。

2.旧作ハイレゾ化の場合
 「リマスター版」だと思って価値判断すればよいのではと思います(K2HDなどの補間音源もこれに位置づけ)。
 お値段が通常のリマスター商品の値付け水準同等以下なら、ですが。

というカンジでしょうか。

 ただ、そう割り切ってなお、現実は単純ではなさそうです。
 新作でも、ハイレゾ版の方が良マスタリングだという保証はありません。
 旧作でも、せっかくのハイレゾリマスタリングなのに「音圧マシマシでクリッピング多発」なことがあるようです。CDでもリマスターの方がいいとは限らないのと同じ話ですね。

・お値段のハナシ
 と言うことで、要するに問題は「価格(コストパフォーマンス)」ですよね。まあアタリマエですけど。
 それについてちょっと考えてみます。CDとハイレゾ配信の比較として。

1.新作の場合
 原則としてハイレゾに高値を付ける理由はないでしょう。ハイレゾ配信の方がマスターに近いでしょうから、CDフォーマットにマスタリングする手間が省けるとか物理メディアがない(ブックレットもない。物流コストもない)とかって点を考えると、逆に配信ハイレゾの方が安くできるハズ。サーバ維持費用とかは増えるでしょうけれど、PC用ソフトウェアだってDL版の方が安いの当たり前ですよね。
 「中古市場ができない(ハズ)」であろう点も、CDより安くできる理由になるでしょう。

2.旧作ハイレゾ化の場合
 楽曲自体の制作費がかかってませんし上記の通り配信ですから、リマスター版CDより安価にできるハズです。


 実際にはもっと微妙な点もありますけれど。
 例えば、新作発売直後ではあまり値差がなくても、時間が経った作品はCDなら値下がりしたり中古で買ったりできます。
 また、配信ハイレゾの1曲の価格は(すごく)高い気がしますがCDでは曲単位では買えないので比較しようがありません。

 以上、ざっくり言うと、“お値段がCD同等以下なら”新作であれ旧作であれハイレゾ配信を商品として否定する必要はないのではないかと。
 あれ? 音質関係ないや(笑)。

 商品の価格は原価(償却費含む)で決まらないのはもちろんですが、個人的には音源流通の一形態にすぎず、CDと同価格以下とすべきであり、プレミア価格を付けるようなモノではないと思っています。プレミア価格だと「ハズレ掴まされたら悔しい」って疑念がつきまといますしね。
 「手間かけてるから高い」なら納得しますし「手間かけてないから安い」でも納得しますよね。

 やっぱり素性は明かすべきです。ちゃんとやってる自負あるなら。


■ハイレゾの効果はハイサンプリング領域に有効成分があることではない?

 たまに「ハイサンプリングは有効帯域を高域に拡張するものではなく、有効帯域の再現性を上げるもの」といった業界からの説明を見かけますが、これは大変疑問に思っています。
 以下、「仮説」を挙げて考えてみます。

・細かく刻んだサンプルがある=再現性が上がる?
 サンプリング定理上ナイキスト以下は「完全に復元可能」ですから、ナイキストを22.05kHzから48kHzに上げてサンプル刻みを細かくしても、例えば20kHzまでの帯域に対して定理上のメリットはありません。
 細かく刻んで増やしたサンプルは、増やさなくてもリコンストラクションで復元できるからです。

 定理上の話ではなく“現実的問題”を言っているのなら、そのように説明しないと更なる誤解を招くでしょう。
 といっても、流石に「フィルタ処理の倍数を減らせる」とか「処理を高周波数側にもっていける」はないでしょう。DACチップの仕組みや性能に依存しちゃうことですから。

・現実的には完全に復元できないのでリコンストラクションサンプルよりリアルサンプルの方が有利?
 可能性はなくはないでしょう。
 しかし、高級DACチップ(*)が生成するリコンストラクションサンプルは有効帯域以上(イメージングノイズ)を-130dBあたりまで抑制しますから、リアルサンプルだとそれ以上なのか疑問です。
 念のためですが、リコンストラクションで生成されるサンプルは元ナイキスト以上の成分を抑制するためのものと言ってもいいので、Attenuationスペックが高い方がよいのは間違いありません。
 Attenuationスペックが低いDACチップでは効果あるかもしれません。けど、「実はハイレゾは低スペックシステムでこそ有効な規格」なんてことありませんよね?(笑)

*:PCM1792AのStopband Attenuationスペック。ちなみに≪foobar2000≫のResampler-V(SoX)は-198dBまで設定可(もちろん実際の性能は処理ビット深度にも関連するハズ)。

・リアルサンプルなら有効帯域を超えたところにも低レベルながら成分が発生するのがメリット?
 もし、逆に、抑制するのではなく成分発生がメリットだと言うのなら、「そこまでが有効帯域」なワケですからやっぱり高域があることがメリットになってしまい矛盾します。

・有効帯域とナイキストの差を大きくしてリコンストラクション処理に余裕を持たせることで復元精度を上げられる?
 だとすると、それを充分に活用するためには「PCMデータ化する際のナイキストに対する有効帯域(AD時のLPF特性)の規格化」が必要だったのではないかと思います。
 例えば、以下の引用が正しいのなら、有効帯域は32kHzあたりと決めてしまうべきだったハズ。
 決めませんでしたから、(LPF特性がCDと同じSharpのままだと)例えばAK4490はどうせ無いのに43.5kHzまで通過させ、まだ大丈夫なのに52.5kHzからカットしてしまいます(急峻な動作してしまいます)。
 なのでこのメリットは実際には享受できていません。

 残念ですね。

また鈴木氏は、「ハイレゾはマスター音源と同じものではない」と、ハイレゾ音源に対してのよくある誤解についても触れた。「サンプリング周波数と周波数帯域とは完全にイコールではないのだが、そのあたりが誤解されている。収録されるのは実際の演奏の帯域であって、それを96kHz/24bitの“器”に入れているからといって高帯域まで入っているというわけではない」。例えば、ピアノの最高音の基音は約4kHzで、倍音を入れても20kHzくらいしかない。アナログマイクで収録できるのは30kHzくらいまでとされているし、古いアナログ音源も40kHzまで帯域が伸びているわけではない。ハイレゾ音源の特徴とは高域まで収録されているということではなく、「従来のCD音源よりもサンプリング周波数と量子化精度が細かいことによって、アナログに近い状態を再現できること」と鈴木氏は語った。
出典:http://www.phileweb.com/news/audio/201603/22/17054.html

 「周波数成分がびっちり48kHzまではなく、連続的に減少して30kHzくらいでノイズレベルになる2496はハイレゾだ」って言うのは解ります。
 ですが、じゃあ「20kHzくらいでいきなり減衰する2496」はどうなんでしょう?
 「そういうのも(ラベリングなく)ハイレゾとして売ってよしとしている」ことこそ“誤解”なのでは?

 なお、ハイサンプリングではなくハイビットについては、「16bitからリコンストラクション」するより「24bitのオリジナルサンプル」の方が有利なのは間違いないでしょう。

・時間特性の向上?
 本項16/11/12追記。
 世界的レコーディングエンジニアという方が以下のようなお話されているようです。

サンプリング周波数が上がることは、同時に、音楽波形がサンプルされるまでの時間が短くなるということだ。具体的な時間は、48kHzでは約20.83マイクロ秒、96kHzで約10.4マイクロ秒、192kHzで約5マイクロ秒となる。そして、人間の脳の神経インパルスが感知できるのは約4マイクロ秒と言われている。「ハイレゾの真の効能は、周波数特性の向上ではなく、時間特性の向上だと言えるでしょう」と深田氏は語っていた。
出典:http://www.phileweb.com/review/article/201611/11/2274.html

 はて?

 「音楽波形がサンプルされる“まで”の時間」はサンプル周期と全く関係ありませんよね。記事の数字はサンプル周期を示していますが、どんな周期であろうとも、とある瞬間の値がサンプルされるだけで“サンプル周期分遅れるワケではない”のは自明だと思うのですが。もし遅れがあったとしても一律に遅れるハズですし。
 「サンプル周期に引っかからない急峻な変化を捉えられない」という意味だとするとそれは確かにその通りで、まさに「サンプリング定理」のことを言っていることになります。つまり、高周波数まで記録再現できることこそが時間特性の向上ということになり、結局周波数特性の向上を言い換えただけです。
 「脳神経インパルス」はこの際関係ないと思います。


 いろいろ仮説考えましたが、なんだかやっぱり、どうしてもユーザに「ハイレゾの効果は周波数特性ではないと思わせたい」としか…


■おまけ

・試聴
 評論家などは「フォーマットで音質は決まらない、音楽は聴いてナンボ、聴いて良ければ買えばよい」みたいなことを言います。基本的に異論はありませんが、“買わなきゃ聴けない”じゃないスか。矛盾してますよね。
 なので、ハイレゾの試聴は、商品のそのものの音質やマスタリングの確認ができないと意味がないと思っています。
 試聴音源が圧縮だと周波数特性や音質変わっちゃいますし、そのハイレゾ商品から作ったものという保証もありませんから、工夫して“ハイレゾネイティブ”なものを聴けるようにして欲しいものです。そうすれば「ホントに2496なのか」といった“出自”もたぶん確認できるでしょう。
 せめて、1曲買った後でアルバム買う場合はアルバム価格から1曲価格を引いてくれるとか。
 もはや“試聴”じゃないですけど(苦笑)。


メインメニューへ

テーマ : オーディオ
ジャンル : 趣味・実用

PhaseとImpulseのハイレゾ効果を確かめる

16/03/05初稿

 前稿で、遂にデジタルフィルタのパラメータが演算結果に及ぼす影響について調べました。

 とりあえずサンプリングレート1fs(44.1kHz)ソースについて見ましたが、これって、同じ波形でもサンプルレートが違うと影響度は異なるのではないでしょうか。もし、ハイサンプリングだと“影響”が緩和されるなら、それはハイレゾの効能と言えるでしょう。
 もちろんフォーマットとして、ですけれど(実際に聴いて差があるかは別)。

 ということで、調べてみました。
 以前、「ない高域をサンプリングして“ないことをデータとして確定”させることでイメージングノイズ発生帯域をその上の高域にシフトし、OSDF(Over Sampling Digital Filter)の影響を下げることがハイレゾの効果(のひとつ)」と考察したことがありますが、本稿はPhaseとImpulseの側面での効果確認になるかと思います。

 本稿では、その主旨からハイレゾはハイサンプリングのことを指します。


■Phase Response

 前稿で扱った「14.7kHzと7.35kHzのサイン波を合成した波形」の変形につき、サンプルレートを変えたソースで調べてみます。
 44.1kHzに加え、同じ方法で88.2kHzと176.4kHzのデータを作成。それぞれx2x2x2とx2x2とx2してすべて352.8kHz(8fs)化した時の変形を比較します。
 同じ8fsにするにしても、フィルタで再生成したものではなく最初から2倍分4倍分の“リアルサンプル”があるデータの変形度合いの比較、ということですね。
 8fs(8倍)で揃えたのはDACのOSDFがΔΣブロックに入れる前に「8fs」にする(*)処理のシミュレーションとするためです。

*:AK4490などはそのように動いていると理解しています。

 以下、 ≪Resampler-V≫のMinimal設定の結果を示します。Linearは変形しないので省略。

14700+7350 0per ハイレゾ比較 サイン波重ね

 「44.1kHz x2x2x2(上図)」と比較すると、「88.1kHz x2x2(中図)」ですでに変形はかなり抑制されています。「176.4kHz x2(下図)」の“リコンストラクション再現率”は、ほとんどLinearと遜色ないのでは。

 もちろんこの例のみでのイメージですが、特殊事例ではないと思います。


■Impulse Response(の代替特性)

 こちらも、前稿の「1周期の4kHz -0dB」波形につき、サンプルレートが異なるデータを作って比較します。
 これは一般的な「Impulse Response」ではありません。その理由などの詳細は前稿を参照ください。

 前稿で見た48kHzをx2x2x2した場合(上図)に加え、96kHzをx2x2(中図)、192kHzをx2(下図)してぞれぞれ8fs化した場合につき、MinimalとLinearを示します。

・Minimal

4000HzResponseハイレゾ比較 0per


・Linear

4000HzResponseハイレゾ比較

 すべて8fsで揃えていますので、同じ時間スケールでの比較です。サンプリング周波数が高くなるとエコー成分はどんどん減っていく様子が解ります。
 ちなみに≪Wavosaur x64 1.1.0.0≫の表示限界以下で見えないワケではありません(別途拡大表示して確認しました)。


 なお、余談かつおそらくですが、これは基音と倍音でハイレゾの効果を見た時と同じ現象を別の見方しているのではないか、という気がしています。


■デジタルフィルタにみるハイレゾの効果

 以上より、デジタルフィルタにおける「Phase Response」「Impulse Response」の絶対的影響は、ソースのサンプルレートが高くなるほど小さくなると言っていいのではと思います。
 まあ、当たり前ではありますが、実際に波形で比較してみるとその“程度感”などが解ってヨイですね。

 つまり、「Minimal系特性にすると波形変形が発生する」「Linear系特性にするとプリエコーが発生する」と言う(言われる)デジタルフィルタのデメリットは、ハイレゾ(ハイサンプリング)になればなるほど軽減されるということです。
 もちろん同じ周波数帯について見た場合です。人間の可聴域や音楽の周波数はハイレゾだと移動するってワケではありませんから、例えば「ハイレゾの場合は2倍・4倍の領域(ナイキストに対して同じ比率の領域)で比較しなければ意味がない」といったことはないでしょう。

 さて、上記はPCソフトのフィルタ演算結果ですが、DACチップのOSDFも基本的に同じ特性を示すハズです。

 具体的な例を挙げると、AK4490のOSDF結果は8倍固定ですので、最初から8fs=352.8kHzや384kHzソースの場合はOSDFかかりません。LinearもMinimalも関係なくデジタルフィルタのデメリットは発生しないワケです。それは極端な例としても、4fsソースの場合はOSDFは2倍ですので影響はかなり抑制されるでしょう。

 ですので、「(OSDF式の)DAC動作」という観点では、ハイサンプリングだとデジタルフィルタのデメリットを抑制できるメリットありと言えるのではないでしょうか。

 言い方を変えると、「フィルタ特性による音の差が少なくなる」「“デジタル臭さ”が減る」といった表現もできるでしょうか。
 もちろん、これはDACの仕組みにも依存するので絶対的一般論とは言えませんし、実験はサイン波(せいぜい成分としてふたつ)でのものですから、当然ながら実際の楽曲においてどれくらい有意差があるかは別問題ですけれど。

 なお、当然かつ重要な点ですが、ソースがネイティブハイサンプリングじゃないと当該メリットはありません。「AD変換が1fs、またはAD変換が2fsや4fsでも製作過程で一度でも1fs化したデータ」をアップサンプリングしたハイレゾでは、その時点で1fsを2倍4倍するためのデジタルLPFかかっているのですから。


メインメニューへ

テーマ : オーディオ
ジャンル : 趣味・実用

最新記事
ERIへようこそ

Author:らかせ
「最新記事」または
「メインメニュー」からどうぞ

・ファイルへの直接リンク以外はリンクフリー(連絡不要)です

・一応、拍手にコメント(非公開)付けられるようにしてあります

・DB的に利用しており、過去記事もガシガシ書き換えています。特に「最新記事」は初稿から一週間くらいは直してることが多く、大幅に変わっちゃうことも。ご了承ください

・ということもありますし、記すまでもないですが無断転載(ファイル含む)はご遠慮ください

・引用の考え方については「007:諸事」をご参照ください

・アフィリエイトはAmazonのみです

・ハイパーリンクは当Blog記事のみです(054:節電記事のみ例外)

カテゴリ
検索フォーム
FC2カウンター