結論からいうと

ここでいう「微妙な音ずれ」はサンプルレート48kHzで、1分あたり18サンプル(=0.4ms)のもので、普通は気になるものではない。

これは原理的になくせないずれである。

経緯

OBSで複数のUSBオーディオデバイスからの音声をマルチトラック化して録画データにくっつけている。アナログで同じ音声を入力している別々のデバイスの2つのトラックの音を細かくあわせてみると、デバイス間で徐々に広がる遅延があることに気付いた。あまり大きい量ではないが、気持ち悪いので一旦調べてみることにした。(詳しい人はこの時点でそりゃダメじゃんと思うだろうが……)

だいたい1分で18サンプル(=0.4ms)ぐらい進んでいる。2分ならもっとすすむ (数えるのが面倒だけどだいたい倍ぐらい)。

追試として、同じアナログ入力をしている2つのインターフェイスを同時にOBSで録音して、録画開始直後に同期をとり、その後の1時間ぐらい波形のずれを見た。メトロノームを鳴らして音声入力にした。

  • 26分後ぐらいに急に3フレームぐらい前にずれた
  • 35分後ぐらいに1フレームぐらい後ろにずれた

前にずれる・後ろにずれるということが起こる。ずっと一定でずれていくわけではない。実時間録音してるのだからどこかで補正(音トビ)しないとおかしいのは当然ではあるが……

クロック誤差を考える

何も考えず、サンプルレートを変えたり、設定を変えたり ASIO にしてみたり、いろいろ試行錯誤してみたがこの現象は消えなかった。最終的にクロック誤差ではないかと思いはじめた。

クロック誤差が通常の水晶を想定して±50ppm なら、48kHz のサンプルレートとしても、実際は±2.4Hz (48e3 * 50e-6) となり、最悪 (48002.4Hz vs 47997.6Hz) で考えると1秒あたり4.8サンプルずつずれていくことになる。

1分で18サンプルなら、逆算するとデバイス間に0.3Hz (18/60) 差があることになる。(0.3 / 48e3 * 1e6=6.25ppm) これは水晶の精度から考えると少ない誤差といえる。

クロックソースはホストPCとオーディオデバイスどちらもあり、完全に同期していない。リアルタイム処理だと、原理的にサンプルパーフェクトで処理することはできない。実時間に対してずれていってしまう (PCやデバイスのクロックの1秒と実時間の真の1秒の誤差) から仕方ない。

デバイスクロックがPCクロックより早い場合、PCからすれば余計にデータが送られてくるので、少しずつデータが伸びていく (その音声はPCから見れば遅れていく)。伸びていくといっても実装によって限界が生じる(バッファオーバーラン)のでそのうち音飛びする。

逆にデバイスがPCよりクロックが遅い場合、PCからすればデータが足りない(バッファアンダーラン)ので一定時間ごとに音飛びする。

複数のオーディオデバイスがある場合、この現象がそれぞれのデバイスに対して生じる。

USB Audio の仕様

https://www.edn.com/fundamentals-of-usb-audio/
https://learn.microsoft.com/ja-jp/windows-hardware/drivers/audio/usb-2-0-audio-drivers

USB Audio 的にはクロックソースの選択や、クロックの同期について部分的に書かれてはいるが、ずれた結果どうすべきかは書いてない。そもそもリアルタイムの非同期転送だと送りっぱなしで再送とかもないので実は伝送エラーが起きてもそのままである (訂正されたりしない)。

アンダーランやオーバーランをどうすべきかはアプリケーションの用途によるだろうからそういうもんかとは思う (配信ソフトなら音ズレが少ないほうが好ましいが、録音ソフトなら音トビが少ないほうが好ましい、というような)

OBSの実装に関するメモ

OBS のサンプリングレート

OBS は設定の「音声」にあるサンプリングレート (48k または 44.1k) が内部ではプライマリーとなっている。オーディオソースのサンプリングレートがこれと違う場合は常にリサンプリングされて統一される。ビット深度はOBS内部では常に float (=float 32bit) で処理されている。

(出力ビット深度は出力の話なのでエンコーダ設定にある)

サンプルが余るような場合どうなるか

OBS自体はオーディオ信号がきた時刻(PC内のカウンタ)を基準にサンプルを整列させていく実装になっているように見える。リサンプリングして余計なサンプルがでてきた場合、あとから生成されたサンプルで上書きされている。

https://github.com/obsproject/obs-studio/blob/ba4f17e1143dd769f55bce6b1595c6704aa7a44d/libobs/obs-source.c#L1471-L1489

つまりOBS的には、基準クロックがPC内のカウンタということになる。PCのクロックはそれほど高精度ではないという問題がある。(PC内は温度変化が激しい。TCXO積むような意味は普通ない)

メモ: OBS の「デバイスのタイムスタンプを使用する」ってなんなのか

この設定は Windows のみ。

  • オンの場合、OBS 内にサンプルが届いたタイミングでカウンタを読む
  • オフの場合、Windows 側で (ドライバ or WASAPIが) サンプルをコピーする直前にカウンタを読む

結論からいえばデバイスドライバの実装が壊れていない限りオフにする必要はない。

UseDeviceTiming https://github.com/obsproject/obs-studio/blob/4b138f674f982c1b85487ff0cf6e3cabd27a76b4/plugins/win-wasapi/win-wasapi.cpp#L1142-L1148 というフラグ

UseDeviceTiming なら
https://learn.microsoft.com/en-us/windows/win32/api/audioclient/nf-audioclient-iaudiocaptureclient-getbuffer でとれる pu64QPCPosition (これはWASAPI )

パフォーマンスカウンタ (OS内の高精度でプロセッサ共通のカウンタ) から求められるタイムスタンプを算出して使う

UseDeviceTiming なら、この処理時点の os_gettime_ns を使う。os_gettime_ns は実際のところ https://github.com/obsproject/obs-studio/blob/4b138f674f982c1b85487ff0cf6e3cabd27a76b4/libobs/util/platform-windows.c#L481 QueryPerformanceCounter を使っている。

https://github.com/obsproject/obs-studio/blob/4953c5d517c899517a49360463ad7b70c91dea14/plugins/win-wasapi/win-wasapi.cpp#L1206-L1258 ProcessCaptureData

asio plugin は、ASIO にパフォーマンスカウンタをどうこうする仕組みはないので、コールバック時点の os_gettime_ns を使う。https://github.com/Andersama/obs-asio/blob/asio-juce/src/asio-input.cpp#L317


https://docs.obsproject.com/backend-design#general-audio-pipeline-overview
https://github.com/obsproject/obs-studio/blob/2c58185af3c85f4e594a4c067c9dfe5fa4b5b0a9/libobs/obs-source.c#L1203 MAX_TS_VAR = 2000000000ns = 2秒
ts の処理、sync_offset の追加

サンプリングレートが違うと音がずれる?

OBSの実装上、リサンプリングが入るので、サンプリングレートがオーディオソースごとに異なるからといって音がずれていくということはない。言いかえるとサンプリングレートが原因で音ずれるというのはOBS内では起こらない。

動画と音は、なぜずれるか

動画と音の場合、バッファサイズの違いが問題になる。動画はフレームを飛ばしたり重複させて時間調整しても気付きにくい。音声は動画(60Hz)に対して(48kHz)とケタ違いの分解能を持っており、数サンプル飛んでだけでもプチという高周波音で気付いてしまう。

連続して録音していく場合、オーディオインターフェイス側のクロックがホストより早いとサンプルが余り、徐々に遅れていく。余ったサンプルがどうなるかはインターフェイス側のバッファの実装による。

オーディオインターフェイス側のクロックがホストより遅いと、サンプル数がPCの想定より足りないので、定期的に音が途切れて同期する。バッファを超えて長い時間で「ずれ」はしない。

究極的にずれないようにするためには音声クロック(マスタークロック)に同期した動画のフレーム調整が必要になる。

Windows の時刻精度

ハードウェアクロックが複数ある場合補正して精度を高めると書いてある。どの程度の精度があるかはわからない。
https://learn.microsoft.com/ja-jp/windows/win32/sysinfo/acquiring-high-resolution-time-stamps#absolute-clocks-and-difference-clocks

  1. トップ
  2. tech
  3. クロックによるOBSの微妙な音ずれはなおせない
▲ この日のエントリ