スピーチプロセッサ

マイク入力の音質を改善したいという場合がときどきあるかもしれない。例えば

  • 環境ノイズを減らしたい
  • 聞きやすいように音量をある程度一定に保ちたい

とか。

アナログでやろうとすると割と高価な機材が必要だが、現代はDSPでなんとでもなる。

AU Lab

Mac には標準で AU (Audio Units) という機能があり、簡単なフィルタとかはこれでできる。AU はプラグインとなっており、使うためにはアプリケーションが必要。標準アプリケーションだと Garage Band で使えるが、AU だけ使いたいのに Garage Band というのは重すぎるしめんどうくさい。

しかし、実は Apple はAU Labというソフトウェアを提供しており、標準添付ではないのだが、これをインストールすると入力を AU を通して別のデバイスに出力というのが簡単にできる。

AUDynamicsProcessor

エクスパンダないしノイズゲート・コンプレッサないしピークリミッタ相当のことをできる。

グラフ中の下側の点2つを動かすことでレベルが低い環境雑音の音量を下げる(ないし完全カット)することができる。リアルタイムにグラフのどの状態にあるかも表示されるのでとても設定しやすい

上の点2つを動かすとコンプレッサをかけることができる。入力が低すぎる場合 Master Gain をあげる。Master Gain をあげつつコンプレッサがかかる閾値を下げると常にコンプレッサがかかり出力を一定の状態にできる。

AUMultibandCompressor

4つにわけられた帯域ごと(帯域幅は任意に変更できる)にコンプレッサレベルを変えて設定できる。設定帯域ごとのイコライザ相当の機能もついてる。エクスパンダ的機能はついていない。

高域の上限を下げたりすれば、サ行のうるささが軽減される (ディエッサーとして使える)。

イコライザ

  • AUFilter
  • AUGraphicEQ

他のでもできるが、このあたりを使うのがわかりやすい。ただ、イコライザはベストを見つけるのは非常に難しい。永遠に時間がかかるしだんだんゲシュタルト崩壊してくる。

自分の上げたい/下げたい周波数帯域が、聴きながらわからない場合、AUParametricEQ を入れると、特定帯域幅だけドラッグしつつ上げたり下げたりできる。目的周波数をさがすだけなら AUGraphicEQ より楽。

その他

少しだけリバーブをかけると聞きやすくなるらしいんだけど、AUMatrixReverb は設定が難しく、少しでもかけすぎると気持ち悪い感じになるので、素人は手を出さないほうが良さそう。

他のアプリケーションの入力にする

AU Lab で、入力 → AU → 出力はできるのだが、出力を別のアプリケーションの入力として使いたい場合、これだけではできない。

要は一旦出力したものを、別の入力に入れればいいのだが、ハードでやると (すなわちケーブルをループバックさせる感じになる) ノイズ的に不利だし、接続が煩雑になる。

Sound Flower

ソフトウェアとしては Sound Flower というのが良く使われている。これは Mac 上で仮想オーディオデバイスとして働くもの。しかし Yosemite ではクリッピングノイズのようなもの (プチプチ音) が発生することがあり、この問題は未だ解決していない。どうしても気になる場合ハードに一度デジタルで出してしまうのが確実そう。

ノート:音声通信用にスピーチプロセッサについて考える

もともとアマチュア無線の音声通信の了解度を、何らかの手軽な方法で上げられないかと考えて調べたはじめた。

アマチュア無線で、特にSSBという変調方法の場合、声の大きさがそのまま送信パワーになる (無音時 0W・最大で設定した出力電力)。なので、昨今の SSB 無線機には必ずスピーチプロセッサというのがついている。

スピーチプロセッサは何をしているか? というと、基本はただのコンプレッサーで、音声のダイナミックレンジを圧縮している。小さい声も大きい声もできるだけ一定の大きさに保たれるようにして、平均送信電力を上げている。

凝った人は、このスピーチプロセッサ部分を無線機組み込みではなく、外部でやってより自由に調整するらしい。特にSSBで凝ったことをやってる人場合、Hi-Fi SSB とか言ってるらしい。

アマチュア無線では占有周波数帯域幅を抑えるため、上限 3kHz 程度までで音声周波数をカットして送信 (SSBの場合、音声の帯域幅≒占有周波数帯域幅) しているので、Hi-Fi とはいっても、原音に忠実という本来の意味ではなく、了解度の向上(相手が聞きとりやすいこと・複数人同時送信されていても、耳につきやすいこと)を目指しているようだ (周波数帯域的に原音忠実というのは不可能)

(ちなみにAM中波放送の場合、音声信号は上限約10kHz程度の帯域、FM短波放送の場合約15kHz で切られている。)

音声の通信を聴いていると、確かに人によって聞きやすかったり、そうでなかったりする人がいる。声質や滑舌もあると思うが、何らかの前処理によって了解度が向上するなら、それは良いことだ。

信号処理での戦略

実際のところ、あまりやれることはなくおおざっぱに言うと以下3点になりそう。

  1. ノイズをとにかく減らす
  2. イコライザを自分の声にあわせて設定する
  3. コンプレッサをかける

しかしそれぞれ調整するとかなり時間がかかる。

ノイズを減らすのは必須。余計なノイズを送信すれば確実に了解度は下がる。しかし一番確実な方法というのがないので、発生している場合減らすのはなかなか難しい。以下のような方法を全て試す。

  • 指向性マイクを使う (環境ノイズを軽減)
    • 無線機付属のPTT付きのものとか
    • いわゆるカラオケマイク的なもの
    • できれば差動出力 (XLR コネクタ) のマイクを使うほうがいい
  • シールドケーブルを使う (外来ノイズを軽減)
    • アナログのラインはすべてシールドする。地味だけど確実に効果がある
  • グラウンドループを切る (ハムノイズなどを軽減)
    • 無線機周辺でループがあると大きなノイズが入る
  • マイク入力ではなくデータ入力ラインから音声を入れる (PC出力をできるだけ大きくとって内部雑音とのSN比を改善する)
    • マイク入力は内部的に増幅率が高く設定されていることがあり、過大入力になりやすい。SN比を上げにくい

イコライザは声にあわせて設定する必要がある。了解度向上という意味では150Hz以下には殆ど声としての情報がないので完全に切って良く (ただのノイズになる)、200〜300Hz は上げると少し落ち着いた感じなるが、音が籠って了解度は下がる。400〜800Hz は人によるがあまりいじらないのが良いようだ。

SSBでは原理的に「無音」を送信することができず、常に喋っていないと受信機側のAGCによってノイズでうるさくなってしまって悩ましい。同じく AGC によって、受信側で強制的にコンプレッサ相当のことが起きるため (小さい音は大きく、大きい音は小さく)、送信時に最大限コンプレッサをかけたほうがSN比が向上し了解度はあがる。

テスト方法

無線機に入力する直前の信号を聴いても、実はあまり意味がない。他の無線機で送信される電波そのものをモニタするほうが良い。というのも、受信機側のAGCのかかり具合に印象が大きく影響されるので、送信機に入力する信号とかなり印象が変わってしまうからだ。

実際のところダミーロードをつけて漏れた電波を聞くか、同軸切替器(アイソレーションが60dB程度あっても十分漏れてくる)とダミーロードを使う。

総合的な了解度向上策

声の特性を知って適切で効果的なスピーチプロセッサをかけられる知識は、エンジニアリング的な範囲の音声による通信技術のひとつといえそう。

ただし、機械処理に頼った了解度向上策には限界があると感じる。滑舌が悪かったり、声が出てなければ結局意味がない。アナウンサーという職業があるように、明瞭な音声を出せることというのは、それ自体がある程度特殊な技術であるし、これもまた音声通信の技術向上であると感じる。

アマチュアは、スピーチプロセッサの使いかたのようなエンジニアリング的部分と、声の出しかたのようなオペレーション的部分を、一人で行うので、了解度向上のためには、総合的なこれら通信技術の向上が必要に思う。

CW に比べ音声は喋るだけなので技術がいらないと思われた (実際敷居は低い) が、ノイズが多く、限られた周波数帯域で了解度を上げるには、実際は思った以上の技術がいると感じる。CW は遠くに効率良く届けるという意味では、技術的難易度は音声よりも案外低いのかもしれない。

Behringer(ベリンガー) ベリンガー ダイナミックマイク ボーカル ULTRAVOICE XM8500 - Behringer(ベリンガー)

Behringer(ベリンガー)

5.0 / 5.0

  1. トップ
  2. tech
  3. AU Lab をスピーチプロセッサとして使う
  1. トップ
  2. ham
  3. AU Lab をスピーチプロセッサとして使う

use strict;
use warnings;
use utf8;
use Encode;

sub encode_with_limit {
	my ($encoding, $str, $limit) = @_;
	$encoding = Encode::find_encoding($encoding);

	my $encoded = '';
	for (my $i = 0; $i < length($str); $i++) {
		my $chr = $encoding->encode(substr($str, $i, 1));
		if (length($encoded . $chr) > $limit) {
			last;
		} else {
			$encoded .= $chr;
		}
	}
	$encoded;
}

use Test::More;

is encode_with_limit('UTF-8', 'あいうえお', 1), encode_utf8('');
is encode_with_limit('UTF-8', 'あいうえお', 2), encode_utf8('');
is encode_with_limit('UTF-8', 'あいうえお', 3), encode_utf8('あ');
is encode_with_limit('UTF-8', 'あいうえお', 4), encode_utf8('あ');
is encode_with_limit('UTF-8', 'あいうえお', 5), encode_utf8('あ');
is encode_with_limit('UTF-8', 'あいうえお', 6), encode_utf8('あい');
is encode_with_limit('UTF-8', 'あいうえお', 9), encode_utf8('あいう');

done_testing;

こうしたんだけど、もっと簡単にできないんだろうか…

#!/usr/bin/env perl

use strict;
use warnings;
use utf8;
use Encode;

sub encode_with_limit {
	my ($encoding, $str, $limit) = @_;
	$encoding = Encode::find_encoding($encoding);

	my $encoded = $encoding->encode($str);
	my $short = $encoding->decode(substr($encoded, 0, $limit), Encode::FB_QUIET);
	$encoding->encode($short);
}

use Test::More;

is encode_with_limit('UTF-8', 'あいうえお', 1), encode_utf8('');
is encode_with_limit('UTF-8', 'あいうえお', 2), encode_utf8('');
is encode_with_limit('UTF-8', 'あいうえお', 3), encode_utf8('あ');
is encode_with_limit('UTF-8', 'あいうえお', 4), encode_utf8('あ');
is encode_with_limit('UTF-8', 'あいうえお', 5), encode_utf8('あ');
is encode_with_limit('UTF-8', 'あいうえお', 6), encode_utf8('あい');
is encode_with_limit('UTF-8', 'あいうえお', 9), encode_utf8('あいう');

done_testing;

もっと簡単に書けたけど、効率は悪そう。

  1. トップ
  2. tech
  3. Perl でバイト数を制限しつつ、文字列を妥当なバイト列に変換したい

WebAudio での通信用に使おうと思って書いていたけど、やる気が失せてしまった。WebAudio 非依存部分だけ習作的に書いた。思ったよりややこしいデコード方法になることがわかった。

プリアンブルとして 1 (01) を n 回連続して送信したあと、0 (10) を送信してクロック同期をとり、任意長のビットをデコードするかたち。(イーサネットのプリアンブルとは互換性なし)

ManchesterEncoding = function () { this.init.apply(this, arguments) };
ManchesterEncoding.prototype = {
	/**
	 * @constructor
	 */
	init : function (opts) {
		var self = this;
		self.clock = opts.clock;
		self.preamble = opts.preamble || 8;
	},

	/**
	 * @param {Array|ByteArray|string} bytes
	 */
	encode : function (bytes) {
		var self = this;
		var preamble = self.preamble;
		var clock = self.clock;

		if (typeof bytes === 'string') {
			var tmp = [];
			for (var i = 0, len = bytes.length; i < len; i++) {
				tmp.push(bytes.charCodeAt(i));
			}
			bytes = tmp;
		}

		var data      = [];
		var current   = 0;

		function sendBit(bit) {
			// Send 1 as 01 (_-)
			//      0 as 10 (-_)
			for (var i = 0; i < clock; i++) {
				data[current++] = bit ? -1 : 1;
			}
			for (var i = 0; i < clock; i++) {
				data[current++] = bit ? 1 : -1;
			}
		}

		// preamble: send repeated 1
		for (var i = 0; i < preamble; i++) {
			sendBit(1);
		}
		// start bit: after repeated 1 sync with logic 0
		sendBit(0);

		for (var i = 0, len = bytes.length; i < len; i++) {
			var byte = bytes[i];
			for (var b = 0; b < 8; b++) {
				//  msb first
				if (byte & (1<<(7-b))) {
					sendBit(1, 1);
				} else {
					sendBit(0, 1);
				}
			}
		}

		return data;
	},

	/**
	 * @param {Function} callback
	 * @return {{ reset: function(), decode: function(Array|ByteArray) }}
	 */
	decoder : function (callback) {
		var self = this;
		var logic = true, count = 0, clock = self.clock;
		var sync  = false, syncAvg = 0, syncCount = 0;
		var byte = 0, bitCount = 0, bit;
		var short = 0, long = 0;
		var state = 'start';
		return {
			reset  : function () {
				// reset and re-wait for preamble
				this.decode = self.decoder(callback).decode;
			},
			decode : function (data) {
				for (var i = 0, len = data.length; i < len; i++) {
					var current =
						data[i] < -0.5 ? false :
						data[i] >  0.5 ? true :
						current;

					var logicChanged = logic !== current;

					if (logicChanged) {
						// clock adjustment
						if (clock * 0.5 <= count && count <= clock * 1.5) {
							syncAvg += count;
							syncCount++;
							clock = syncAvg / syncCount;
						} else
						if (clock * 1.5 <= count && count <= clock * 2.5) {
							syncAvg += count / 2;
							syncCount++;
							clock = syncAvg / syncCount;
						} else {
							// ERROR
							clock = self.clock;
							sync = false;
							syncAvg = 0;
							syncCount = 0;
						}

						logic = !logic;

						if (!sync) {
							// surely synchronized with preamble clock
							// and detect transition to logic zero
							// ~_-_-_-_-_--_
							if (syncCount >= self.preamble && clock * 1.5 < count) {
								sync = true;
								bit = logic;
							}
						} else {
							if (count <= clock) {
								short++;
							} else {
								long++;
							}

							if (long === 1) {
								long = 0;
								bit = !bit;

								if (bit) {
									byte = byte << 1 | 1;
								} else {
									byte = byte << 1;
								}

								bitCount++;
							} else
							if (short == 2) {
								short = 0;

								if (bit) {
									byte = byte << 1 | 1;
								} else {
									byte = byte << 1;
								}

								bitCount++;
							}

							if (bitCount == 8) {
								callback(byte);
								byte = 0;
								bitCount = 0;
							}
						}
						count = 0;
					}

					count++;
				}
			}
		};
	}
};


for (var clock = 1; clock < 10; clock++) {
	var code = new ManchesterEncoding({ clock: clock });
	var data = code.encode([1, 0, 24]);

	var result = '';
	var decoder = code.decoder(function (byte) {
		// console.log([byte, String.fromCharCode(byte)]);
		result += String.fromCharCode(byte);
	});

	var data = code.encode("Hello, World");
	var noise = [];
	for (var i = 0; i < 100; i++) noise.push(Math.random() < 0.5 ? 1 : 0);
	decoder.decode(noise.concat(data));

	console.log(result === 'Hello, World');
}

ref. Manchester Coding Basics

  1. トップ
  2. tech
  3. Manchester Encoding を JS で