fresh digitable

めんどくさかったなってことを振り返ったり振り返らなかったりするための記録

ExoPlayerのAudioProcessorを実装する

頭外音像定位のデモためのAndroidアプリを作っている。

github.com

akihito104.hatenablog.com

音に独自の効果を加えたいときはAudioProcessorを実装する。AudioProcessorは前段の処理で展開された音データをPCM形式で受け取り、これを変換して返す。返したデータはその後、ビデオとの同期を取ったり再生可能な形式に変換されたりして、AudioTrackに書き込まれる。今回のアプリで実装した主なメソッドは次の通り。

boolean configure(int, int, int) throws UnhandledFormatException

渡されるPCMデータのサンプリング周波数、チャンネル数、エンコード形式の種類を受け取る。処理可能なら渡された値を覚えておいて、設定が変わったらtrue、変わらなかったらfalseを返す。もし処理できない形式だったら、UnhandledFormatExceptionを投げる。このアプリでは44100Hz, 2ch, 16bitの形式だけ受け付けることにしている。

int getOutputEncoding()

出力するエンコード形式の種類を返す。使用可能なエンコード形式は@C.Encodingな定数として定義されている。このアプリではC.ENCODING_PCM_16BITを返している。

int getOutputChannelCount()

出力するデータのチャンネル数を整数で返す。このアプリでは2を返している。

void queueInput(ByteBuffer)

音データのPCMをByteBufferで受け取って処理する。処理したデータはここではなく後述するgetOutputBuffer()で返す。最終的な計算結果は適当なByteBufferなフィールドに入れておく。このアプリはエフェクトをかけるかどうかのスイッチを持っていて、これを切り替えることでエフェクト有り/無しの音を聞き比べられるようにしている。

エフェクト有りの場合

エフェクト有りの場合はLチャンネルとRチャンネルのそれぞれにHRTFをかける。左側の図のようなステレオ音場を再現するためには、右側の図の計算イメージで示すように4回の畳み込み計算を行わなければならないのだが、この処理が結構重いため、1つの畳み込みを1つのスレッドに割り当てて、4つのスレッドを使って並列に処理している。

f:id:akihito104:20170601151729p:plain:h300:w300 f:id:akihito104:20170601151902p:plain:h300:w300

図(左)再現しようとしている音場、(右)計算のイメージ

また、時間領域における畳み込み計算は周波数領域における乗算で置き換えられることから、FFTとIFFTを使っている。FFTってそういえばちゃんと書いたことなかったな…と思い立って、今回は外部のライブラリを使わず自分で実装した。畳み込み計算をすると音データが長くなるので、元の長さの分だけ返すようにする。はみ出た分は次のフレームの計算結果に足しあわせる。

エフェクト無しの場合

エフェクト無しの場合は受け取ったデータをほぼそのまま返す。単にそのまま返してしまうとエフェクト有りの時との音量差が大きいので、ちょっと小さくしている。また、前のフレームがエフェクト有りだった時には畳み込み計算の結果がオーバーラップしてくるのでその分を足しあわせてやる必要がある。

ByteBuffer getOutput()

queueInput()で作ったByteBufferオブジェクトを渡す。一度渡したオブジェクトが2度と渡されないよう、AudioProcessor.EMPTY_BUFFERを使って置き換えておく必要がある。