ExoPlayerのAudioProcessorを実装する
頭外音像定位のデモためのAndroidアプリを作っている。
音に独自の効果を加えたいときはAudioProcessor
を実装する。AudioProcessor
は前段の処理で展開された音データをPCM形式で受け取り、これを変換して返す。返したデータはその後、ビデオとの同期を取ったり再生可能な形式に変換されたりして、AudioTrack
に書き込まれる。今回のアプリで実装した主なメソッドは次の通り。
boolean configure(int, int, int) throws UnhandledFormatException
渡されるPCMデータのサンプリング周波数、チャンネル数、エンコード形式の種類を受け取る。処理可能なら渡された値を覚えておいて、設定が変わったらtrue
、変わらなかったらfalse
を返す。もし処理できない形式だったら、UnhandledFormatException
を投げる。このアプリでは44100Hz, 2ch, 16bitの形式だけ受け付けることにしている。
int getOutputEncoding()
出力するエンコード形式の種類を返す。使用可能なエンコード形式は@C.Encoding
な定数として定義されている。このアプリではC.ENCODING_PCM_16BIT
を返している。
int getOutputChannelCount()
出力するデータのチャンネル数を整数で返す。このアプリでは2を返している。
void queueInput(ByteBuffer)
音データのPCMをByteBuffer
で受け取って処理する。処理したデータはここではなく後述するgetOutputBuffer()
で返す。最終的な計算結果は適当なByteBuffer
なフィールドに入れておく。このアプリはエフェクトをかけるかどうかのスイッチを持っていて、これを切り替えることでエフェクト有り/無しの音を聞き比べられるようにしている。
エフェクト有りの場合
エフェクト有りの場合はLチャンネルとRチャンネルのそれぞれにHRTFをかける。左側の図のようなステレオ音場を再現するためには、右側の図の計算イメージで示すように4回の畳み込み計算を行わなければならないのだが、この処理が結構重いため、1つの畳み込みを1つのスレッドに割り当てて、4つのスレッドを使って並列に処理している。
図(左)再現しようとしている音場、(右)計算のイメージ
また、時間領域における畳み込み計算は周波数領域における乗算で置き換えられることから、FFTとIFFTを使っている。FFTってそういえばちゃんと書いたことなかったな…と思い立って、今回は外部のライブラリを使わず自分で実装した。畳み込み計算をすると音データが長くなるので、元の長さの分だけ返すようにする。はみ出た分は次のフレームの計算結果に足しあわせる。
エフェクト無しの場合
エフェクト無しの場合は受け取ったデータをほぼそのまま返す。単にそのまま返してしまうとエフェクト有りの時との音量差が大きいので、ちょっと小さくしている。また、前のフレームがエフェクト有りだった時には畳み込み計算の結果がオーバーラップしてくるのでその分を足しあわせてやる必要がある。
ByteBuffer getOutput()
queueInput()
で作ったByteBuffer
オブジェクトを渡す。一度渡したオブジェクトが2度と渡されないよう、AudioProcessor.EMPTY_BUFFER
を使って置き換えておく必要がある。