倍速再生すればAI音声認識は速くなるのか

高精度な音声認識のモデルWhisperを使って、動画の文字起こし→切り抜きに応用しています。

Whisperは複数のモデルサイズがあり、モデルサイズが大きいほど、高精度になりますが、処理も遅くなります。

私はポッドキャストや、オーディオブックを倍速で聴くことが多いのですが、人間は意外と倍速の音声でも内容を聞き取れるように思います。

そこで、AIに入力する音声を倍速にすれば、精度を保ちながら処理も速くなるのではという期待が生まれました。

この仮説を検証するために、Whisperに倍速の音声を入力して音声認識をさせてみる実験を行いました。

結果としては、音声認識にかかる処理時間はほとんど変わらないという、ネガティブなものでした。

音声データ

今回の実験に使う音声データは、一回だけ収録した自分のポッドキャストで、6分25秒の長さがあります。

ffmpegを使って倍速化

ffmpegのaudio filterの「atempo」でスピードを指定して、元の音声データを加工します。

結果

処理時間

モデル別に音声の速度を変えながら処理時間を測りました。

結果としては、モデル毎の処理時間はもちろん違うものの、音声データのスピードを変えても、音声認識にかかる時間はほぼ横ばいでした。

largeのモデルについては、スピードを上げた時に、途中で処理時間短縮が見えるのですが、少なくともスピードアップに応じて連続的に時間短縮のような効果が現れるわけではなさそうです。

認識結果

処理時間短縮はできなかったので、目的は果たせなかったのですが、一応、音声認識の結果も見ておきましょう。

下の左が3倍速、右が2倍速の音声をlargeモデルに入力した結果です。冒頭のみで比較してますが、どちらも精度としては変わらないかなという印象です。(どちらも過学習→科学習となっているのが目につきますが、1倍速でも同じでした)

おはこんばんちはです エンド申します 例えんばなしでは専門用語を例えばなしを交えながら わかりやすく解説したいと思います今日のお題は科学習です 

3倍速

おはこんばんちはです。えんと申します。例えん話では専門用語、例え話を交えながら分かりやすく解説したいと思います。今日のお題は科学習です。 

2倍速

まとめ

Whisperの倍速の音声を入力することで、処理が速くなるかと検証する実験を行いました。結果としては、倍速にしても、処理時間はほぼ変わず、精度も変わらずでした。

恐らくは倍速にしてもトークン数としては変わらないとかが原因なのかなと思っています。

音声認識には影響がありませんでしたが、音声ファイルとしては倍速にするとファイルサイズが半分になるので、ディスクの節約には使える小技になりそうです。

コメント

タイトルとURLをコピーしました