おそらく現状、mac最強!!(自分調べ)映像から自動で音声認識して文字起こしする方法。しかも無料。

ぜかインタビュー映像の内容を、文字に書き起こさなければならなくなりました。
やりはじめてわかったのですけど、これ一体何時間かかるんだろう?

40分のインタビューを書き起こすのに、その数倍の時間が必要でした。

書き起こさなければいけない、インタビュー動画はまだまだあります。
google先生で調べてみても、音声を認識して書き起こすのはまだまだ難しいらしく
なかなかぴったりの情報はでてきませんでした。

試行錯誤の末、とりあえずネット上の情報よりもうまいことできそうな方法を見つけました。

「macやwebでの音声認識による書き起こしは、
笑っちゃうくらいダメだった」みたいな
記事もありましたが、ちょっと工夫したら
意外や意外、6〜7割くらいは文章になっていまして、びっくり。

全文、手打ちすることを考えたら、時間も疲労も半減以上の効果がありました。

おそらく現状最強(2017年12月現在)の方法は、以下な感じです。

自動音声認識の基本的なやり方

いたって一般的な方法です。

「スピーカーからの出力音声を、マイクの入力音声。googleDocsに音声認識させる」

よく紹介されているやりかただと思いますが、ここにさらに
書き起こし補助ツールをひとつ追加して、精度の向上を図りました。

まずは準備

今回はmacを使って文字起こしをします。
macだけでも音声認識機能はありますが、無料のアプリを使うことでもっと精度が上がります。

余談ですが、macで音声認識を始めると、内蔵スピーカーで流れている
youtubeやQTの音声が止まってしまう、という情報がネット上に多くありましたが、
これ、解決できますね。

「システム環境設定」>「アクセシビリティ」>「音声入力」を開いて、
「音声入力中にオーディオ出力を消音」のチェックをはずせば、
音声入力中にyoutubeとかからの音が消えません。

アクセシビリティ

でも、今回は別の方法で。

準備するアプリと環境は以下な感じ。

  • SoundFlower
  • Audio MIDI設定
  • CasualTranscriber
  • google Docs

記事中アイコン

SoundFlowerをダウンロードする

まずはSoundFlowerをダウンロードします。

Soundflowerは、macの音声入出力をコントロールできる
無料アプリで、GitHubからダウンロードできます。

現状最新は、Soundflower-2.0b2.dmgでした。
.dmgファイルをダウンロードしたら、指示に従ってインストールします。

通常のアプリと違って、.appファイルなどがインストールされるわけではないそうで、
applicationsフォルダを探してもSoundFlowerアプリがあるわけではありません。

このあたり詳しくはこちらのサイトを参考にさせてもらいました。

インストールできたら、SpotlightSearchで「Sound」と検索します。
もしくは、システム環境設定を開いて「サウンド」を選択しても一緒です。

サウンド出力

「出力」タブを開くと、通常の「内蔵スピーカー」以外に
「SoundFlower(2ch)」、「SoundFlower(64ch)」が選択できるようになっているので、
「SoundFlower(2ch)」を選択します。

同様に「入力」タブも「SoundFlower(2ch)」を選択します。

サウンド入力

これで、「スピーカーからの出力音声を、マイクの入力音声に」することができました。

Audio MIDI設定を変更する

以上のSoundFlowerの設定のままでも、googleDocsでの音声入力は可能です。

でも、再生してみるとわかるのですが、
このままだと音が聞こえません。

正確には、音声は出力されているのですが、内蔵スピーカーから出力されていないので、
ぼくらには聞こえません。

自動書き起こしするにしても、音が聞きながらの方が作業がしやすいので、
そこで、音が聞こえるように設定を変更します。

そこで、「Audio MIDI設定」アプリを使って、音声の出力先を複数に設定します。

「アプリケーション」>「ユーティリティ」>「Audio MIDI設定」からアプリを起動させます。

ウィンドウ左下にある「+」(プラスマーク)をクリックすると現れる
「複数出力装置を作成」を選択。

AudioMIDI設定

右側のウィンドウの「SoundFlower(2ch)」と「内蔵スピーカー」の両方のチェックボックスに
チェックをいれるます。

これで、音が聞けるようになります。

CasualTranscriberで速度調整する

喋っているスピードがゆっくりならこのままでもいいのですが、
普通の速さで喋っていたりすると、音声認識がついていきません。

そこで、ネットで評判のよかったテープ起こしツールのCasualTranscriber
使って速度をコントロールします。

CasualTranscriberはquicktimeなどの映像データを読み込んで、
速度を調節することもできますし、3秒進むや5秒戻るなど書き起こししながら
映像データのコントロールもしやすい(しかもショートカットでできる!)アプリです。

CasualTranscriber

googleDocsは、ちょっとゆっくり話しかけているくらいの音声だと
認識精度がかなり上がるので、
インタビュー映像など普通にしゃべっている言葉のスピードを遅くして再生、
その音声を認識させます。

あまり遅く調整しすぎると、音声の反響が強くなってしまったりするので、
微調整しつつ、速度を決めます。

google Docsで音声認識させる

あとはgoogle Docsで音声認識させるだけです。

google Docsを開いたら、「新規ドキュメントを作成」します。

「ツール」>「音声入力」を選択すると、マイク入力ウィンドウが表示されるので、
設定が日本語であることを確認します。

googleDocs音声入力

いったんCasualTranscriberに戻って、ゆっくりにした状態で再生。
すぐにgoogleDocsのページに戻って、マイク入力をクリックすると
音声認識がはじまります。

googleDocsマイク

明瞭に発音されているところは結構な精度で文章化されていくと思います。

残念ながら、人の声がかぶっていたり、音声が不明瞭なところや
滑舌が悪いところはわけのわからない文字に変換されますが、
それは今後の認識精度向上に期待しましょう。

一段落分ぐらい一気に変換できることもありますが、
ネット環境によっては変換機能が追いつかず、音声認識が止まってしまう場合があります。

内蔵スピーカーから出力されている音を聞きつつだとすぐ気づけるので、
その場合は、CasualTranscriberの巻き戻し機能を使ってちょっと戻り、
googleDocsのマイク入力を再度クリックします。

これを繰り返して、書き起こしを行います。

もう一度CasualTranscriberへ

googleDocsの音声認識は当然のことながら完璧ではないので、
変換ミスが多々あるので、最終的には手打ちでの書き起こしが必要になります。

ここでもう一回CasualTranscriberに活躍してもらいます。

googleDocsで変換された文章をCasualTranscriberにコピペ。
映像を再生しながら、同時に文章を書けるので、
テキストエディタやgoogleDocsを使うよりも快適に修正していけます。

音声認識の効果は?

完全に自動でほったらかしといかないところは残念ですが、
自分で全部手打ちで打つよりも、疲れる度合いは比較にならないくらい楽です。

NHKアナウンサーには「NHK式7つのルール」というものがあるそうです。
そのうちの1つに、「1分300文字でゆっくり話す」というルールがあって、
NHKのアナウンサーが話す速さは、これくらいだそうです。

それに対して、タイピングのスピードは1分100文字打てれば早い方、と
言われているようです。

単純に比較しても、音声入力できればタイピングの3倍以上の速さが
可能になりそうです。

実際にはどうしてもそこからリライトが必要になりますが、
40分のインタビューがNHK並のスピードだったとしても、12000文字。

それをひたすら打ち続けても、2時間かかる計算になります。

やってみるとわかりますが、2時間タイピングし続けるのは結構ハードなので、
半分くらいを音声認識してもらうとだいぶ楽です。体力的に。

きょうはこんなところのことを話半分で。

この記事が気に入ったら
いいね!しよう

Twitter で

PAGE TOP