Webライターとして生きる

五条ダンのブログ。「楽しく書く」ための実践的方法論を研究する。

音声認識ソフト『AmiVoice SP2』を半年間使ってみた所感(辛口レビュー)

AmiVoice SP2にはアフィリエイト・プログラムがあるため、どうにもレビュー記事には『お金を稼ぎたい人のポジショントーク』が多い。レビュー記事は、良いところは良い、悪いところは悪いとはっきり書かなければ意味がない。

今回はAmiVoice SP2(音声認識ソフト)を半年間使ってみた所感を書いていきたい。検索経由で当記事にお越しになった方はご存知のとおり、AmiVoice SP2は『声で文章を書くためのソフト』です。

アマゾンで★1の低評価レビューが多いのは何故か?

僕が実際に購入したのは AmiVoice SP2のダウンロード版(Amazon)で、使用感には概ね満足している。しかしアマゾンのカスタマーレビューを見たらびっくり。

★1の低評価がたくさんついているではないか。(パッケージ版の方には44件のカスタマーレビューがあり、うち10人が★1をつけている)

低評価は「音声認識精度が悪い」が主たる理由のよう。

でもちょっと待ってほしい。これについては、購入者側の大きな誤解が潜んでいる。(なお、僕個人はAmazonにレビューをつけるならば★4くらいが妥当と感じる)

「AmiVoice SP2を使えば、MP3の音声データ―を自動で文字起こししてくれる」という誤解

たしかに、AmiVoice SP2に付属してくるソフト「書き起こしエディター」には、MP3を音声認識して自動で書き起こしてくれる機能が備わっている。これを使えば、会議の議事録や講義ノートが全自動で作成できるのでは…!!と、期待していた方も多かったと思う。

しかし、この自動書き起こし機能については、まったく期待してはいけない!

論より証拠、百聞は一見にしかず。手持ちの講義音声データ(MP3)を本ツールで自動書き起こししてみた結果をお見せしたい。

(画像クリックで拡大 ※PC閲覧時)

はい、間の主張シネマのマッコ店舗開発方法です守り通した心のオアシス何でも仕事中で教育する所かっていうぐらいなんですけど明日ね+

といったような日本語のような日本語でない、意味不明な文字列が延々と続く。一昔前のワードサラダ・スパムのようで懐かしい。まったく、読めたものではない。

元音声は、憲法学の講義だ。しかし到底、そうとは思えない。まったく別の会話に認識されてしまっている。

『会議の議事録』や『講義ノート』を自動で作成する用途には、AmiVoice SP2はまったくもって向かない。向かない、というよりも不可能である。

MP3の自動書き起こしは無理!ということは最初に強調しておきたい。★1レビューをつけている人の多くは、できるものだと誤解をしてソフトを買ってしまっている。

誤解を解いておこう。

AmiVoiceについてくる「書起こしエディター」は、テープ起こしを自動でやってくれるツールではない。(本来的な使い方としては)テープ起こしの補助をしてくれるツールなのだ。

これについては後で詳しく。

「音声認識の精度は、マイクの性能ではなくソフトの性能によって決まる」という誤解

これも間違い。ソフト以上に、マイクの性能が音声認識の精度にはめちゃくちゃ影響してくる。アマゾンで★1をつけて「認識精度わるい!使いものにならん!」と怒っている人は、もしかしたら安物のヘッドセットマイクを使っているのではなかろうか。

公式オンラインストアには『PHILIPS SpeechMike Air』という\お値段なんと10万円ッ!/近くする超高性能マイクが販売されている。さすがに、これを買えとまでは言わない。

だがせめて、数千円程度のそこそこ良質なマイクは用意しておきたい。

マイクの種類によって、実際にどのくらい音声認識の精度は変わるのだろうか。AmiVoice SP2で実験してみた。

今回朗読に使用した文章は、夏目漱石の『こころ』冒頭。明らかな誤認識箇所に赤字をつけている。

【千円弱の格安ヘッドセットマイクの場合】

私はそのひとつ練り先生と呼んでいた。だからここで甘さが先生と書くだけで本名は打ち明けない。これは世間をはばかる遠慮というよりも、その方が私にとって自然だからである。私はその人の記憶を呼び起こすごとに、M先生と痛くなる。筆を執っても心持ちは同じことである。よそよそしい頭文字などとても使う気にならない。

(夏目漱石『こころ』 ※AmiVoice SP2での音声入力例)

150文字の文章だが、誤認識が5ヶ所も出てくる。AmiVoice SP2は、誤認識箇所の修正が柔軟にできない。赤字箇所はキーボード入力で修正してやる必要がある。

ではマイクを変えて同じ文章を読み上げてみると、どうであろうか。

【SONY ECM-PCV80U(4千円で買ったマイク)の場合】

私はその人を常に先生と呼んでいた。だからここでもただ先生と書くだけで本名は打ち明けない。これは世間をはばかる遠慮というよりも、その方が私にとって自然だからである。私はその人の記憶を呼び起こすごとに、すぐ「先生」と痛くなる。筆を執っても心持ちは同じことである。よそよそしい頭文字などはとても使う気にならない。

(同上)

誤認識は1ヶ所のみ。「言いたくなる」がどうしても「痛くなる」と認識されるが、それを除けば完璧だ。ちなみに読点や句点も「てん」「まる」と発声することで入力できる。※句読点を自動入力する設定にもできる

マイクの種類ひとつで、認識精度が変わってくる。マイク選びは重要だ。

ちなみに僕が使っているのはSONY エレクトレットコンデンサーマイクロホン ECM-PCV80U [Amazon]というやつ。カラオケで歌うときに使うような、手持ち型のゴツいマイクだ。(昔ケーズデンキで買ったときは4千円くらいしたのだけれど、アマゾンでは現時点で2,960円で販売されている)

カラオケ気分で執筆できるので、私的には気に入っている。

もちろん、ヘッドセットマイクを使用しても構わない。定価4千円以上のものであれば、SONY製でもELECOM製でもそうそうハズレは引かないと思う。(USB接続タイプのマイクを推奨)

とにかくAmiVoice SP2を使うのであれば、マイクには気をつけたいところ。

有料の音声入力ソフト全般に言える「短所」について

まず、購入検討者が気にしていると思われる短所。

「AmiVoice SP2の発売日が2012年と、だいぶ古いソフトであること」については心配いらない。

というのは、AmiVoice SP2は定期的にアップデートを実施しており、販売当初より認識精度も改善されている。

音声認識ソフト AmiVoice SP2(最新アップデート情報)を見たら分かるとおり、直近のアップデートは2017/02/27(Ver 2.13)と新しい。公式がサポートを続けてくれているのは心強い。

AmiVoice SP2を購入したら、最新版にアップデートしたうえで「標準(大)- 汎用音響モデル」をマスター辞書にセットすることをおすすめしたい(詳しくは取扱説明書を)。「標準(大)- 汎用音響モデル」では音声認識が改善されている。

以下では、有料の音声入力ソフト全般に言える短所について述べていきたい。

そもそもGoogle音声入力が無料で使えるのに、有料のソフトを買う必要があるのか?

せやな。僕も無条件には、AmiVoice SP2をおすすめできない。iPhoneにはSiriの音声入力がついている。AndroidにはGoogle音声入力がある。有料ソフトいらんやんって話。

Google音声入力は無料で使うことができ、なおかつ認識精度もAmiVoice SP2と大差ない。実用レベルに達している。

Google音声入力には「読点と句点の制御ができない」「余計な半角スペースが挿入される」といった弱点はある。それも音声入力支援の無料アプリや、半角スペース除去ツールを使えば解消はできる。

無料の音声入力の実力はいかほどだろう? 手持ちのスマートフォン(Google音声入力)で試してみた。読み上げた文章は先程と同じく、夏目漱石『こころ』の冒頭。

【Google音声入力 by Androidスマホの場合】

私はその人を常に先生と呼んでいた。だからここでもただ先生と書くだけで本名は打ち明けない。これは世間をはばかる遠慮というよりもその方が私にとって自然だからである。私はその人の記憶を呼び起こすごとにすぐ先生と言いたくなる。筆をとっても心も家は同じことである。よそよそしい頭文字などはとても使う気にならない。

(読点と句点は補助アプリの『音声入力Voice』を使って入力)

 「心持ち」を「心も家」と誤認識したくらいで、他はAmiVoice SP2と肩を並べる認識精度である。

これほどに優秀な音声入力が無料で使えるとあっては、AmiVoiceやドラゴンスピーチなど有料音声認識ソフトを販売する会社にとって、脅威だと思う。

Google音声入力は、Chromeブラウザを入れている人であれば、Googleドキュメントで使用することができる。つまり、PCでも使える。

長文原稿をがっつり入力するならば、まだAmiVoice SP2の方が利点は多い。(句読点を自由に制御でき、音声入力のオンとオフもショートカットキーで自在に切り替えられるため)

しかしちょっとしたブログ記事を更新する程度で良ければ、スマホの音声入力で十分じゃないかと感じてしまう。

音声入力を使っても執筆速度が速くなるとは限らない

音声入力のメリットを謳うサイトの多くが「音声入力で執筆速度が上がりますよ!!」と宣伝している。

僕は、この主張には疑問を感じている。執筆速度は、入力スピードではなく《思考スピード》に依存するからだ。物理的にどれだけ速く書けても、思考が追いつかなければ意味がない。

という話は、以前にこの記事(音声入力で原稿を書くメリットとデメリット)でも書いたとおり。

「Google日本度入力」や「ATOK」の予測変換機能をフル活用すれば、キーボードでも相当な入力スピードを叩き出せる。ブラインドタッチのできる人が、執筆速度向上のために音声入力を使う理由は、見いだせない。

音声入力で「小説」を書くのは難しい

小説の口述筆記に音声認識ソフトを使いたい人もいるだろう。残念ながら、小説の執筆は音声入力にはあまり向かない(文体によるけれど)。

先程の夏目漱石『こころ』の冒頭文章は、比較的平易な言葉で書かれていた。AmiVoice SP2でもGoogle音声入力でも、ほぼ100%に近い精度で入力できた。

ところが、文体が難しくなると、音声認識の精度は下がる。

江戸川乱歩の『人間椅子』の冒頭文章で試してみよう。

【江戸川乱歩『人間椅子』をAmiVoice SP2で音声入力した例】

良子は、毎朝、夫の盗聴見送ってしまうと、はいつも10時をすぎるのだが、やっと自分の体なって、洋館の方の、夫との共用の書斎へ、閉じこもるのが例になっていた。

佳子が良子になってしまうのは仕方がないとして(このあたりは単語登録で解消できる)、「登庁」が「盗聴」、「それ」が「弦」、「体になって」が「体いなって」と誤入力された。

【Google音声入力を使った例】

よしこは毎朝夫の盗聴を見送ってしまうと、それはいつも10時を過ぎるのだがやっと自分の体になって、羊羹の方の夫と教養の詳細へ閉じこもるのが0になっていた。

一方のGoogle音声入力でも、江戸川乱歩の文体は不得手みたいだ。

体感として、音声認識ソフトは「小説を書くこと」を苦手とする。

濁音に弱い

AmiVoiceのもうひとつの欠点としては「濁音に弱い」というのがある。例えば「ドッグフード」と入力したいのに、何度やっても「ドックフード」になってしまう。

この場合は、「(読み)ドックフード→(登録語句)ドッグフード」として、AmiVoiceの方に単語登録しておけば解消される。

Google音声入力に対してAmiVoice側に利点があるとすれば、《単語登録》や《音響学習》機能を使うことによって、入力精度を向上させられることだろう。

AmiVoice SP2の良いところ

ここまでさんざん愚痴をこぼしてしまったが、僕としてはAmiVoice SP2のカスタマーレビューは★4くらいが妥当ではないかと感じている。

ライターが使う入力支援ツールとして、AmiVoice SP2は十分に実用に耐えうる。

以下ではメリットを挙げていく。

腱鞘炎の発症リスクを下げる

ライターの職業病ともいえるのが腱鞘炎だ。1日に1万文字も2万文字も原稿を書いていれば、当然ながら腕や指を痛めやすい。

僕はこんなレビュー記事を書いといてなんだけれども、執筆では「キーボード入力」をメインで使っている。音声入力の利用頻度は、執筆業務全体のなかで20%ほど。

それでもキーボードでの執筆の合間に音声入力を挟むことで、だいぶ楽に記事作成ができる。今書いているこの原稿も、(現時点で既に5,000文字を超えているのだが)キーボード入力と音声入力のハイブリッド方式で執筆している。

「音声入力は楽」というのはその通りで、1日に1万文字以上の文章を打ち込む必要のある人は、音声入力を導入するメリットは大きいと思う。※執筆速度が上がるわけではないので念のため

AmiVoice SP2には「テープ起こし支援ソフト」が付属している

AmiVoiceには「書起こしエディター」というテープ起こしを支援するソフトが付属している。冒頭に挙げた、MP3を自動書き起こしする機能については使い物にならない。が、それ以外の機能については便利。

テープ起こしの仕事をする人には、極めて役立つことと思う。

テープ起こしの仕事をしている人は、「Okoshiyasu2」などのフリーソフトを使っているかもしれない。この「書起こしエディター」はOkoshiyasu2のゴージャス版みたいな感じのソフトで、文字起こし業務を楽にしてくれる。

再生速度や再生音量の変更はもちろんのこと、ショートカットキーで「再生」「停止」「音声時間情報の挿入」「話者入力」「巻き戻し」等の操作ができる。

本ツールを使えば「聴く→復唱」の手順を繰り返すだけで、楽に文字が入力できる。

テープ起こし業務と音声入力の相性は、とても良い。

あくまで人力での文字起こしを補助するツールと理解されていたならば、アマゾンで★1評価が並ぶことはなかっただろう。

おわりに

ちょっと書き過ぎてしまったかもしれない。

AmiVoice SP2のメリットとデメリットについて、もう一度まとめておきたい。

【メリット】

  • 認識精度は実用に耐え得る
  • テープ起こし支援ソフトが付属している
  • 《音響学習》と《単語登録》で精度を上げられる
  • なんだかんだいって「楽」

【デメリット】

  • 無料で使える高精度の音声入力ソフトの存在(Google音声入力)
  • MP3から自動で書き起こせるわけではない(機能そのものはあるが、実用に耐えない)
  • 濁音の認識が苦手(ドッグフード→ドックフード)
  • 小説の執筆は不得手
  • 安物のマイクは使えない

こんなところだろうか。

ライティングや文字起こしなど、業務でばりばり使う人であれば、すぐに元は取れると思う。コストを気にするのなら、ぶっちゃけ無料で使えるGoogle音声入力で良い(認識精度はそこまで変わらない)。

以上、購入を検討する人のお役に立てたら嬉しく思う。

 

(終わり)


Copyright (C) 2016-2019 五条ダン All Rights Reserved.