スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

続・情報保障の未来

機械による音声認識は難しい。私が知る限り、およそ次のようなハードルがある。

  1. 音波を「人間の声」として認識する。
    audio-wave-vector.jpg

    こういうのを、
    「キシャノキシャガキシャデ…」と認識できなくてはならない。

  2. 「人間の声」を、日本語として適切に表記する。
    「キシャノキシャガキシャデ…」を、「貴社の記者が汽車で…」と表記できなくてはならない。

  3. 雑多な背景音の中から、目的の音声をより分ける。
    込んでいるマクドナルドの店内で、聞こえてくる雑多な音声の中から、目の前の店員の
    「ハンバーガーとポテト、nnn円です」
    という声だけをより分けて認識できなくてはならない。

  4. 話し言葉を、ある程度整えて文字化する。
    話し言葉は、しばしば「てにをは」が微妙に狂っていたり、能動態と受動態が混乱していたりする。それでも普通、音声で聞くならば、話の流れ、発語の勢いといったものに助けられて、何となく話し手の意図は理解できるものである。
    しかし、これをそのまま忠実に文字化して、字幕を目で追うならば、とても読めたモノではない…ということになりがちである。話の流れ、発語の勢いなどの「メタ情報」が、字幕からは一切そぎ落とされてしまうからだ。
    ゆえに、ある程度「書き言葉」に近づけるような操作(これを整文という)が必要になってくる。


数年前、音声認識のデモンストレーションを見たことがあるが、事前に「単語辞書」のようなものを十分に仕込んでおいて【2.の対策】、静かな部屋で【3.の対策】、マイクに向かってはっきりと明瞭な発音で話して【1.の対策】、どうにか「結構ちゃんと認識するじゃん」というレベルだった。
(今はどのくらい進化しているか、最新状況は私には分からない)

ここで、1.2.3.と、4.とは、難しさの質が全く違うことにお気づきであろうか。
すなわち、前者(1.2.3.)は、機械にとって難しいとはいえ、頑張れば何とか正解にたどり着く可能性がある。現に、数年前に私が見たデモンストレーションでも、結構いい線いっていた。しかし、後者(4.)は、そもそも何が正解であるかが曖昧だ。整文するといっても、人によって、全く違う文章になりかねず、人間にとっても難しいのである。いわんや機械をや。

そう考えると、先日の記事(情報保障の未来)で書いたように、機械による音声認識がパソコン要約筆記に取って代わる…ということは無く、機械と人間の共同作業がベストになるかもしれない。機械が1.2.3.までを分担し、その結果に対して、訓練を受けた人間が迅速に、適切に4.を施すことで、読みやすい字幕を提供する、というスタイルだ。

パソコン要約筆記奉仕員チームで、今度、4.をテーマとした研修を行うべく、現在準備中です。具体的には、「えーっと」等の冗長な語句や、言葉の繰り返し、てにをはが微妙に狂っている、等々、そのまま文字化したのではグダグダ字幕になってしまうような話をネタとして流して、連携入力を行い、最終的に、整文された読みやすい字幕になっているかどうか、という観点で検証する予定です。
スポンサーサイト

コメントの投稿

非公開コメント

プロフィール
カテゴリ
全記事表示リンク

全ての記事を表示する

最新記事
最新コメント
最新トラックバック
月別アーカイブ
RSSリンクの表示
リンク
QRコード
QR
カウンター
にほんブログ村 その他生活ブログ 献血・ドナーカードへ
にほんブログ村
にほんブログ村 その他生活ブログ ボランティアへ
にほんブログ村
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。