講演・講義の音声から字幕を付けるシステムを開発 -放送大学の講義で90%以上の認識率-

ターゲット
公開日

河原達也 情報学研究科教授、秋田祐哉 経済学研究科講師、広瀬洋子 放送大学教授らの研究グループは、講演・講義を対象とした自動音声認識の研究開発を進め、最新の深層学習を用いることで、放送大学の講義に対しても概ね90%の認識率を実現しました。これにより、人手で書き起こしを作成するよりも効率的に字幕付与できることを確認しました。本システムは、放送大学で2016年度から開始されたオンライン授業の字幕作成に活用されています。組織的にこのようなシステムが活用されているのは初の事例です。

本研究成果は、2016年12月2日に情報処理学会アクセシビリティ研究会(SIG-AAC)にて発表されました。

研究者からのコメント

河原教授

講演や講義に字幕を付与することは、聴覚障害者への情報保障のみならず、理解を深める効果があると考えています。私たちの音声認識技術により、教育コンテンツに字幕付与が普及することを期待しています。

概要

2016年度から施行されている障害者差別解消法では、障害者の社会的障壁の除去について「必要かつ合理的な配慮」を行うことが義務づけられており、聴覚障害者に対しては手話や字幕付与などの情報保障を行うことがこれに該当します。近年、さまざまな講義コンテンツがインターネット配信されていますが、字幕が付与されているものはほとんどありません。

放送大学は、日本で最大のメディアを利用した高等教育機関であり、約300の科目の講義がテレビやラジオで配信されています。その大半がインターネットでも配信され、スマートフォンやタブレットなどでも視聴できます。現在、字幕が付与されているのはテレビ講義番組の半数程度ですが、近い将来100%の字幕付与を目指しています。2016年度よりすべての学習をインターネット上の講義や課題解答で行う「オンライン授業」も開設されており、原則的に字幕を付与する方針です。障害者支援において先進的な米国においても、オンライン学習の字幕は充実しているとはいえない現在、これは画期的なことです。ただし、人的・金銭的なコストが課題となっています。

そこで本研究グループは、放送大学の講義を対象とした音声認識・字幕付与に関して研究開発を進めてきました。大規模な講演・講義のデータベースを用いて最新の深層学習を導入し、さらに教科書テキストから専門用語などの表現を自動的に登録することで、概ね90%の認識率を実現しました。

また、約30の講義を対象に音声認識結果を編集する場合と人手ですべて書き起こす場合とを比較した結果、システムを用いることで作業時間が短くなることも確認しました。具体的には、システムの認識率が87%以上を超えると優位性が見られ、93%になると1/3以上の時間短縮効果が確認できました。

本研究成果は、放送大学で2016年度から開始されたオンライン授業の字幕作成に活用されています。また、インターネット配信によるラジオ講義に字幕と静止画を付与したコンテンツも実験的に配信されています。今後、他の教育機関で作成されるさまざまな講義コンテンツに対する字幕付与にも展開されることが期待されます。

図:ラジオ講義のインターネット配信「特別講義 メディアと与謝野晶子」への字幕付与の例

詳しい研究内容について

関連リンク

書誌情報

【Permalink】 http://id.nii.ac.jp/1001/00176034/

河原 達也, 秋田 祐哉, 広瀬 洋子. (2016). 自動音声認識を用いた放送大学のオンライン授業に対する字幕付与. 情報処理学会研究報告 [IPSJ SIG Technical Report], 2016-AAC-2-5.

  • 京都新聞(12月2日 24面)および産経新聞(12月6日 25面)に掲載されました。