1. はじめに
この文章では『日本語話し言葉コーパス』(CSJ: Corpus of Spontaneous Japanese)の詳細について解説しています。
2. 『日本語話し言葉コーパス』とは?
『日本語話し言葉コーパス』は、日本語の自発音声を大量にあつめて多くの研究用情報を付加した話し言葉研究用のデータベースであり、2004年春の完成時には質量ともに世界最大の自発音声研究用データベースになるものと期待されています。このコーパスは、東京工業大学の古井貞煕 (サダオキ) 教授を総括責任者として、独立行政法人国立国語研究所独立行政法人通信総合研究所が推進してきている文科省科学技術振興調整費開放的融合研究制度研究課題「話し言葉の言語的・パラ言語的構造の解析に基づく『話し言葉工学』の構築」(PDF / 304KB)プロジェクト(1999-2003)の一環として構築されてきています。このプロジェクトの目標は自然な話し言葉(自発音声)を工学的に処理するための基盤技術を開拓することにおかれていますが、『日本語話し言葉コーパス』はそのために必要不可欠なデータベースとして位置づけられており、その構築作業は主として国立国語研究所が分担しています。

『日本語話し言葉コーパス』は2004年春の完成後に一般公開することを予定しています。

3. 『日本語話し言葉コーパス』の規模と構造
3.1 コーパス全体の規模と構造
『日本語話し言葉コーパス』には全体で約660時間の自発音声(語数にして約700万語)が格納されています。音声信号はヘッドセット式コンデンサマイクロホンとDATによって収録したものを16ビット、16KHzにダウンサンプリングして格納しています。音声は、本コーパスのために考案された特別な正書法に従って書き起こされており、漢字仮名混じりと仮名のみの二種類の書き起こしテキストとして提供されます。また、書き起こしテキストには品詞分析が施されています。この分析もまた、長短二種類の単位による結果がそれぞれ提供されます。
3.2 コア
『日本語話し言葉コーパス』の一部、約45時間(50万語)分は、同コーパスの「コア」と呼ばれています。コアに対しては、書き起こしテキストと品詞分析結果に加えて、音声研究用に分節音ラベルイントネーションラベルを提供します。また、さらに多くの研究用情報をコアに対して付与する作業が現在進行中です。