言語資源開発センター -Center for Language Resource Development-
English 国立国語研究所
 

『日本語話し言葉コーパス』第5刷収録データ詳細

『日本語話し言葉コーパス』第5刷はUSBメモリ1本(128GB)で提供され、以下のデータ・ツールを含みます。
第5刷における変更点の詳細についてはこちらをご覧ください。

1.音声データ(16kHz, 16bit linear) 661時間

総数3302講演。約90%はモノローグ音声、残り約10%は、対話、朗読、再朗読の音声。(音声のサンプル)

2.転記テキスト 752万語

すべての音声データを書き起こしたテキスト。表記を統一した漢字仮名まじりテキストと音声の細部を表現した片仮名テキストの2種類。

3.形態論情報 752万短単位、631万長単位

すべての転記テキストを長短2種類の語に区切り、品詞情報を付与。国語辞典の見出し語に相当する「短単位」と複合語・複合辞を表現する「長単位」の2種類。

4.短単位辞書 5万語

『日本語話し言葉コーパス』から収集した短単位を用例付電子化辞書に編纂。

5.節単位情報 50万語分

転記テキストを「節」(clause)の境界で区分して文法的な分類ラベルを付与。

6.印象評定データ

収録された音声が聴き手にあたえる主観的印象の評定値。

7.分節音・イントネーションラベル 50万語分

子音や母音のラベルとイントネーションを言語学的な基準で記号化したラベル(X-JToBI)。Xwaves 形式(Xwaves・wavesurfer用)とTextGrid形式(praat用)のデータを提供。また、ラベリング時に用いたF0情報も提供。

8.係り受け構造情報 50万語分

節単位(上記5)を範囲とする文節間の修飾関係の情報。

9.要約・重要文情報 50万語分

講演内容を自由に要約したり、転記テキストを10%ないし50%に抜粋したテキスト。

10.談話構造情報 40講演分

話し手の意図を推測して談話の構造を区分化したデータ。

11.XML文書

上記情報の大部分をXML言語によって統合したデータ。

12.音響モデル、言語モデル

音声認識研究用の統計モデル。

13.話者情報

話し手(延べ3302名、異なり1417名)の性別、生年代、収録時の年齢情報(5年刻み)、出生地、居住歴などの情報。

14.マニュアル

20種類の電子文書。

15.音声・テキストブラウジングツール

転記テキストを読みながら、対応する音声を聴取できます。簡単な音声分析もできます。(サンプル画像

16.全文検索システム『ひまわり』 CSJパッケージ

転記テキストの全文検索のほか、形態素解析結果を利用した検索を行うことができます。また音声を再生することもできます。詳細は下記のページからご覧いただけます。
全文検索システム『ひまわり』CSJをひまわりで利用する方法

17.係り受け構造、節単位、重要文情報ビューワー

XML文書に属性として埋め込まれた係り受け構造の情報を可視化して表示します。節の分類結果、重要文として選択されたかどうかの情報も表示できます。(サンプル画像

 

リンク Links