『日本語話し言葉コーパス』第2刷は17枚のDVD-ROMで提供され、以下のデータ・ツールを含みます。
第1刷は合計19枚(本体18枚+1枚追加)のDVD-ROMで提供されましたが、第1刷に含まれるデータは全て第2刷にも格納されています。また第2刷で新たに追加したデータもあります(以下7,13参照)。
第2刷における変更点の詳細についてはこちらをご覧ください。
総数3302講演。約90%はモノローグ音声、残り約10%は、対話、朗読、再朗読の音声(音声サンプル)
すべての音声データを書き起こしたテキスト。表記を統一した漢字仮名まじりテキストと音声の細部を表現した片仮名テキストの2種類。
すべての転記テキストを長短2種類の語に区切り、品詞情報を付与。国語辞典の見出し語に相当する「短単位」と複合語・複合辞を表現する「長単位」の2種類。
『日本語話し言葉コーパス』から収集した短単位を用例付電子化辞書に編纂。
転記テキストを「節」(clause)の境界で区分して文法的な分類ラベルを付与。
収録された音声が聴き手にあたえる主観的印象の評定値。
子音や母音のラベルとイントネーションを言語学的な基準で記号化したラベル(X-JToBI)。第2刷では、xwaves 形式(xwaves・wavesurfer用)のデータに加え、TextGrid形式(praat用)のデータも提供しています。
節単位(上記5)を範囲とする文節間の修飾関係の情報。
講演内容を自由に要約したり、転記テキストを10%ないし50%に抜粋したテキスト。
話し手の意図を推測して談話の構造を区分化したデータ。
上記情報の大部分をXML言語によって統合したデータ。
音声認識研究用の統計モデル。
話し手(延べ3302名、異なり1417名)の性別、生年代、出生地、居住歴などの情報。収録時の年齢情報(5年刻み)を新規に追加しました。
20種類の電子文書。
転記テキストを読みながら、対応する音声を聴取できます。簡単な音声分析もできます(サンプル画像)
GUIを利用してXPathの検索式を作成し、個々のXML文書を検索できます。(サンプル画像)。
XML文書に属性として埋め込まれた係り受け構造の情報を可視化して表示します。節の分類結果、重要文として選択されたかどうかの情報も表示できます(サンプル画像)。