『日本語話し言葉コーパス』第２刷収録データ詳細

『日本語話し言葉コーパス』第２刷は17枚のDVD-ROMで提供され、以下のデータ・ツールを含みます。

第１刷は合計19枚(本体18枚+1枚追加)のDVD-ROMで提供されましたが、第１刷に含まれるデータは全て第２刷にも格納されています。また第２刷で新たに追加したデータもあります（以下７，１３参照）。
第２刷における変更点の詳細についてはこちらをご覧ください。

１．音声データ（16kHz, 16bit linear）　６６１時間

総数3302講演。約90％はモノローグ音声、残り約10％は、対話、朗読、再朗読の音声（音声サンプル）

２．転記テキスト　７５２万語

すべての音声データを書き起こしたテキスト。表記を統一した漢字仮名まじりテキストと音声の細部を表現した片仮名テキストの２種類。

３．形態論情報　７５２万短単位、６３１万長単位

すべての転記テキストを長短２種類の語に区切り、品詞情報を付与。国語辞典の見出し語に相当する「短単位」と複合語・複合辞を表現する「長単位」の２種類。

４．短単位辞書　５万語

『日本語話し言葉コーパス』から収集した短単位を用例付電子化辞書に編纂。

５．節単位情報　５０万語分

転記テキストを「節」(clause)の境界で区分して文法的な分類ラベルを付与。

６．印象評定データ

収録された音声が聴き手にあたえる主観的印象の評定値。

７．分節音・イントネーションラベル　５０万語分

子音や母音のラベルとイントネーションを言語学的な基準で記号化したラベル（X-JToBI）。第２刷では、xwaves 形式（xwaves・wavesurfer用）のデータに加え、TextGrid形式（praat用）のデータも提供しています。

８．係り受け構造情報　５０万語分

節単位（上記５）を範囲とする文節間の修飾関係の情報。

９．要約・重要文情報　５０万語分

講演内容を自由に要約したり、転記テキストを10％ないし50％に抜粋したテキスト。

10．談話構造情報　４０講演分

話し手の意図を推測して談話の構造を区分化したデータ。

11．XML文書

上記情報の大部分をXML言語によって統合したデータ。

12．音響モデル、言語モデル

音声認識研究用の統計モデル。

13．話者情報

話し手（延べ3302名、異なり1417名）の性別、生年代、出生地、居住歴などの情報。収録時の年齢情報(5年刻み)を新規に追加しました。

14．マニュアル

２０種類の電子文書。

15．音声・テキストブラウジングツール

転記テキストを読みながら、対応する音声を聴取できます。簡単な音声分析もできます（サンプル画像）

16．XML文書検索ツール

ＧＵＩを利用してXPathの検索式を作成し、個々のXML文書を検索できます。（サンプル画像）。

17．係り受け構造、節単位、重要文情報ビューワー

XML文書に属性として埋め込まれた係り受け構造の情報を可視化して表示します。節の分類結果、重要文として選択されたかどうかの情報も表示できます（サンプル画像）。

概要

利用・申込方法

公開データ（第９刷）

CSJ-RDB Ver.2.0

CSJ-「中納言」

サンプル・データ

ドキュメント

研究成果

『日本語話し言葉コーパス』第２刷収録データ詳細

１．音声データ（16kHz, 16bit linear）　６６１時間

２．転記テキスト　７５２万語

３．形態論情報　７５２万短単位、６３１万長単位

４．短単位辞書　５万語

５．節単位情報　５０万語分

６．印象評定データ

７．分節音・イントネーションラベル　５０万語分

８．係り受け構造情報　５０万語分

９．要約・重要文情報　５０万語分

10．談話構造情報　４０講演分

11．XML文書

12．音響モデル、言語モデル

13．話者情報

14．マニュアル

15．音声・テキストブラウジングツール

16．XML文書検索ツール

17．係り受け構造、節単位、重要文情報ビューワー

概要

利用・申込方法

公開データ（第９刷）

CSJ-RDB Ver.2.0

CSJ-「中納言」

サンプル・データ

ドキュメント

研究成果

『日本語話し言葉コーパス』第２刷収録データ詳細

１．音声データ（16kHz, 16bit linear） ６６１時間

２．転記テキスト ７５２万語

３．形態論情報 ７５２万短単位、６３１万長単位

４．短単位辞書 ５万語

５．節単位情報 ５０万語分

６．印象評定データ

７．分節音・イントネーションラベル ５０万語分

８．係り受け構造情報 ５０万語分

９．要約・重要文情報 ５０万語分

10．談話構造情報 ４０講演分

11．XML文書

12．音響モデル、言語モデル

13．話者情報

14．マニュアル

15．音声・テキストブラウジングツール

16．XML文書検索ツール

17．係り受け構造、節単位、重要文情報ビューワー

１．音声データ（16kHz, 16bit linear）　６６１時間

２．転記テキスト　７５２万語

３．形態論情報　７５２万短単位、６３１万長単位

４．短単位辞書　５万語

５．節単位情報　５０万語分

７．分節音・イントネーションラベル　５０万語分

８．係り受け構造情報　５０万語分

９．要約・重要文情報　５０万語分

10．談話構造情報　４０講演分