『日本語話し言葉コーパス』第３刷収録データ詳細

『日本語話し言葉コーパス』第３刷は17枚のDVD-ROMで提供され、以下のデータ・ツールを含みます。
第３刷における変更点の詳細についてはこちらをご覧ください。

１．音声データ（16kHz, 16bit linear）　６６１時間

総数3302講演。約90％はモノローグ音声、残り約10％は、対話、朗読、再朗読の音声。　（音声のサンプル）

２．転記テキスト　７５２万語

すべての音声データを書き起こしたテキスト。表記を統一した漢字仮名まじりテキストと音声の細部を表現した片仮名テキストの２種類。

３．形態論情報　７５２万短単位、６３１万長単位

すべての転記テキストを長短２種類の語に区切り、品詞情報を付与。国語辞典の見出し語に相当する「短単位」と複合語・複合辞を表現する「長単位」の２種類。

４．短単位辞書　５万語

『日本語話し言葉コーパス』から収集した短単位を用例付電子化辞書に編纂。

５．節単位情報　５０万語分

転記テキストを「節」(clause)の境界で区分して文法的な分類ラベルを付与。

６．印象評定データ

収録された音声が聴き手にあたえる主観的印象の評定値。

７．分節音・イントネーションラベル　５０万語分

子音や母音のラベルとイントネーションを言語学的な基準で記号化したラベル（X-JToBI）。Xwaves 形式（Xwaves・wavesurfer用）とTextGrid形式（praat用）のデータを提供。また、ラベリング時に用いたF0情報も提供。

８．係り受け構造情報　５０万語分

節単位（上記５）を範囲とする文節間の修飾関係の情報。

９．要約・重要文情報　５０万語分

講演内容を自由に要約したり、転記テキストを10％ないし50％に抜粋したテキスト。

10．談話構造情報　４０講演分

話し手の意図を推測して談話の構造を区分化したデータ。

11．XML文書

上記情報の大部分をXML言語によって統合したデータ。

12．音響モデル、言語モデル

音声認識研究用の統計モデル。

13．話者情報

話し手（延べ3302名、異なり1417名）の性別、生年代、収録時の年齢情報(5年刻み)、出生地、居住歴などの情報。

14．マニュアル

20種類の電子文書。

15．音声・テキストブラウジングツール

転記テキストを読みながら、対応する音声を聴取できます。簡単な音声分析もできます。（サンプル画像）

16．XML文書検索ツール

GUIを利用してXPathの検索式を作成し、個々のXML文書を検索できます。（サンプル画像）

17．係り受け構造、節単位、重要文情報ビューワー

XML文書に属性として埋め込まれた係り受け構造の情報を可視化して表示します。節の分類結果、重要文として選択されたかどうかの情報も表示できます。（サンプル画像）

概要

利用・申込方法

公開データ（第９刷）

CSJ-RDB Ver.2.0

CSJ-「中納言」

サンプル・データ

ドキュメント

研究成果

『日本語話し言葉コーパス』第３刷収録データ詳細

１．音声データ（16kHz, 16bit linear）　６６１時間

２．転記テキスト　７５２万語

３．形態論情報　７５２万短単位、６３１万長単位

４．短単位辞書　５万語

５．節単位情報　５０万語分

６．印象評定データ

７．分節音・イントネーションラベル　５０万語分

８．係り受け構造情報　５０万語分

９．要約・重要文情報　５０万語分

10．談話構造情報　４０講演分

11．XML文書

12．音響モデル、言語モデル

13．話者情報

14．マニュアル

15．音声・テキストブラウジングツール

16．XML文書検索ツール

17．係り受け構造、節単位、重要文情報ビューワー

概要

利用・申込方法

公開データ（第９刷）

CSJ-RDB Ver.2.0

CSJ-「中納言」

サンプル・データ

ドキュメント

研究成果

『日本語話し言葉コーパス』第３刷収録データ詳細

１．音声データ（16kHz, 16bit linear） ６６１時間

２．転記テキスト ７５２万語

３．形態論情報 ７５２万短単位、６３１万長単位

４．短単位辞書 ５万語

５．節単位情報 ５０万語分

６．印象評定データ

７．分節音・イントネーションラベル ５０万語分

８．係り受け構造情報 ５０万語分

９．要約・重要文情報 ５０万語分

10．談話構造情報 ４０講演分

11．XML文書

12．音響モデル、言語モデル

13．話者情報

14．マニュアル

15．音声・テキストブラウジングツール

16．XML文書検索ツール

17．係り受け構造、節単位、重要文情報ビューワー

１．音声データ（16kHz, 16bit linear）　６６１時間

２．転記テキスト　７５２万語

３．形態論情報　７５２万短単位、６３１万長単位

４．短単位辞書　５万語

５．節単位情報　５０万語分

７．分節音・イントネーションラベル　５０万語分

８．係り受け構造情報　５０万語分

９．要約・重要文情報　５０万語分

10．談話構造情報　４０講演分