言語資源開発センター -Center for Language Resource Development-
English 国立国語研究所
 

『日本語話し言葉コーパス』第3刷における主要な変更点

第3刷における主要な変更点を以下に記します。

1.解説文書の改訂

解説文書のうち、改訂したのは以下の四つの文書となる。

参照:『日本語話し言葉コーパス』DVD付属マニュアル

2.音声ラベルのエラー修正

第3刷では、音声ラベルのエラー修正を大規模に行った。また基準についても一部変更した。この修正内容は、音声ラベルデータ(Xwaves、Praatの両形式)のほか、各種情報を統合したXML文書にも反映されている。修正の詳細については、以下を参照のこと。

参照:音声ラベルのエラー修正(第3刷)

3.Praat用音声ラベルデータの修正

第2刷から提供されたPraat用の音声ラベルデータに固有の問題が幾つか生じていたため、Praat用ラベルデータについては上記2に加えて修正を施した。また転記基本単位毎に発話内容を記した転記テキスト層を追加した。修正の詳細については、以下を参照のこと。

参照:Praat用音声ラベルデータの修正(第3刷)

4.タグ"<FV>", "(?)" の一部削除

コアを対象に次の二種類のタグの音を再度聞き直し、実際に音が存在しないものや極めて音が小さく聞き取りが難しいものを削除した。

  • タグ"<FV>":転記テキストにおいて、ボーカルフライ等で母音が同定できない場合に用いられるタグ
  • タグ"(?)": 上記以外で音の聞き取りが一切できない場合に用いられるタグ

この修正内容は、タグ"<FV>", "(?)"を含む全てのデータに反映されている。具体的には、転記テキスト、短単位長単位混合形式データ、長単位形式形態論データ、音声ラベルデータ、XML文書である。

実際に削除した<FV>,(?)のリスト

参照:タグ"<FV>", "(?)" 削除リスト(第3刷)

5.XML文書の修正

転記テキスト、短単位、音声ラベル等の種々の研究用付加情報の修正をXML文書に反映させた。種々の研究用付加情報の修正については上記2.および4.を参照のこと。

また、XML文書のバグをできる限り修正した。さらにXML文書の仕様を一部変更し、各XML文書を修正した。修正の詳細については、以下を参照のこと。

参照:「『日本語話し言葉コーパス』節単位XML文書について」(xml.pdf)の「7.第三刷における変更点」(p.34)

修正内容はコアと非コアで以下のように異なる。

  • コア:仕様の変更、研究用付加情報の修正の反映、XML文書のバグの修正
  • 非コア:仕様の変更

なお、上記修正に伴い、分節音ラベルを生成するためのXSLを修正した。ただし、融合ラベルの復元については、多様なケースが存在し、変換処理が複雑になるため、XSLでは簡単な処理を施すにとどめ、必要に応じてスクリプト言語による後処理で対応することを想定している。今回のxml2seg.xslでは36行目から46行目に簡単な処理を記述しているので、参考にされたい。

6.節単位XML文書の再生成

CSJでは、各種ラベル情報を統合したXML文書のほかに、これをベースに節単位を構成要素に持つ形式に変換したXML文書(以下、節単位XML)も提供している。5の変更に伴い、節単位XMLについても再生成した。また、ベースとなるXMLから節単位XMLを生成するためのxsl(mkCUXML.xsl)についても修正を加えた。

7.Praat用F0情報の提供

CSJでは、音声ラベリングの際に用いたF0値が、.f0という拡張子を持つファイルで提供されている。第三刷では、このF0の情報をPraatで表示できる形式に変換し、.Pitchという拡張子を持つファイルとして新たに提供することとした。操作方法については以下を参照のこと。

参照:TextGridの利用方法

 

リンク Links