言語資源開発センター -Center for Language Resource Development-
English 国立国語研究所
 

『日本語話し言葉コーパス』第2刷における主要な変更点

第2刷における主要な変更点を以下に記します。

記録票データ・対話記録票データへの情報追加

収録時の年齢情報(5年刻み)を新規に追加した。年齢情報の詳細については、解説文書『記録票データ・対話記録票データ・講演者属性データ・対話参加講演者の講演一覧の解説』(最新版)を参照のこと。

印象評定データの修正

第1刷で抜けていた「position」の情報を追加した。「position」の詳細については、解説文書『印象評定データの概要』(最新版)を参照のこと。

解説文書の最新版への更新,新規追加

変更のあった解説文書は以下の通りである。最新版の全ての解説文書・報告書は本サイトからダウンロードできる。

  • 『日本語話し言葉コーパス』の概観
  • 記録票データ・対話記録票データ・講演者属性データ・対話参加講演者の講演一覧の解説
  • 印象評定データの概要
  • 『日本語話し言葉コーパス』における節単位認定
  • 『日本語話し言葉コーパス』XML文書について
  • 日本語話し言葉コーパスの構築法(国立国語研究所報告124)

参照:『日本語話し言葉コーパス』関連ドキュメント

X-JToBI 音声ラベルデータの修正

第2刷公開に際して、第1刷の公開以降に発見・報告されたX-JToBI音声ラベル(分節音ラベル、イントネーションラベル)の誤りを修正した。修正の概要は次の通り。

分節音ラベルにおける時間順序の修正

いくつかの講演のデータにおいて、分節音ラベルファイル中、記録順序に対して時間順序が逆転しているラベルがあった。これは転記基本単位ごとにラベリングを行った結果を結合する際に、単位末のラベル終端が次の単位の始端を越えない制約を施さなかったことによる。今回これらのラベルの時間位置の修正とともに周辺のラベルの修正を行った。また分節音ラベルの修正にともなって一部のイントネーションラベルも修正した。修正の詳細は以下を参照のこと。

参照:分節音ラベルにおける時間順序の修正(第2刷)

分節音ラベルの修正

許容されていないラベル表現が用いられているケースがあったため修正した。修正の詳細は以下を参照のこと。

参照:分節音ラベルの修正(第2刷)

イントネーションラベルの修正

講演末のアクセント句末でイントネーションラベルのBI層ラベルの値が"1"となっているケースがあったため修正した。全て値を"3"に修正した。修正の詳細は以下を参照のこと。

参照:イントネーションラベルの修正(第2刷)

Praat用のX-JToBIラベルデータの新規追加

『日本語話し言葉コーパス』のコアには、X-JToBI による音声ラべリングが施されている。第1刷ではこれらの情報を xwaves 形式で提供したが、第2刷では、現在最も広く利用されている音声分析ソフトウェアのひとつである PraatのTextGrid 形式に変換した X-JToBI ラベルも合わせて提供することにした。xwaves 形式では、.word, .seg, .break, .f0, .misc, .prm という6つの拡張子で識別される6個のテキストファイルで別々にラベル情報が提供されていた。これに対して TextGrid形式ではすべてのラベル情報が、.TextGrid という拡張子をもつ1個のファイルに集約される。

コアのXML文書の修正

第2刷公開に際し、コアのXML文書(201講演分)について以下の修正を行った。

X-JToBI音声ラベルデータの修正に伴うXML文書の修正

X-JToBI音声ラベルデータの修正に伴い、該当するコアのXML文書を修正した。音声ラベルデータの修正の詳細については、以下を参照のこと。

参照:音声ラベルデータの修正(第2刷)

複合ラベルの修正

イントネーションラベルのトーン層ラベルにおいては、J_ToBIで定義されていた"L%%L"のような複合ラベルが存在する。XML文書においては、これらは例えば"L%"と"%L"に分割され以下の例に示すようにそれぞれ別のXJToBILabelTone要素として記録されている。

  <XJToBILabelTone Time="4.138613" F0="163.545" ToneClass="FBT">L%;</XJToBILabelTone>
  <XJToBILabelTone Time="4.138613" F0="163.545" ToneClass="IBT">%;L</XJToBILabelTone>

Time属性の値が同一であることから、これらの要素が複合ラベルであることが容易に推測できるが、利用者の利便性のために、明示的に属性で表現することにした。具体的には"Divided"属性を用い、以下のように表現する。

  <XJToBILabelTone Time="4.138613" F0="163.545" ToneClass="FBT" Divided="1">L%</XJToBILabelTone>
  <XJToBILabelTone Time="4.138613" F0="163.545" ToneClass="IBT" Divided="1">%L</XJToBILabelTone>

この変更にともない、コアの全XML文書の該当箇所を修正した。

転記に関するエラーリストの追加

第2刷公開に際して、第1刷の公開以降に発見・報告された転記テキストのエラーをリストとして提供している。転記情報は最も基本的な情報であり、これを基に形態論情報はじめ種々のラベリング情報が付与される。そのため転記情報を修正するとほぼ全てのラベリングも合わせて変更する必要が出てくる。そこで第2刷では、転記テキスト自体の変更は行わず、発見された誤りをリストとして提示するに留めた。具体的なエラーは以下を参照のこと。

参照:転記エラーリスト(第2刷)

 

リンク Links