第2刷における主要な変更点を以下に記します。
収録時の年齢情報(5年刻み)を新規に追加した。年齢情報の詳細については、解説文書『記録票データ・対話記録票データ・講演者属性データ・対話参加講演者の講演一覧の解説』(最新版)を参照のこと。
第1刷で抜けていた「position」の情報を追加した。「position」の詳細については、解説文書『印象評定データの概要』(最新版)を参照のこと。
変更のあった解説文書は以下の通りである。最新版の全ての解説文書・報告書は本サイトからダウンロードできる。
第2刷公開に際して、第1刷の公開以降に発見・報告されたX-JToBI音声ラベル(分節音ラベル、イントネーションラベル)の誤りを修正した。修正の概要は次の通り。
いくつかの講演のデータにおいて、分節音ラベルファイル中、記録順序に対して時間順序が逆転しているラベルがあった。これは転記基本単位ごとにラベリングを行った結果を結合する際に、単位末のラベル終端が次の単位の始端を越えない制約を施さなかったことによる。今回これらのラベルの時間位置の修正とともに周辺のラベルの修正を行った。また分節音ラベルの修正にともなって一部のイントネーションラベルも修正した。修正の詳細は以下を参照のこと。
許容されていないラベル表現が用いられているケースがあったため修正した。修正の詳細は以下を参照のこと。
講演末のアクセント句末でイントネーションラベルのBI層ラベルの値が"1"となっているケースがあったため修正した。全て値を"3"に修正した。修正の詳細は以下を参照のこと。
『日本語話し言葉コーパス』のコアには、X-JToBI による音声ラべリングが施されている。第1刷ではこれらの情報を xwaves 形式で提供したが、第2刷では、現在最も広く利用されている音声分析ソフトウェアのひとつである PraatのTextGrid 形式に変換した X-JToBI ラベルも合わせて提供することにした。xwaves 形式では、.word, .seg, .break, .f0, .misc, .prm という6つの拡張子で識別される6個のテキストファイルで別々にラベル情報が提供されていた。これに対して TextGrid形式ではすべてのラベル情報が、.TextGrid という拡張子をもつ1個のファイルに集約される。
第2刷公開に際し、コアのXML文書(201講演分)について以下の修正を行った。
X-JToBI音声ラベルデータの修正に伴い、該当するコアのXML文書を修正した。音声ラベルデータの修正の詳細については、以下を参照のこと。
イントネーションラベルのトーン層ラベルにおいては、J_ToBIで定義されていた"L%%L"のような複合ラベルが存在する。XML文書においては、これらは例えば"L%"と"%L"に分割され以下の例に示すようにそれぞれ別のXJToBILabelTone要素として記録されている。
<XJToBILabelTone Time="4.138613" F0="163.545" ToneClass="FBT">L%;</XJToBILabelTone> <XJToBILabelTone Time="4.138613" F0="163.545" ToneClass="IBT">%;L</XJToBILabelTone>
Time属性の値が同一であることから、これらの要素が複合ラベルであることが容易に推測できるが、利用者の利便性のために、明示的に属性で表現することにした。具体的には"Divided"属性を用い、以下のように表現する。
<XJToBILabelTone Time="4.138613" F0="163.545" ToneClass="FBT" Divided="1">L%</XJToBILabelTone> <XJToBILabelTone Time="4.138613" F0="163.545" ToneClass="IBT" Divided="1">%L</XJToBILabelTone>
この変更にともない、コアの全XML文書の該当箇所を修正した。
第2刷公開に際して、第1刷の公開以降に発見・報告された転記テキストのエラーをリストとして提供している。転記情報は最も基本的な情報であり、これを基に形態論情報はじめ種々のラベリング情報が付与される。そのため転記情報を修正するとほぼ全てのラベリングも合わせて変更する必要が出てくる。そこで第2刷では、転記テキスト自体の変更は行わず、発見された誤りをリストとして提示するに留めた。具体的なエラーは以下を参照のこと。