第3刷における主要な変更点を以下に記します。
解説文書のうち、改訂したのは以下の四つの文書となる。
第3刷では、音声ラベルのエラー修正を大規模に行った。また基準についても一部変更した。この修正内容は、音声ラベルデータ(Xwaves、Praatの両形式)のほか、各種情報を統合したXML文書にも反映されている。修正の詳細については、以下を参照のこと。
第2刷から提供されたPraat用の音声ラベルデータに固有の問題が幾つか生じていたため、Praat用ラベルデータについては上記2に加えて修正を施した。また転記基本単位毎に発話内容を記した転記テキスト層を追加した。修正の詳細については、以下を参照のこと。
コアを対象に次の二種類のタグの音を再度聞き直し、実際に音が存在しないものや極めて音が小さく聞き取りが難しいものを削除した。
この修正内容は、タグ"<FV>", "(?)"を含む全てのデータに反映されている。具体的には、転記テキスト、短単位長単位混合形式データ、長単位形式形態論データ、音声ラベルデータ、XML文書である。
転記テキスト、短単位、音声ラベル等の種々の研究用付加情報の修正をXML文書に反映させた。種々の研究用付加情報の修正については上記2.および4.を参照のこと。
また、XML文書のバグをできる限り修正した。さらにXML文書の仕様を一部変更し、各XML文書を修正した。修正の詳細については、以下を参照のこと。
参照:「『日本語話し言葉コーパス』節単位XML文書について」(xml.pdf)の「7.第三刷における変更点」(p.34)
修正内容はコアと非コアで以下のように異なる。
なお、上記修正に伴い、分節音ラベルを生成するためのXSLを修正した。ただし、融合ラベルの復元については、多様なケースが存在し、変換処理が複雑になるため、XSLでは簡単な処理を施すにとどめ、必要に応じてスクリプト言語による後処理で対応することを想定している。今回のxml2seg.xslでは36行目から46行目に簡単な処理を記述しているので、参考にされたい。
CSJでは、各種ラベル情報を統合したXML文書のほかに、これをベースに節単位を構成要素に持つ形式に変換したXML文書(以下、節単位XML)も提供している。5の変更に伴い、節単位XMLについても再生成した。また、ベースとなるXMLから節単位XMLを生成するためのxsl(mkCUXML.xsl)についても修正を加えた。
CSJでは、音声ラベリングの際に用いたF0値が、.f0という拡張子を持つファイルで提供されている。第三刷では、このF0の情報をPraatで表示できる形式に変換し、.Pitchという拡張子を持つファイルとして新たに提供することとした。操作方法については以下を参照のこと。