CSJ-RDB(Version 2.0)は、CSJ本体のコアのXML文書に含まれる情報を基本としつつ、若干の追加・修正を加えています。主要な追加・修正項目は次の通りです。
CSJのコアには、講演音声(学会・模擬)・対話・再朗読のデータが含まれています。このうちCSJの大多数を占める講演音声については、種々のアノテーションが手作業で付与・提供されていますが、対話・再朗読については一部の情報しか提供されていません。CSJ-RDBでは、対話・朗読音声に対して次の情報を新規に付与・提供しています。
なお、対話に対する節単位情報については、基準を対話用に拡張しました。拡張の詳細については以下をご参照ください。
対話データ用節単位認定拡張マニュアル
それ以外の情報については、CSJ本体の基準に準拠しています。基準の詳細は以下の文書をご覧ください。
『日本語話し言葉コーパス』関連ドキュメント
CSJ が採用している韻律ラベリング体系 X-JToBIでは、アクセント句(AP)やイントネーション句(IP)は単位としては明示的に表現されず、韻律境界の切れ目の強さを表す情報(BI情報)によって間接的に表されています(BI=2と3がそれぞれAPとIPの終端境界を表示)。CSJのXML文書でもこのBI情報が表現されています。BI情報を用いることで、基本的にはAPやIPを同定することができますが、CSJに頻出するフィラーや言い淀みなど非流暢現象が関わる部分の同定方法などに問題がありました。そこで、非流暢現象の扱いを中心にAP・IPの認定基準を見直しました。CSJ-RDBではこの新しい基準にもとづき認定されたAP・IPを明示的に単位として表現しています。基準の詳細については以下をご参照ください。
『日本語話し言葉コーパス』における韻律単位の認定基準について(第3回 コーパス日本語学ワークショップ予稿集)
CSJ本体のXML文書で表現される分節音(phone)、音素(phoneme)、モーラ(mora)の情報は、主に韻律・分節音ラベリングで提供される分節音情報から自動的に生成しますが、これまでのphoneme認定規則には一部問題があり、音声学的に必ずしも妥当とは言えない単位が生成されていました。そこで、音声的単位の階層性(phone<phoneme<mora<word)を保持しつつ、音声学的に妥当な単位が得られるよう、phoneme(およびphone)の認定基準を一部変更しました。変更の詳細については以下をご参照ください。
CSJ-RDBにおける音素・分節音の認定規則の一部変更について
CSJ本体のXML文書におけるIPU要素(原則200ミリ秒以上のポーズで分割される転記基本単位)の開始・終了時間は、転記テキストにおけるIPUの時間情報を採用しています。しかし転記テキストのIPUの時間情報は転記作業中に認定したものであり、実際の発話区間よりも前後に広めに設定されています。そこでCSJ-RDBでは、音声的単位の階層性(phone<phoneme<mora<word<IPU)が成立するよう、IPUが内包する分節音の時間情報を用いてIPUの開始・終了時間を求めなおしました。
CSJでは、講演者が特定できる情報などが含まれる部分を「×」で伏せ字化しています。その際、「京子」を「××」、「キョーコ」を「××××」といったように、伏せ字化前の表記の文字の数だけ「×」を繰り返す方法で置換していました。しかし、後者の発音形を置換する場合、この方法では必ずしもモーラ数が一致せず、例えば平均モーラ長などを算出する場合の妨げになっていました。そこで発音形については、文字数ではなくモーラの数だけ「×」を繰り返す方法に変更しました。
修正前 「キョーコ」→「××××」 ※文字数分の「×」で置換
修正後 「キョーコ」→「×××」 ※モーラ数分の「×」で置換