CSJ-RDB Version1.0 の構成
CSJ-RDBは、次の3種類のデータベースから構成されています。
基本データベース(csj.db)
基本データベースは、次の5種類のテーブルから構成されています。
図1 基本データベースのデータ表現方式
セグメント・テーブル
セグメント・テーブルは、図1の各単位ごとに、談話中の要素を記述したテーブルです。
すべてのセグメント・テーブルに共通する情報として以下があります。
列名 | 説明 | 例 |
TalkID | 談話ID | A01F0055 |
ClauseID、BunsetsuID、SUWID など | 各単位のID | 00720909L |
StartTime | 単位の開始時間 | 720.909 |
EndTime | 単位の終了時間 | 721.369 |
Channel | 話者ラベル | L |
これらによって、各単位の生起位置を一意に特定することができます。特別な場合として、トーン情報(アクセントや句末の音調などの韻律情報)のように、ある瞬間に生起する(開始時間と終了時間が等しい)ものもあります。これらをポイント・テーブルと呼びます。ポイント・テーブルは次の情報で表現されます。
列名 | 説明 | 例 |
TalkID | 談話ID | A01F0055 |
ToneID | 各要素のID | 00720909L |
Time | 要素の生起時間 | 720.909 |
Channel | 話者ラベル | L |
以上の共通情報に加えて、各単位・要素に固有の情報が記されています。各テーブルの個別情報の一覧と各単位・要素のIDは以下をご覧ください。
参照 : セグメント・テーブル個別情報一覧
サブセグメント・テーブル
自発音声では、複数の語が融合して、分割できない一つの要素を形成することがしばしば生じます。「僕は」が融合して「ボカー」と発音されるような場合です。ここで、形態論情報(短単位・長単位)としては、「僕」と「は」の2つの要素に分けて記述されますが、融合して発音されているため、「僕」と「は」の境界の時間を特定することができません。
そこで基本データベースでは、単語(長単位と短単位)のうち、時間的に分節化できる部分をセグメント・テーブルで表し、時間的に分節化できない部分は、その下位にあるサブセグメントで表現しています。セグメント・テーブルには、開始・終了時間が特定できますが、「ボカー」のような単位も含まれるため、品詞などの情報は付きません。一方、サブセグメント・テーブルは「僕」「は」のように分割されるため品詞などの情報を含みますが、開始・終了時刻を持ちません。
図2 語が融合して発話された場合のセグメントとサブセグメントの関係(短単位の場合)
サブセグメント・テーブルは、次の4つの属性を共通に持ちます。
列名 | 説明 | 例 |
TalkID | 談話ID | A01F0055 |
SUWID、 LUWID | サブセグメントが帰属するセグメントのID | 00720909L |
len | セグメント中のサブセグメントの総数 | 3(3つの単語が融合して発話された場合) |
nth | セグメント中のサブセグメントの位置 | 2 (冒頭から2番目の場合) |
これらの共通情報に加えて、各単位に固有の情報が記されています。以下に各テーブルの個別情報を挙げます。
参照 : サブセグメント・テーブル個別情報一覧
親子関係テーブル
親子関係テーブルとは、図1 に表された階層関係に従って、単位間の親子関係をID の対で表現したものです。例えば、図3のように、セグメント・テーブルとして「節単位テーブル」とそれに対応する「文節テーブル」があるとします。節単位と文節は親(先祖)と子(子孫)の関係にあるため、両者の間の対応関係を表現した親子関係テーブルが提供されます。
図3 セグメント・テーブル、親子関係テーブルの例
親子関係テーブルには、図3にある通り、以下の情報が共通して記されています。
列名 | 説明 | 例 |
TalkID | 談話ID | A01F0055 |
ClauseID、BunsetsuID、SUWID など | 親(先祖)セグメントのID | 00262895L(図3では親である節単位のID) |
ClauseID、BunsetsuID、SUWID など | 子(子孫)セグメントのID | 00263769L(図3では子である文節のID) |
len | 親セグメント中の子セグメントの総数 | 4(4つの子単位からなる親単位の場合) |
nth | 親セグメント中の子セグメントの位置 | 3(冒頭から3番目の場合) |
節単位と短単位も先祖と子孫の関係にあるので、同様のテーブルが作成されます。一方、節単位とアクセント句は親子関係にないため、この種のテーブルは作成されません(図1参照)。
親子関係テーブルを用いることによって、複数の単位に関わる分析を容易に行うことができます。例えば、節単位の最後の文節の継続長を取り出したり、10個以上の文節から構成される節単位を取り出す、といった検索ができます。他の単位間の親子関係も同様に記述されているため、例えば節単位の最後の文節の冒頭の短単位が接頭辞のものを抽出する、といった検索もできます。
リンク・テーブル
単位間の関係としては、親子関係以外にも様々なものが考えられます。例えば、文節係り受けは、文節同士の間の関係です。
基本データベースでは、このような親子関係以外の単位間の関係をリンク・テーブルで表現しています。リンク・テーブルとしては、「文節係り受け関係」と「トーンの帰属先」の2つがあります。後者は、韻律ラベルで与えられているアクセントや句末の音調などのトーンがどのアクセント句に帰属するかを表わしたものです。
リンク・テーブルには、以下の情報が記されています。
列名 | 説明 | 例 |
TalkID | 談話ID | A01F0055 |
リンク元となる文節のBunsetsuIDなど | リンク元セグメントのID | 00358705L |
リンク先となる文節のBunsetsuIDなど | リンク先セグメントのID | 00359291L |
リンク元/先IDの名称はテーブルごとに異なります。以下に各リンク・テーブルの情報を挙げます。
参照 : リンク・テーブル個別情報一覧
メタ情報テーブルには、談話の基本情報を納めた「談話基本情報」、話者に関する情報を納めた「話者基本情報」、対話(インタビュー)の話題の元となった談話のIDやインタビュアーの情報を納めた「対話情報」、再朗読の読み上げ対象となった談話のIDや再朗読固有の印象評定値を納めた「再朗読情報」、個々の談話の各種印象情報を納めた「単独印象評定情報」と「集合印象評定情報」があります。以下に各テーブルの個別情報を挙げます。
参照 : メタ情報テーブル個別情報一覧
テーブル情報詳細
■ サブセグメント・テーブル
- ■ 短単位
- 列名
- 説明
- 例
- subsegSUW
- PlainOrthographicUlanscription
- タグ無し出現形(短単位)
- 行き
- SUWDictionaryForm
- 代表形(短単位)
- イク
- PhoneticUlanscription
- 発音形(短単位)
- イキ
- SUWConjugateType2
- 活用の種類2(短単位)
- カ行五段2
- SUWConjugateForm2
- 活用形2(短単位)
- 連用形2
- SUWMiscPOSInfo1
- その他情報1(短単位)
- 副助詞
- SUWMiscPOSInfo2
- その他情報2(短単位)
- 語幹
- SUWMiscPOSInfo3
- その他情報3(短単位)
- 言いよどみ
- ClauseBoundaryLabel
-
参照: 『日本語話し言葉コーパスの構築法』 第5章 節単位情報
5.2.3 CBAP-csjが検出する節境界の種類 p.267-269
図5.5 CBAP-csjで検出される49種類の節境界ラベル p.267
|
- 節境界ラベル
- <テ節>
- CU_preBracket
-
参照: 『日本語話し言葉コーパスの構築法』 第5章 節単位情報
5.4.1 人手修正作業の概要 p.292-293
表5.4 人手修正操作記号の一覧 「範囲記号」のうち開き括弧 p.293
|
- 節単位前ブラケット
- <<
- CU_postBracket
-
参照: 『日本語話し言葉コーパスの構築法』 第5章 節単位情報
5.4.1 人手修正作業の概要 p.292-293
表5.4 人手修正操作記号の一覧 「範囲記号」のうち閉じ括弧 p.293
|
- 節単位後ブラケット
- >>
- CU_OperationSign
-
参照: 『日本語話し言葉コーパスの構築法』 第5章 節単位情報
5.4.1 人手修正作業の概要 p.292-293
表5.4 人手修正操作記号の一覧 「切断記号」「結合記号」 p.293
|
- 節単位操作記号
- -
- CU_ObligateComment
-
参照: 『日本語話し言葉コーパスの構築法』 第5章 節単位情報
5.4.2 人手修正作業で扱う項目の分類 p.293-p.294
図5.11 人手修正の対象となる項目の一覧と,コア177講演における出現数 p.294
|
- 節単位義務的コメント
- 体言止め
- ■ 長単位
- 列名
- 説明
- 例
- subsegLUW
- LUWDictionaryForm
- 代表形(長単位)
- イク
- LUWConjugateType
- 活用の種類(長単位)
- カ行五段
- LUWConjugateForm
- 活用形(長単位)
- 連用形
- LUWMiscPOSInfo1
- その他情報1(長単位)
- 格助詞
- LUWMiscPOSInfo2
- その他情報2(長単位)
- 促音便
- LUWMiscPOSInfo3
- その他情報3(長単位)
- 連語
■ リンク・テーブル
- ■ 文節係り受け
- 列名
- 説明
- 例
- linkDepBunsetsu
- TalkID
- 談話ID
- S01F0001
- BunsetsuID
- 係り文節ID
- 00000676L
- ModifieeBunsetsuID
- 受け文節ID
- 00001131L
- ■ トーンの帰属先
- 列名
- 説明
- 例
- linkTone2AP
- TalkID
- 談話ID
- S01F0001
- APID
- 帰属先アクセント句ID
- 00005551L
統語情報サブセットデータベース(csj_syn.db)
統語情報サブセットデータベースとは、基本データベースのうち、図4に示す統語情報に関わる情報のみで構成したデータベースです。テーブルの詳細は基本データベースと同じです。
図4 統語情報サブセットデータベースのデータ表現方式
音響情報データベース(csj_ac.db)
音響情報データベースには、次の二つのテーブルが含まれています。csj.db や csj_syn.db と結合することで、該当箇所のF0値、パワー情報を抽出することができます。
- pointF0
- TalkID
- 談話ID
- S01F0001
- F0Val
- F0値(ESPSで抽出。韻律ラベリング時に使用)
- 294.523
- pointPwr
- TalkID
- 談話ID
- S01F0001
- PwrVal
- パワー値(wavesurferで抽出)
- 37.703727722168