CSJ-RDB Version2.0 の構成
CSJ-RDBは、次の3種類のデータベースから構成されています。
基本データベース(csj.db)
基本データベースは、次の5種類のテーブルから構成されています。
図1 基本データベースのデータ表現方式
セグメント・テーブル
セグメント・テーブルは、図1の各単位ごとに、談話中の要素を記述したテーブルです。すべてのセグメント・テーブルに共通する情報として以下があります。
列名 | 説明 | 例 |
TalkID | ファイルID | A01F0055 |
ClauseID、BunsetsuID、SUWID など | 各単位のID | 00720909L |
StartTime | 単位の開始時間 | 720.909 |
EndTime | 単位の終了時間 | 721.369 |
Channel | 話者ラベル | L |
これらによって、各単位の生起位置を一意に特定することができます。特別な場合として、トーン情報(アクセントや句末の音調などの韻律情報)のように、ある瞬間に生起する(開始時間と終了時間が等しい)ものもあります。これらをポイント・テーブルと呼びます。ポイント・テーブルは次の情報で表現されます。
列名 | 説明 | 例 |
TalkID | ファイルID | A01F0055 |
ToneID | 各要素のID | 00720909L |
Time | 要素の生起時間 | 720.909 |
Channel | 話者ラベル | L |
以上の共通情報に加えて、各単位・要素に固有の情報が記されています。各テーブルの個別情報の一覧と各単位・要素のIDは以下をご覧ください。
参照:
セグメント・テーブル個別情報一覧
非整列セグメント・テーブル
自発音声では、複数の語が融合して、分割できない一つの要素を形成することがしばしば生じます。「僕は」が融合して「ボカー」と発音されるような場合です。ここで、形態論情報(短単位・長単位)としては、「僕」と「は」の2つの要素に分けて記述されますが、融合して発音されているため、「僕」と「は」の境界の時間を特定することができません。
そこで基本データベースでは、単語(長単位と短単位)のうち、時間的に分節化できる部分をセグメント・テーブルで表し、時間的に分節化できない部分は、その下位にある非整列セグメントで表現しています。セグメント・テーブルには、開始・終了時間が特定できますが、「ボカー」のような単位も含まれるため、品詞などの情報は付きません。一方、非整列セグメント・テーブルは「僕」「は」のように分割されるため品詞などの情報を含みますが、開始・終了時刻を持ちません。
図2 語が融合して発話された場合のセグメントと非整列セグメントの関係(短単位の場合)
非整列セグメント・テーブルは、次の2つの属性を共通に持ちます。
列名 | 説明 | 例 |
TalkID | ファイルID | A01F0055 |
SUWMorphID、 LUWMorphID | 非整列セグメントがの各要素のID | 00720909L |
これらの共通情報に加えて、各単位に固有の情報が記されています。以下に各テーブルの個別情報を挙げます。
参照:
非整列セグメント・テーブル個別情報一覧
親子関係テーブル
親子関係テーブルとは、図1 に表された階層関係に従って、単位間の親子関係をID の対で表現したものです。例えば、図3のように、セグメント・テーブルとして「節単位テーブル」とそれに対応する「文節テーブル」があるとします。節単位と文節は親(先祖)と子(子孫)の関係にあるため、両者の間の対応関係を表現した親子関係テーブルが提供されます。
図3 セグメント・テーブル、親子関係テーブルの例
親子関係テーブルには、図3にある通り、以下の情報が共通して記されています。
列名 | 説明 | 例 |
TalkID | ファイルID | A01F0055 |
ClauseID、BunsetsuID、SUWID など | 親(先祖)セグメントのID | 00262895L(図3では親である節単位のID) |
ClauseID、BunsetsuID、SUWID など | 子(子孫)セグメントのID | 00263769L(図3では子である文節のID) |
len | 親セグメント中の子セグメントの総数 | 4(4つの子単位からなる親単位の場合) |
ntd | 親セグメント中の子セグメントの位置 | 3(冒頭から3番目の場合) |
節単位と短単位も先祖と子孫の関係にあるので、同様のテーブルが作成されます。一方、節単位とアクセント句は親子関係にないため、この種のテーブルは作成されません(図1参照)。
親子関係テーブルを用いることによって、複数の単位に関わる分析を容易に行うことができます。例えば、節単位の最後の文節の継続長を取り出したり、10個以上の文節から構成される節単位を取り出す、といった検索ができます。他の単位間の親子関係も同様に記述されているため、例えば節単位の最後の文節の冒頭の短単位が接頭辞のものを抽出する、といった検索もできます。
リンク・テーブル
単位間の関係としては、親子関係以外にも様々なものが考えられます。例えば、文節係り受けは、文節同士の間の関係です。
基本データベースでは、このような親子関係以外の単位間の関係をリンク・テーブルで表現しています。リンク・テーブルとしては、「文節係り受け関係」と「トーンの帰属先」の2つがあります。後者は、韻律ラベルで与えられているアクセントや句末の音調などのトーンがどのアクセント句に帰属するかを表わしたものです。
リンク・テーブルには、以下の情報が記されています。
列名 | 説明 | 例 |
TalkID | ファイルID | A01F0055 |
リンク元となる文節のBunsetsuIDなど | リンク元セグメントのID | 00358705L |
リンク先となる文節のBunsetsuIDなど | リンク先セグメントのID | 00359291L |
リンク元/先IDの名称はテーブルごとに異なります。以下に各リンク・テーブルの情報を挙げます。
参照:
リンク・テーブル個別情報一覧
メタ情報テーブルには、談話の基本情報を納めた「談話基本情報」、話者に関する情報を納めた「話者基本情報」、対話(インタビュー)の話題の元となった談話のIDやインタビュアーの情報を納めた「対話情報」、再朗読の読み上げ対象となった談話のIDや再朗読固有の印象評定値を納めた「再朗読情報」、個々の談話の各種印象情報を納めた「単独印象評定情報」と「集合印象評定情報」があります。以下に各テーブルの個別情報を挙げます。
参照:
メタ情報テーブル個別情報一覧
テーブル情報詳細