TSV形式のデータはSUWおよびLUWディレクトリの下に、サブコーパスごとにディレクトリ分けされて格納されている。いずれのディレクトリ内にも一つの圧縮ファイルがあり、これを展開することでサブコーパスごとにまとめられた表形式のデータが得られる。ただし、サイズが非常に大きい図書館LB、PBについては、複数のファイルに分割したものが圧縮されている。
TSVデータは、上記の形態論情報をタブ区切りの表形式テキストデータにしたものであり、BCCWJのWeb検索サービス『中納言』 の元になっているデータである。短単位・長単位ごとに、別のテーブルとなっており、それぞれがサブコーパスごとに分割されている。テキストデータの符号化形式はUTF-8(BOMなし)である。
短単位・長単位TSVはそれぞれ単独でも利用可能なように重複した情報を保持している。
短単位のTSVデータのフィールド中身は表「短単位TSVデータのフィールド」の通りである(左から順)。1短単位が1レコード(行)となっている。
フィールド名 | 備考 |
---|---|
サブコーパス名 | |
サンプルID | |
文字開始位置 | 原文文字列のサンプル頭からのオフセット値(10きざみ) |
文字終了位置 | |
連番 | サンプル内での長単位の並び順(10きざみ) |
出現形開始位置 | 書字形出現形のサンプル頭からのオフセット値(10きざみ) |
出現形終了位置 | |
固定長フラグ | 0:固定長でない,1:固定長 |
可変長フラグ | 0:可変長でない,1:可変長 |
文頭ラベル | B:文頭,I:文頭以外 |
語彙表ID | 書字形出現形のレベルで語を識別するID (桁数が大きいためbigint型が必要) |
語彙素ID | UniDicの語彙素を識別するID |
語彙素 | 短単位情報 |
語彙素読み | |
語彙素細分類 | |
語種 | |
品詞 | |
活用型 | |
活用形 | |
語形 | |
用法 | |
書字形 | |
書字形出現形 | |
原文文字列 | |
発音形出現形 |
文頭ラベルは、C-XMLのsentenceタグ開始位置を「B」としている。
「文字開始位置」「出現形開始位置」の別は、先述の「原文文字列」「書字形出現形」に対応するものである。
短単位情報に含まれている原文文字列は、数字変換前の文字列である。数字変換した結果の文字列が複数の単位に分割される場合には、表「数字変換箇所の原文文字列との対応例」のように当該範囲内のすべてに同じ原文文字列が付与されている。
文字開始位置 | 文字終了位置 | 連番 | 出現形開始位置 | 出現形終了位置 | 書字形出現形 | 原文文字列 |
---|---|---|---|---|---|---|
10 | 50 | 10 | 10 | 30 | 二千 | 2011 |
10 | 50 | 20 | 30 | 40 | 十 | 2011 |
10 | 50 | 30 | 40 | 50 | 一 | 2011 |
長単位のTSVデータのフィールド中身は表「長単位TSVデータのフィールド」の通りである(左から順)。1長単位が1レコード(行)となっている。
フィールド名 | 備考 |
---|---|
サブコーパス名 | |
サンプルID | |
出現形開始位置 | 書字形出現形のサンプル頭からのオフセット値(10きざみ) |
出現形終了位置 | |
文節 | B:文節,空文字:文節でない |
短長相違フラグ | 短単位と長単位の範囲が一致しているかどうか 0:短長一致,1:短長相違 |
固定長フラグ | 0:固定長でない,1:固定長 |
可変長フラグ | 0:可変長でない,1:可変長 |
語彙素 | 長単位情報 |
語彙素読み | |
語種 | |
品詞 | |
活用型 | |
活用形 | |
語形 | |
書字形 | |
書字形出現形 | |
原文文字列 | |
発音形出現形 | |
連番 | サンプル内での長単位の並び順(10きざみ) |
文字開始位置 | 原文文字列のサンプル頭からのオフセット値(10きざみ) |
文字終了位置 | |
文頭ラベル | B:文頭,I:文頭でない |