『現代日本語書き言葉均衡コーパス』に収録するテキストは、様々な検索が可能なように以下のような情報を付与します。
以上のような情報をXMLという方法で記述します。例えば、次のようなテキストがあるとします。
上のテキストは、次のような形式で電子化されます。< >で囲まれた部分をタグと言います。どのような種類のタグをどう設計するかが、コーパスの検索に大きく影響します。
現代日本語書き言葉均衡コーパスで使用するタグの一部を示します。
タグ名 | 内容 | |
---|---|---|
サンプル | sample | サンプリングによって1サンプルとされた文章の範囲 |
sampling | サンプリングポイントに関する情報 | |
階層構造 (文書構造) |
article | 同一著者による、同一テーマのひとまとまりの文章 |
title | ある範囲の文章の内容を代表する記述。章の題、新聞の見出しなど | |
cluster | title 要素がまとめる文章の範囲 | |
list | 箇条書きや名詞句の羅列など、列挙された要素 | |
paragraph | 段落に相当する文の集まり | |
sentence | 文に相当する語の集まり | |
図 表 (文書構造) |
figure | 図・表・写真・絵など |
caption | 図表等についてのタイトルや説明 | |
引 用 (文書構造) |
citation | 当該 article 要素とは異なる著作物からの引用 |
speech | 発話や心内発話の引用・書き起こし | |
注 記 (文書構造) |
noteBody | 脚注、後注など、本文と区別して記述される注記 |
その他 (文書構造) |
abstract | article 要素、または cluster 要素の概要に相当する要素 |
verse | 詩、和歌、俳句、歌謡などの韻文 | |
文字・表記 | ruby | ルビ付き文字 |
correction | 原文の誤植を訂正した文字 | |
missingCharacter | 規定の文字集合に含まれない文字 (JIS外字) |
テキストの電子化に際しては、JISX0213:2004規格(いわゆるJIS 第4水準までの文字)に準拠した文字集合を用います。文字コードは、Unicodeです。