C-XML形式のデータはDisc1のC-XMLディレクトリの下に、可変長・固定長に分けてサブコーパスごとのディレクトリで格納されています。ディレクトリ内にそれぞれ一つの圧縮ファイルがあり、これを展開することで1ファイルが1サンプルに対応する多数のXMLファイルが展開されます。ファイル数の多いLB、PB、OC、OYについては、複数のサブディレクトリに分けてXMLファイルが展開されます。
BCCWJは複数のサブコーパスから構成されます。文書構造タグのセットは、それぞれのサブコーパスの特性に合わせて、表「サブコーパスとタグセットとの関係」のように規定され、個々のタグセットはXMLの文書型として定義されます。なお、同一のタグであっても原資料が紙媒体か電子媒体かによって、付与方法の異なる場合があります。そのため、データによってタグの性質や付与の精度に差が生じることがあります。
タグセット(TS)は、次の3種類に大別されます。表中で「可変長(一部修正)」とあるのは、可変長タグセットに少数の部分的な変更を加えたタグセットであることを意味します。
サブコーパス | タグセット | 原資料の媒体 |
---|---|---|
出版サブコーパス | 可変長TS、固定長TS | 紙媒体 |
図書館サブコーパス | 可変長TS、固定長TS | 紙媒体 |
白書 | 可変長TS、固定長TS | 紙媒体 |
教科書 | 可変長TS(一部修正) | 紙媒体 |
広報誌 | 可変長TS | 電子媒体 |
ベストセラー | 可変長TS | 紙媒体 |
Yahoo!知恵袋 | Yahoo!知恵袋用TS | 電子媒体 |
Yahoo!ブログ | 可変長TS(一部修正) | 電子媒体 |
韻文 | 可変長TS(一部修正) | 紙媒体 |
法律 | 可変長TS | 電子媒体 |
国会議事録 | 可変長TS | 電子媒体 |
C-XMLとM-XMLのタグの主な違いは次の通りです。
可変長タグセットは、可変長サンプル(一つのサンプルが一つの「記事」に相当するサンプル)を記述するためのタグセットです。タグの種類は、46種類あります。
このタグセットによって付与される情報は、次の三つに分けられます。
サンプルに関するタグには、sample とsampling があります。sample タグは、一つのサンプルの範囲を表し、sampling タグは、サンプル抽出基準点などサンプリングに関する情報を表します。
この種のタグの役割は、(1)検索や計算機処理の利便性を高め、(2)原資料に忠実に電子化テキストを記述することです。前者のタグの例として、correction タグ(誤植の修正した文字を表す)があります。
後者の例として、ruby(ルビ付き文字を表す)、missingCharacter(外字を表す) タグの例を次に示します。
文書構造に関するタグは、文書中で論理的な役割が明確な部分に対して付与するもので、可変長タグセット一覧に示したとおり、この種のタグは、(a) 階層構造、(b) 図表、(c) 引用、(d)注記、(e)その他、に分けられます。
このうち、階層構造に関するタグについて、説明します。階層構造に関するタグは、articleを最上位の階層として、cluster、paragraph、sentenceといった言語的な階層構造を表現します。これらの要素に関係する部分を取り出すと次のようになります。なお、字下げは、下位の階層であることを示します。例えば、次の図のarticle 要素直下の階層には、titleBlock要素とcluster要素、paragraph要素があることがわかります。
article
titleBlock 第2節 内外均衡の背景
paragraph 53年度中にみられた...
cluster
titleBlock 1.財政金融政策の効果
paragraph 石油危機後,...
cluster
titleBlock (公共投資の拡大)
タグ名 | 内容 | |
---|---|---|
サンプル | sample | サンプリングによって1サンプルとされた文書要素 |
sampling | サンプル抽出基準点などサンプリングに関する情報 | |
階層構造 (文書構造) |
article | 同一著者による、同一テーマのひとまとまりの文書要素 |
blockEnd | 意味のまとまりや形式のまとまりを区切るためのマーカー | |
cluster | title 要素が包括する文書要素全体 | |
titleBlock | title 要素とそれに付随する要素全体 | |
title | 特定範囲の文書要素の内容を代表する記述 | |
orphanedTitle | 不特定範囲の文書要素を代表する記述 | |
list | 箇条書きなど、列挙された文書要素の集まり | |
paragraph | 段落を表す文書要素 | |
sentence | 文に相当する文書要素 | |
図表 (文書構造) |
figureBlock | 図表・写真・絵などの要素と、それに付随する文書要素をまとめた要素 |
figure | 付随する文書要素のある図・表・写真・絵など | |
caption | 図表についてのタイトルや説明 | |
table | 表 | |
引用 (文書構造) |
quotation | 図表・写真・絵などの要素と、それに付随する文書要素をまとめた要素 |
citation | 当該article 要素の本文において言及される、他文献からの引用要素 | |
source | 引用文献についての情報(文献名、著者名、著者情報など) | |
speech | 発話の引用・書き起こし、心内発話の描写 | |
speaker | 話者を明示的に表した文字列やマーク | |
quote | 当該article 要素とは異なる著作物からの引用や、発話・心内発話の引用・描写・書き起こし | |
注記 (文書構造) |
noteBody | 注記とその注記の範囲 |
noteBodyInline | 傍注など行外に付随する形式で現れる注記 | |
その他 (文書構造) |
abstract | article 要素、またはcluster 要素の概要に相当する文書要素 |
authorsData | 著作者表示・署名にあたる要素 | |
その他 (文書構造) |
contents | 目次に相当する文書要素 |
profile | 著者や登場人物のプロフィールに相当する文書要素 | |
rejectedBlock | サンプル範囲内において、削除対象となったブロック要素の存在 | |
verse | 詩、和歌、俳句、歌謡などの韻文 | |
verseLine | 韻文における行 | |
文字・表記 | ruby | ルビ付き文字 |
correction | 原文の誤植を訂正した文字 | |
missingCharacter | JIS X 0213:2004 で規定されている文字以外の文字(JIS 外字) | |
enclosedCharacter | 連続や参照などのラベルとして機能している囲み付きの文字 | |
cursive | 変体仮名 | |
image | JIS X0213:2004が規定する諸記号に含まれていない記号類や絵文字 | |
superScript | 数式や化学式などに用いる上付きの文字 | |
subScript | 数式や化学式などに用いる下付きの文字 | |
fraction | 帯分数の中の真分数部分 | |
delete | 抹消線などによって削除された本文要素 | |
br | 物理改行 | |
info | 補助的な付与情報 | |
rejectedSpan | サンプル範囲内において、削除対象となったインライン要素の存在 | |
substitution | 別の文字で代用入力されている JIS X 0213:2004 規定文字 |
固定長タグセットは、固定長サンプル(一つのサンプルに1000文字を包含するサンプル)を記述するためのタグセットです。可変長のタグセットとほぼ同じ仕様ですが、次の違いがあります。
固定長のブロック要素は、可変長における当該要素の定義を満たさない場合がある。例えばarticle 要素は記事や章、節などの文章のひとまとまりを表す要素だが、固定長では冒頭のtitleBlock 要素のみで、続く本文を含まない場合もある。
article 要素の isWholeArticle 属性は、IMPLIED (任意)である。
cluster 要素
「Yahoo!知恵袋」サブコーパスのサンプルは、質問と回答の組という、一定の論理構造で構成されます。しかし、可変長、固定長タグセットでは、この構造を十分記述することができないため、独立した文書型として定義しました。タグの種類は、9種類あります。
タグ名 | 内容 |
---|---|
sample | 質問本文と回答本文を対にしたもの |
OCQuestion | 質問本文を表す |
OCAnswer | 回答本文を表す |
br | 改行を表す |
webLine | Webデータに対して、自動で付与される、論理行相当の行を表す。 |
sentence | 文に相当するまとまりを表す。 |
rejectedBlock | 削除要素を表す |
ncr | 変換元データの数値文字参照を削除または「〓」に置換したことを表す。 |
Info | 補助的な付与情報 |
前掲の表「サブコーパスとタグセットとの関係」に示したとおり、サブコーパスの中には可変長タグセットを一部修正して記述しているものも含まれます。ここでは、可変長タグセットとの差異について説明します。
rejectedBlock タグのtype属性に ASCIIArt を追加した。これは、サンプル作成時に削除された、いわゆる「アスキーアート」を表す。
sample要素の子要素に複数のarticle 要素を持つ。これは、「韻文」サブコーパスのサンプリング方法の違いによって、1サンプルに複数の作品(=article)が並列に含まれるためである。なお、可変長タグセットでは、sample 要素の子要素として、article 要素を一つしか持たない。
可変長タグセットから22種類のタグを省略し、新たに8種類のタグを追加するなど、「教科書」サブコーパス用に変更している。
タグ名 | 内容 | |
---|---|---|
言語的な階層構造を記述する要素 | book | 【追加】 教科書1冊に相当するまとまりを表す。 |
cluster | 【変更】 検定教科書の目次に示された章題・節題等により包括される、ひとまとまりの文書要素を表す。 | |
特定の言語構造を記述する要素 | copyright | 【変更】 citation要素以外で、著作権処理が別途必要であった文書要素を表す。 |
supplement | 【変更】 教科書の主文(主要な学習内容)とは異なる書式を施され、かつ主文に対して特定の機能を有し、その機能ごとに包括されるひとまとまりの文書要素を表す。 | |
skippedBlock | 【追加】 教科書コーパスの語彙表の作成に際し、語彙調査対象外となる文書要素を表す。 | |
文字・表記に関する要素 | surrogatePair | 【追加】 〓で表示されている文字が、JIS X 0213:2004で規定されているがサロゲートペアを使用する文字であることを示す。 |
subRuby | 【追加】 横書きの場合本文下側、縦書きの場合本文左側の行間にルビを付された本文中の文字を表す。 | |
root | 【追加】 √のかかった部分のうち、マークアップしなければ√のかかる範囲が誤って解釈されてしまう恐れのある部分を表す。 | |
skippedSpan | 【追加】 教科書コーパスの語彙表作成に際し、語彙調査対象外となる文中の文字列を表す。 |
※参照:田中ほか(2011)「II 教科書コーパスの文字入力・タグ使用」