言語資源開発センター -Center for Language Resource Development-
English 国立国語研究所
 

C-XML(文字ベースXMLデータ)詳細 C-XML

C-XML形式のデータはDisc1のC-XMLディレクトリの下に、可変長・固定長に分けてサブコーパスごとのディレクトリで格納されています。ディレクトリ内にそれぞれ一つの圧縮ファイルがあり、これを展開することで1ファイルが1サンプルに対応する多数のXMLファイルが展開されます。ファイル数の多いLB、PB、OC、OYについては、複数のサブディレクトリに分けてXMLファイルが展開されます。

文書構造タグセットの種類とサブコーパスとの関係

BCCWJは複数のサブコーパスから構成されます。文書構造タグのセットは、それぞれのサブコーパスの特性に合わせて、表「サブコーパスとタグセットとの関係」のように規定され、個々のタグセットはXMLの文書型として定義されます。なお、同一のタグであっても原資料が紙媒体か電子媒体かによって、付与方法の異なる場合があります。そのため、データによってタグの性質や付与の精度に差が生じることがあります。

タグセット(TS)は、次の3種類に大別されます。表中で「可変長(一部修正)」とあるのは、可変長タグセットに少数の部分的な変更を加えたタグセットであることを意味します。

  • 可変長TS:
    可変長サンプル(一つのサンプルが一つの「記事」に相当するサンプル)を記述するためのタグセット
  • 固定長TS:
    固定長サンプル(一つのサンプルに1000文字を包含するサンプル)を記述するためのタグセット
  • Yahoo!知恵袋TS:
    「Yahoo!知恵袋」を記述するためのタグセット

サブコーパスとタグセットとの関係

サブコーパス タグセット 原資料の媒体
出版サブコーパス 可変長TS、固定長TS 紙媒体
図書館サブコーパス 可変長TS、固定長TS 紙媒体
白書 可変長TS、固定長TS 紙媒体
教科書 可変長TS(一部修正) 紙媒体
広報誌 可変長TS 電子媒体
ベストセラー 可変長TS 紙媒体
Yahoo!知恵袋 Yahoo!知恵袋用TS 電子媒体
Yahoo!ブログ 可変長TS(一部修正) 電子媒体
韻文 可変長TS(一部修正) 紙媒体
法律 可変長TS 電子媒体
国会議事録 可変長TS 電子媒体

可変長タグセット

C-XMLとM-XMLのタグの主な違いは次の通りです。

可変長タグセットは、可変長サンプル(一つのサンプルが一つの「記事」に相当するサンプル)を記述するためのタグセットです。タグの種類は、46種類あります。
このタグセットによって付与される情報は、次の三つに分けられます。

サンプルに関するタグ

サンプルに関するタグには、sample とsampling があります。sample タグは、一つのサンプルの範囲を表し、sampling タグは、サンプル抽出基準点などサンプリングに関する情報を表します。

文字・表記に関するタグ

この種のタグの役割は、(1)検索や計算機処理の利便性を高め、(2)原資料に忠実に電子化テキストを記述することです。前者のタグの例として、correction タグ(誤植の修正した文字を表す)があります。

生活基<correction type="erratum" originalText="盟">盤</correction>に
伸びを示し<correction type="omission">てGlt;/correction>いる
整備を<correction type="excess" originalText="を" />図るべく

後者の例として、ruby(ルビ付き文字を表す)、missingCharacter(外字を表す) タグの例を次に示します。

<ruby rubyText="ご">語</ruby><ruby rubyText="い">彙</ruby>
<missingCharacter attribute="HanIdeograph" unicode="U+5AEB"
daikanwa="M06673" description="女偏に莫">〓</missingCharacter>

文書構造に関するタグ

文書構造に関するタグは、文書中で論理的な役割が明確な部分に対して付与するもので、可変長タグセット一覧に示したとおり、この種のタグは、(a) 階層構造、(b) 図表、(c) 引用、(d)注記、(e)その他、に分けられます。

このうち、階層構造に関するタグについて、説明します。階層構造に関するタグは、articleを最上位の階層として、cluster、paragraph、sentenceといった言語的な階層構造を表現します。これらの要素に関係する部分を取り出すと次のようになります。なお、字下げは、下位の階層であることを示します。例えば、次の図のarticle 要素直下の階層には、titleBlock要素とcluster要素、paragraph要素があることがわかります。

  article
   titleBlock 第2節 内外均衡の背景
   paragraph  53年度中にみられた...
   cluster
    titleBlock 1.財政金融政策の効果
    paragraph  石油危機後,...
    cluster
     titleBlock (公共投資の拡大)


タグ名 内容
サンプル sample サンプリングによって1サンプルとされた文書要素
sampling サンプル抽出基準点などサンプリングに関する情報
階層構造
(文書構造)
article 同一著者による、同一テーマのひとまとまりの文書要素
blockEnd 意味のまとまりや形式のまとまりを区切るためのマーカー
cluster title 要素が包括する文書要素全体
titleBlock title 要素とそれに付随する要素全体
title 特定範囲の文書要素の内容を代表する記述
orphanedTitle 不特定範囲の文書要素を代表する記述
list 箇条書きなど、列挙された文書要素の集まり
paragraph 段落を表す文書要素
sentence 文に相当する文書要素
図表
(文書構造)
figureBlock 図表・写真・絵などの要素と、それに付随する文書要素をまとめた要素
figure 付随する文書要素のある図・表・写真・絵など
caption 図表についてのタイトルや説明
table
引用
(文書構造)
quotation 図表・写真・絵などの要素と、それに付随する文書要素をまとめた要素
citation 当該article 要素の本文において言及される、他文献からの引用要素
source 引用文献についての情報(文献名、著者名、著者情報など)
speech 発話の引用・書き起こし、心内発話の描写
speaker 話者を明示的に表した文字列やマーク
quote 当該article 要素とは異なる著作物からの引用や、発話・心内発話の引用・描写・書き起こし
注記
(文書構造)
noteBody 注記とその注記の範囲
noteBodyInline 傍注など行外に付随する形式で現れる注記
その他
(文書構造)
abstract article 要素、またはcluster 要素の概要に相当する文書要素
authorsData 著作者表示・署名にあたる要素
その他
(文書構造)
contents 目次に相当する文書要素
profile 著者や登場人物のプロフィールに相当する文書要素
rejectedBlock サンプル範囲内において、削除対象となったブロック要素の存在
verse 詩、和歌、俳句、歌謡などの韻文
verseLine 韻文における行
文字・表記 ruby ルビ付き文字
correction 原文の誤植を訂正した文字
missingCharacter JIS X 0213:2004 で規定されている文字以外の文字(JIS 外字)
enclosedCharacter 連続や参照などのラベルとして機能している囲み付きの文字
cursive 変体仮名
image JIS X0213:2004が規定する諸記号に含まれていない記号類や絵文字
superScript 数式や化学式などに用いる上付きの文字
subScript 数式や化学式などに用いる下付きの文字
fraction 帯分数の中の真分数部分
delete 抹消線などによって削除された本文要素
br 物理改行
info 補助的な付与情報
rejectedSpan サンプル範囲内において、削除対象となったインライン要素の存在
substitution 別の文字で代用入力されている JIS X 0213:2004 規定文字

固定長タグセット

 固定長タグセットは、固定長サンプル(一つのサンプルに1000文字を包含するサンプル)を記述するためのタグセットです。可変長のタグセットとほぼ同じ仕様ですが、次の違いがあります。

固定長サンプルの収録範囲は、文字数で限定される。

固定長のブロック要素は、可変長における当該要素の定義を満たさない場合がある。例えばarticle 要素は記事や章、節などの文章のひとまとまりを表す要素だが、固定長では冒頭のtitleBlock 要素のみで、続く本文を含まない場合もある。

article 要素の isWholeArticle 属性は、IMPLIED (任意)である。

次の要素は認定されない。

cluster 要素

Yahoo!知恵袋サブコーパスタグセット

 「Yahoo!知恵袋」サブコーパスのサンプルは、質問と回答の組という、一定の論理構造で構成されます。しかし、可変長、固定長タグセットでは、この構造を十分記述することができないため、独立した文書型として定義しました。タグの種類は、9種類あります。

タグ名 内容
sample 質問本文と回答本文を対にしたもの
OCQuestion 質問本文を表す
OCAnswer 回答本文を表す
br 改行を表す
webLine Webデータに対して、自動で付与される、論理行相当の行を表す。
sentence 文に相当するまとまりを表す。
rejectedBlock 削除要素を表す
ncr 変換元データの数値文字参照を削除または「〓」に置換したことを表す。
Info 補助的な付与情報

その他のタグセット

 前掲の表「サブコーパスとタグセットとの関係」に示したとおり、サブコーパスの中には可変長タグセットを一部修正して記述しているものも含まれます。ここでは、可変長タグセットとの差異について説明します。

Yahoo! Blog

rejectedBlock タグのtype属性に ASCIIArt を追加した。これは、サンプル作成時に削除された、いわゆる「アスキーアート」を表す。

韻文

sample要素の子要素に複数のarticle 要素を持つ。これは、「韻文」サブコーパスのサンプリング方法の違いによって、1サンプルに複数の作品(=article)が並列に含まれるためである。なお、可変長タグセットでは、sample 要素の子要素として、article 要素を一つしか持たない。

教科書

可変長タグセットから22種類のタグを省略し、新たに8種類のタグを追加するなど、「教科書」サブコーパス用に変更している。

省略したタグ

 abstract, authorsData, blockEnd, contents, cursive, delite, info, insert, list, listItem,
 orphanedTitle, paragraph, profile, quotation, quote, source, speaker, speech, table,
 titleBlock, verse, verseLine

追加したタグ

 book, copyright, supplement, skippedBlock, surrogatePair, subRuby, root, skippedSpan

教科書サブコーパス用に追加・定義変更したタグ


タグ名 内容
言語的な階層構造を記述する要素 book 【追加】  教科書1冊に相当するまとまりを表す。
cluster 【変更】  検定教科書の目次に示された章題・節題等により包括される、ひとまとまりの文書要素を表す。
特定の言語構造を記述する要素 copyright 【変更】  citation要素以外で、著作権処理が別途必要であった文書要素を表す。
supplement 【変更】  教科書の主文(主要な学習内容)とは異なる書式を施され、かつ主文に対して特定の機能を有し、その機能ごとに包括されるひとまとまりの文書要素を表す。
skippedBlock 【追加】  教科書コーパスの語彙表の作成に際し、語彙調査対象外となる文書要素を表す。
文字・表記に関する要素 surrogatePair 【追加】  〓で表示されている文字が、JIS X 0213:2004で規定されているがサロゲートペアを使用する文字であることを示す。
subRuby 【追加】  横書きの場合本文下側、縦書きの場合本文左側の行間にルビを付された本文中の文字を表す。
root 【追加】  √のかかった部分のうち、マークアップしなければ√のかかる範囲が誤って解釈されてしまう恐れのある部分を表す。
skippedSpan 【追加】  教科書コーパスの語彙表作成に際し、語彙調査対象外となる文中の文字列を表す。

※参照:田中ほか(2011)「II 教科書コーパスの文字入力・タグ使用」

 
 

リンク Links