XMLによる形態論情報と文書構造情報の統合 M-XML
M-XMLは、文字ベースのC-XMLフォーマットをもとにして、可変長・固定長サンプルを統合し、言語構造を一定程度反映させたXMLフォーマットです。短単位・長単位の形態論情報を、階層構造を維持したまま埋め込み、言語構造に関わる情報を扱いやすくしています。M-XMLは、次のような言語単位の階層構造を持っています。
文書構造(ブロック)タグ/sentence(文)/LUW(長単位)/SUW(短単位)/文字
形態論情報付きXMLフォーマットの階層構造
C-XMLとの違い
C-XMLとM-XMLのタグの主な違いは次の通りです。
1. 可変長サンプルの文書構造への統合
M-XMLでは可変長サンプルの文書構造だけを保持し、可変長部分からはみ出している固定長部分は単純なコンテナで囲み、インライン要素だけを残しました。
2. 文書定義の統一
C-XMLでは若干異なる文書定義(DTD)によっていた知恵袋・ブログ・教科書・韻文のサンプルをM-XMLでは共通の文書定義に合わせました。そのためにサブコーパス独自のタグの一部を変更しています。
3. 文(sentence)タグの修正
C-XMLではsentenceタグが多重の入れ子になることを認めていましたが、M-XMLではこれを修正しました。上位のsentenceはsuperSentenceという文書構造タグとし、下位のsentenceはそのまま残し、superSentence直下のテキストを新たにsentence type= " fragment "としています。
4.交叉するタグの修正
ルビ(ruby)や引用(quote)タグが形態論情報の切れ目と一致しないなどの問題がある場合は、問題が生じないようにタグを修正しています。
5.数字変換(NumTrans)タグの追加
形態素解析用のための数字変換を行った部分に、NumTransや fractionタグが追加されています。
形態論情報の階層構造の例
以下はそのサンプルとして一つの文(sentence要素)を抜き出したものです(見やすさのため一部の属性を省略)。
<sentence>
<LUW B="B" SL="v" l_lemma="公共工事請け負い金額" l_lForm="コウキョウコウジウケオイキンガク" l_wType="混" l_pos="名詞-普通名詞-一般" >
<SUW lemma="公共" lForm="コウキョウ" wType="漢" pos="名詞-普通名詞-一般" pron="コーキョー">
公共
</SUW>
<SUW lemma="工事" lForm="コウジ" wType="漢" pos="名詞-普通名詞-サ変可能" pron="コージ">
工事
</SUW>
<SUW lemma="請け負い" lForm="ウケオイ" wType="和" pos="名詞-普通名詞-一般" pron="ウケオイ">
請負
</SUW>
<SUW lemma="金額" lForm="キンガク" wType="漢" pos="名詞-普通名詞-一般" pron="キンガク">
金額
</SUW>
</LUW>
<LUW SL="v" l_lemma="の" l_lForm="ノ" l_wType="和" l_pos="助詞-格助詞" >
<SUW lemma="の" lForm="ノ" wType="和" pos="助詞-格助詞" pron="ノ">の</SUW>
</LUW>
<LUW B="B" SL="v" l_lemma="動き" l_lForm="ウゴキ" l_wType="和" l_pos="名詞-普通名詞-一般" >
<SUW lemma="動き" lForm="ウゴキ" wType="和" pos="名詞-普通名詞-一般" pron="ウゴキ">
動き
</SUW>
</LUW>
(略)
</sentence>