有償版は、情報処理技術研究者のように、書き言葉データベース全体を自力で解析したいユーザーのための公開方式です。データの検索環境となるソフトウェアの類は提供しておりませんので、ご注意ください。
収録されるファイルのイメージ(一部)
以下のデータが収録されています.
短単位(SUW)と長単位(LUW)の表形式データを提供。各13種類のレジスターごとに提供。
形態論情報付きデータの、サブコーパス別の短単位・長単位の数は表の通りです(TSV・M-XML共通)。ここでは、コアを別立てし、空白・記号等は除外して計算しています。
サブコーパス名 | サンプル数 | 短単位数 | 長単位数 |
---|---|---|---|
出版・新聞 | 1,133 | 1,061,729 | 773,395 |
出版・新聞コア | 340 | 308,504 | 224,140 |
出版・雑誌 | 1,910 | 4,242,224 | 3,320,948 |
出版・雑誌コア | 86 | 202,268 | 159,883 |
出版・書籍 | 10,034 | 28,348,233 | 22,688,202 |
出版・書籍コア | 83 | 204,050 | 169,730 |
図書館・書籍 | 10,551 | 30,377,866 | 25,092,641 |
特定目的・白書 | 1,438 | 4,685,801 | 2970,971 |
特定目的・白書コア | 62 | 197,011 | 129,646 |
特定目的・ベストセラー | 1,390 | 3,742,261 | 3,185,745 |
特定目的・知恵袋 | 90,507 | 10,162,945 | 8,534,840 |
特定目的・知恵袋コア | 938 | 93,932 | 78,770 |
特定目的・ブログ | 52,209 | 10,101,397 | 8,210,312 |
特定目的・ブログコア | 471 | 92,746 | 75,242 |
特定目的・法律 | 346 | 1,079,146 | 706,313 |
特定目的・国会会議録 | 159 | 5,102,469 | 4,007,842 |
特定目的・広報紙 | 354 | 3,755,161 | 2,308,450 |
特定目的・教科書 | 412 | 928,448 | 746,170 |
特定目的・韻文 | 252 | 225,273 | 202,425 |
合計 | 172,675 | 104,911,464 | 83,585,665 |
形態論情報付きデータはBCCWJサンプルの本文テキストに対して情報を付与したものですが、形態論情報を付与する前に、数字を解析しやすい表記に変換する処理(numTrans)を行っています。この処理で、たとえば次の例は下段のように変換されます。
これにより「2011年」が「2」「0」「1」「1」「年」(ニレイイチイチネン)ではなく、「二千」「十」「一」「年」(ニセンジュウイチネン)と解析されるようになっています。変換前の文字列の情報は別途保持されています。
また、分数が現れる箇所では、読み進める順にあわせて順序を入れ替える処理を行っています。
このような処理が行われているため、形態論情報が付与された文字列を組み上げたテキストは、文字ベースのXML(C-XML)から抜き出したテキストとは一致しません。ただし、TSV・M-XMLの両形式とも、C-XMLと同じテキストを取り出すことができるようになっています。
形態論情報付きデータでは、元の文字列を「原文文字列(originalText)」、変換後の文字列(形態素解析の対象となった表層形)を「出現書字形(orthToken)」と呼んで区別しています。
なお、この数字変換処理は、出現した文字列にもとづいて自動で行われているため、手作業で修正が施されているコアデータ以外のサンプルでは変換を誤っている可能性があります。
※参照:C-XML詳細
短単位・長単位の形態論情報は、TSV・M-XMLの両形式とも同じ内容が付与されており、同一部分の短単位・長単位が異なって解析されていることはありません。
短単位は、全体をUniDicによって解析した結果に対して部分的に人手による修正を施したものです。単一バージョンのUniDicで解析した結果そのままではないため、BCCWJのテキストとUniDicを用いたとしても同一の内容を自動的に作成することはできません。長単位も同様です。
すべての形態論情報は、冗長となることを恐れず、必要と考えられるすべての情報をテキストで保持しています。短単位の形態論情報は、原則としてUniDicの辞書見出しと対応づけることができるためIDのみで表現することも可能だが、あえてこの方法は採っていません。
なお、TSV・M-XMLの両形式とも、書誌情報は含んでいないので、必要な場合にはサンプルIDを元に別途取得する必要があります。