【重要】 現在、国立国語研究所では『現代日本語書き言葉均衡コーパス』（BCCWJ）の拡張として、『現代日本語書き言葉均衡コーパス　第2部』（BCCWJ2）を構築しています。これに伴い、これまで『現代日本語書き言葉均衡コーパス』（BCCWJ）として公開してきたコーパスの名称を『現代日本語書き言葉均衡コーパス　第1部』（BCCWJ1）に変更します。
　このページでは『現代日本語書き言葉均衡コーパス　第1部』（BCCWJ1）について掲載しています。『現代日本語書き言葉均衡コーパス　第2部』（BCCWJ2）は対象外です。

有償版公開データ Contents of the paid edition

有償版は、情報処理技術研究者のように、書き言葉データベース全体を自力で解析したいユーザーのための公開方式です。データの検索環境となるソフトウェアの類は提供しておりませんので、ご注意ください。

すべてのデータにアクセスできます。
データの再配布はできません。
データの利用に先だって、著作権保護のために国立国語研究所との間に利用契約を締結していただきます。

sashie1
収録されるファイルのイメージ（一部）

以下のデータが収録されています．

コアデータ（全体の約100分の1）　約9万短単位

短単位(SUW)と長単位(LUW)のコアデータ、統合形式XML（形態論情報付き）コアデータを6種類のレジスターごとに提供。
総サンプル数1980。

文字ベースXML(C-XML)　　約1億短単位（空白・補助記号は除く）

文書構造タグを付与したXML文書データ。固定長（FIXED）と可変長（VARIABLE）に分けて提供。総数172,675サンプル。
固定長サンプルはOW,PB,PN,PM,LBの５種類のレジスター、可変長サンプルは全13種類のレジスターごとに提供。

統合形式XML(M-XML) 　　約1億短単位（空白・補助記号は除く）

統合形式XML文書（形態論情報付き）を提供（固定長・可変長の区別はない）。全13種類のレジスターごとに提供。

ドキュメント

マニュアルおよび書誌情報関連データ（5種類）、著作権注釈情報データの電子文書

表形式データ

sashie2

短単位(SUW)と長単位(LUW)の表形式データを提供。各13種類のレジスターごとに提供。

総語数

　形態論情報付きデータの、サブコーパス別の短単位・長単位の数は表の通りです（TSV・M-XML共通）。ここでは、コアを別立てし、空白・記号等は除外して計算しています。

サブコーパスごとの短単位・長単位数

サブコーパス名	サンプル数	短単位数	長単位数
出版・新聞	1,133	1,061,729	773,395
出版・新聞コア	340	308,504	224,140
出版・雑誌	1,910	4,242,224	3,320,948
出版・雑誌コア	86	202,268	159,883
出版・書籍	10,034	28,348,233	22,688,202
出版・書籍コア	83	204,050	169,730
図書館・書籍	10,551	30,377,866	25,092,641
特定目的・白書	1,438	4,685,801	2970,971
特定目的・白書コア	62	197,011	129,646
特定目的・ベストセラー	1,390	3,742,261	3,185,745
特定目的・知恵袋	90,507	10,162,945	8,534,840
特定目的・知恵袋コア	938	93,932	78,770
特定目的・ブログ	52,209	10,101,397	8,210,312
特定目的・ブログコア	471	92,746	75,242
特定目的・法律	346	1,079,146	706,313
特定目的・国会会議録	159	5,102,469	4,007,842
特定目的・広報紙	354	3,755,161	2,308,450
特定目的・教科書	412	928,448	746,170
特定目的・韻文	252	225,273	202,425
合計	172,675	104,911,464	83,585,665

本文に関する注意事項

　形態論情報付きデータはBCCWJサンプルの本文テキストに対して情報を付与したものですが、形態論情報を付与する前に、数字を解析しやすい表記に変換する処理（numTrans）を行っています。この処理で、たとえば次の例は下段のように変換されます。

２０１１年に完成した
　　　　↓
<NumTrans originalText="２０１１" >二千十一</NumTrans>年に完成した

これにより「２０１１年」が「２」「０」「１」「１」「年」（ニレイイチイチネン）ではなく、「二千」「十」「一」「年」（ニセンジュウイチネン）と解析されるようになっています。変換前の文字列の情報は別途保持されています。
また、分数が現れる箇所では、読み進める順にあわせて順序を入れ替える処理を行っています。

５０／４５
　　↓
<fraction>
<denominator><NumTrans originalText="４５">四十五</NumTrans></denominator>
<vinculum><NumTrans originalText="／">分</NumTrans></vinculum>
<numerator><NumTrans originalText="５０">五十</NumTrans></numerator>
</fraction>

　このような処理が行われているため、形態論情報が付与された文字列を組み上げたテキストは、文字ベースのXML（C-XML）から抜き出したテキストとは一致しません。ただし、TSV・M-XMLの両形式とも、C-XMLと同じテキストを取り出すことができるようになっています。

形態論情報付きデータでは、元の文字列を「原文文字列（originalText）」、変換後の文字列（形態素解析の対象となった表層形）を「出現書字形（orthToken）」と呼んで区別しています。

なお、この数字変換処理は、出現した文字列にもとづいて自動で行われているため、手作業で修正が施されているコアデータ以外のサンプルでは変換を誤っている可能性があります。

※参照：C-XML詳細

形態論情報に関する注意事項

　短単位・長単位の形態論情報は、TSV・M-XMLの両形式とも同じ内容が付与されており、同一部分の短単位・長単位が異なって解析されていることはありません。

短単位は、全体をUniDicによって解析した結果に対して部分的に人手による修正を施したものです。単一バージョンのUniDicで解析した結果そのままではないため、BCCWJのテキストとUniDicを用いたとしても同一の内容を自動的に作成することはできません。長単位も同様です。

すべての形態論情報は、冗長となることを恐れず、必要と考えられるすべての情報をテキストで保持しています。短単位の形態論情報は、原則としてUniDicの辞書見出しと対応づけることができるためIDのみで表現することも可能だが、あえてこの方法は採っていません。

なお、TSV・M-XMLの両形式とも、書誌情報は含んでいないので、必要な場合にはサンプルIDを元に別途取得する必要があります。

利用・申込方法

BCCWJの設計