概要 Introduction to BCCWJ
『現代日本語書き言葉均衡コーパス』(BCCWJ)は、現代日本語の書き言葉の全体像を把握するために構築したコーパスであり、現在、日本語について入手可能な唯一の均衡コーパスです。書籍全般、雑誌全般、新聞、白書、ブログ、ネット掲示板、教科書、法律などのジャンルにまたがって1億430万語のデータを格納しており、各ジャンルについて無作為にサンプルを抽出しています。
すべてのサンプルは長短ふたつの言語単位を用いて形態素解析されており、さらに文書構造に関するタグや精密な書誌情報も提供されています。著作権処理も施されていますので、安心して使っていただけます。
『現代日本語書き言葉均衡コーパス』はオンライン版(無償:少納言・中納言での公開)およびオフライン版(有償)にて計三通りの方法で公開しています。商業目的での利用をご希望の場合は、個別に検討させていただきますので、下記までご連絡ください。
※アカデミック利用または一般利用
※有償版は利用契約を結んだ上でのご利用になります。
※契約期間は2年で、以後それぞれ自動更新されます。
コーパス検索アプリケーション「中納言」利用申込
※ 「中納言」は利用契約を結んだ上でのご利用です。
※契約期間は1年で、以後それぞれ自動更新されます。
※「少納言」は申込不要、無償で利用できます。
※なお、有償版は純粋にデータだけを格納したものであり、コーパス検索環境(検索ツール等)は提供しておりませんので、ご注意ください。
現代日本語書き言葉均衡コーパスの特徴を説明します。
対象は出版物として刊行された現代日本語の書き言葉です。
- 従来語彙調査の対象となってきた新聞、雑誌に加えて、書籍全般を対象にします。白書や教科書も対象とします。
- WEB上の文書についてはQ&A掲示板のテキストなど一部を対象とします。
- 非公開の日記や私信の類は対象としません。
- 収録対象の刊行年代は、最大30年間(1976~2005)です。メインとなる書籍の場合は、1986から2005年になります。
これはサンプリングのために必要とされるISBN(国際標準図書番号)が普及するようになった時期を対象としているためです。
上記の対象から無作為にサンプルを抽出します。
サンプル抽出
コーパスの規模は1億語(短単位)です。(空白や記号を除く)
抽出したサンプルには形態素解析(テキストを語に区切って品詞に分類すること)を施し、他の情報とともにXML文書に整形しています。
XMLによる文書構造の記述 / 形態素情報 / XMLによる形態論情報と文書構造情報の統合
コーパスを公開して、どなたにでも利用していただけるようにするため、著作権処理を実施しました。
設計の基本方針