【重要】
現在、国立国語研究所では『現代日本語書き言葉均衡コーパス』(BCCWJ)の拡張として、『現代日本語書き言葉均衡コーパス 第2部』(BCCWJ2)を構築しています。
これに伴い、これまで『現代日本語書き言葉均衡コーパス』(BCCWJ)として公開してきたコーパスの名称を『現代日本語書き言葉均衡コーパス 第1部』(BCCWJ1)に変更します。
このページでは『現代日本語書き言葉均衡コーパス 第1部』(BCCWJ1)について掲載しています。『現代日本語書き言葉均衡コーパス 第2部』(BCCWJ2)は対象外です。
『現代日本語書き言葉均衡コーパス』(BCCWJ)は、現代日本語の書き言葉の全体像を把握するために構築したコーパスであり、現在、日本語について入手可能な唯一の均衡コーパスです。書籍全般、雑誌全般、新聞、白書、ブログ、ネット掲示板、教科書、法律などのジャンルにまたがって1億430万語のデータを格納しており、各ジャンルについて無作為にサンプルを抽出しています。
すべてのサンプルは長短ふたつの言語単位を用いて形態素解析されており、さらに文書構造に関するタグや精密な書誌情報も提供されています。著作権処理も施されていますので、安心して使っていただけます。
『現代日本語書き言葉均衡コーパス』はオンライン版(無償:少納言・中納言での公開)およびオフライン版(有償)にて計三通りの方法で公開しています。商業目的での利用をご希望の場合は、個別に検討させていただきますので、下記までご連絡ください。
※「少納言」は申込不要、無償で利用できます。
※なお、有償版は純粋にデータだけを格納したものであり、コーパス検索環境(検索ツール等)は提供しておりませんので、ご注意ください。
現代日本語書き言葉均衡コーパスの特徴を説明します。
XMLによる文書構造の記述 / 形態素情報 / XMLによる形態論情報と文書構造情報の統合
『現代日本語書き言葉均衡コーパス』を利用した研究成果等を発表される際は、必ず下記の論文を参照・引用してください。
「中納言」を利用した場合は、利用データとして必ず下記の情報を載せてください。(バージョンやアクセス年月日は適宜置き換えてください)