言語資源開発センター -Center for Language Resource Development-
English 国立国語研究所
 

『現代日本語書き言葉均衡コーパス』語彙表

BCCWJ語彙表(全体) (Version 1.0 のものです)

BCCWJの語彙表(頻度リスト)を公開します。研究、教育目的であれば無償で自由にお使いになれます。
なお、詳しい利用上の注意は解説のファイルをご参照下さい。

お知らせ

品詞構成表と語種構成表における長単位の数値が短単位のものと同じものになっていたため、正しい数値に修正しました。(2014.01.07)

短単位語彙表データ、長単位語彙表データ、長単位語彙表データ(頻度2以上)におけるpmwの値が100万分の1の値になっていたため、正しい数値に修正しました(BCCWJ全体のpmwの列を除く)。(2015.11.18)

特定領域研究『日本語コーパス』言語政策班最終成果CD-ROM

著 者: 特定領域研究「日本語コーパス」言語政策班

2011年

特定領域研究「日本語コーパス」言語政策班

 
 

 

『言語政策に役立つ、コーパスを用いた語彙表・漢字表等の作成と活用』(報告書)

 『現代日本語書き言葉均衡コーパス』と「教科書コーパス」に基づいて、国 語政策や国語教育に役立つ語彙表と漢字表を作成し、これを用いた応用的な研究を実施 しました。その報告書です。以下でダウンロードできる「BCCWJ主要コーパス語彙表」 「教科書コーパス語彙表」「学校・社会対照語彙表」「教科特徴語リスト」「NDCジャ ンル別漢字出現頻度表」を用いた研究例も掲載しています。

BCCWJ主要コーパス語彙表 (Version 1.0 のものです)

 『現代日本語書き言葉均衡コーパス』(BCCWJ)に含まれている、「図書館書籍」「出版書籍」「雑誌」「新聞」の固定長サンプル、「Yahoo!知恵袋」「Yahoo!ブログ」の可変長サンプルについて、頻度や語彙レベルが対照できるようにした一覧表です。

教科書コーパス語彙表 (Version 1.0 のものです)

 2005年度に使用された、小学校・中学校・高等学校の全学年・全教科の教科書1種ずつを対象とした「教科書コーパス」の語彙の一覧表です。全校種・全学年・全教科を総合した頻度を知ることもできれば、校種別・学年別・教科別の頻度を知ることもできます。また、『現代日本語書き言葉均衡コーパス』の図書館書籍(固定長サンプル)の頻度とも対照できます。

学校・社会対照語彙表(統合版) (Version 1.0 のものです)

 上記の「教科書コーパス語彙表」の中学校・高等学校の情報と、同じく「BCCWJ主要コーパス語彙表」の情報とについて、特に利用されることが多いと考える部分を抽出して、対照できるように示した一覧表です。学校で教えられている語彙と、社会でよく使われている語彙とを対比的にとらえることができます。国立国語研究所編『分類語彙表 増補改訂版』の分類番号も添えてあります。「統合版」では、分類番号が複数ある語(多義語)も、まとめて一語と扱っています。PDF版は、それを見やすい形式にしたものです。

学校・社会対照語彙表(分割版) (Version 1.0 のものです)

 「統合版」と同じ情報が掲載されている一覧表ですが、「分割版」では、『分類語彙表』の分類番号が複数ある語(多義語)は、別々の語に区分して扱っています。

教科特徴語リスト (Version 1.0 のものです)

 上述の「教科書コーパス」と「図書館書籍」(固定長サンプル)の語彙頻度を比較して、教科別の特徴語を抽出したものです。中学校と高等学校のそれぞれについて教科別の一覧表になっています。

NDCジャンル別漢字出現頻度表 (Version 1.0 のものです)

 『現代日本語書き言葉均衡コーパス』(BCCWJ)に含まれている、「出版書籍」(固定長サンプル)について、図書の分類に利用される「日本十進分類法」(NDC)の10分類別の、漢字の頻度を示したものです。分類別の一覧表になっています。

 
 

リンク Links