国立国語研究所
 
 

語彙統計:バージョン2018.9

『日本語歴史コーパス』バージョン2018.9の語彙統計は以下の通りです。

※バージョン2018.3では、一部のサブコーパスで語数表の合計語数と語彙表の合計語数が一致しない問題がありましたが、2018.9では修正されていますので、どのサブコーパスについてもこちらのデータをご利用ください。(語数表で「解釈不明」「漢文」等の語数を算入していたものを、語彙表・語数表ともに対象外にしました。)

「中納言」版CHJ/短単位語数表Short-Unit-Word

『日本語歴史コーパス』「中納言」収録データの語数は以下のファイルの通りです。 サンプルID・コア/非コア・本文種別(引用を含む)・文体ごとに、語数(記号を含む場合と含まない場合)をまとめました。

次のリンクから短単位語数データがダウンロードできます。

短単位語数tsvデータ(Version2018.9)のダウンロード

短単位語数Excelデータのダウンロード

「中納言」版CHJ/長単位語数表Long-Unit-Word

『日本語歴史コーパス』「中納言」収録データの語数は以下のファイルの通りです。 サンプルID・コア/非コア・本文種別(引用を含む)・文体ごとに、語数(記号を含む場合と含まない場合)をまとめました。

次のリンクから長単位語数データ(サンプル別)がダウンロードできます。

長単位語数tsvデータ(Version2018.9)のダウンロード

長単位語数Excelデータのダウンロード

『日本語歴史コーパス(CHJ)』語彙表

『日本語歴史コーパス』「中納言」収録データの語彙素別の語数(および語種・品詞別の語数)を時代・作品別にまとめました。

次のリンクからダウンロードできます。

CHJ短単位語彙表

CHJ長単位語彙表

 
event
unidic_bnr

日本語をはじめとする言語を分析するための基礎資料として、書き言葉や話し言葉の資料を体系的に収集し、研究用の情報を付与したものです。