『日本語歴史コーパス』バージョン2018.9の語彙統計は以下の通りです。
※バージョン2018.3では、一部のサブコーパスで語数表の合計語数と語彙表の合計語数が一致しない問題がありましたが、2018.9では修正されていますので、どのサブコーパスについてもこちらのデータをご利用ください。(語数表で「解釈不明」「漢文」等の語数を算入していたものを、語彙表・語数表ともに対象外にしました。)
『日本語歴史コーパス』「中納言」収録データの語数は以下のファイルの通りです。 サンプルID・コア/非コア・本文種別(引用を含む)・文体ごとに、語数(記号を含む場合と含まない場合)をまとめました。
次のリンクから短単位語数データがダウンロードできます。
短単位語数tsvデータ(Version2018.9)のダウンロード
『日本語歴史コーパス』「中納言」収録データの語数は以下のファイルの通りです。 サンプルID・コア/非コア・本文種別(引用を含む)・文体ごとに、語数(記号を含む場合と含まない場合)をまとめました。
次のリンクから長単位語数データ(サンプル別)がダウンロードできます。
長単位語数tsvデータ(Version2018.9)のダウンロード
『日本語歴史コーパス』「中納言」収録データの語彙素別の語数(および語種・品詞別の語数)を時代・作品別にまとめました。
次のリンクからダウンロードできます。