国立国語研究所
 
 

語彙統計:バージョン2021.03

本ページでは、『日本語歴史コーパス』バージョン2021.03の語数表と語彙表を提供しています。

  • 語数表は、サンプルID・コア/非コア・本文種別・文体ごとに語数(記号類を含めた語数と含めない語数の2種類)をまとめた表です。短単位と長単位の2種類を提供しています。EXCEL等のフィルター機能を用いて、並び替えや絞り込みができます。
  • 語彙表は、時代別・作品別の各語彙素の語数をまとめた表です。各時代の各作品に、各語彙素が何件出現したかがわかるほか、EXCEL等のフィルター機能を用いて、品詞や語種などを指定して並び替え・絞り込みを行うことが可能です。

『日本語歴史コーパス』バージョン2021.03では、1973万短単位、257万長単位のデータを公開しています。各サブコーパスの規模は次の通りです。

  • 各サブコーパスの語数
時代サブコーパス名短単位長単位
奈良時代奈良時代編Ⅰ万葉集9.9万9.4万
奈良時代編Ⅱ宣命2.1万1.7万
奈良時代編Ⅲ祝詞1.1万
平安時代平安時代編101.3万91.2万
平安時代・鎌倉時代和歌集編26.9万25.2万
鎌倉時代鎌倉時代編Ⅰ説話・随筆84.4万79.2万
鎌倉時代編Ⅱ日記・紀行12.8万11.8万
室町時代室町時代編Ⅰ狂言27.7万25.6万
室町時代編Ⅱキリシタン資料13.8万12.8万
江戸時代江戸時代編Ⅰ洒落本21.8万
江戸時代編Ⅱ人情本40.6万
江戸時代編Ⅲ近松浄瑠璃25.5万
江戸時代編Ⅳ随筆・紀行1.6万
明治・大正・昭和明治・大正編Ⅰ雑誌1418万
明治・大正編Ⅱ教科書85.6万
明治・大正編Ⅲ明治初期口語資料21.1万
明治・大正編Ⅳ近代小説77.9万

短単位語数表

『日本語歴史コーパス』収録データの語数は以下のファイルの通りです。 サンプルID・コア/非コア・本文種別(引用を含む)・文体ごとに、語数(記号を含む場合と含まない場合)をまとめました。

次のリンクから短単位語数表のデータがダウンロードできます。

短単位語数表tsvデータ(バージョン2021.03)のダウンロード

短単位語数表Excelデータ(バージョン2021.03)のダウンロード

長単位語数表

『日本語歴史コーパス』収録データの語数は以下のファイルの通りです。 サンプルID・コア/非コア・本文種別(引用を含む)・文体ごとに、語数(記号を含む場合と含まない場合)をまとめました。

次のリンクから長単位語数表のデータがダウンロードできます。

長単位語数表tsvデータ(バージョン2021.03)のダウンロード

長単位語数表Excelデータ(バージョン2021.03)のダウンロード

『日本語歴史コーパス(CHJ)』語彙表

『日本語歴史コーパス』収録データの語彙素別の語数(および語種・品詞別の語数)を時代・作品別にまとめました。

次のリンクからダウンロードできます。

短単位語彙表(バージョン2021.03)

長単位語彙表(バージョン2021.03)

 
event
unidic_bnr

日本語をはじめとする言語を分析するための基礎資料として、書き言葉や話し言葉の資料を体系的に収集し、研究用の情報を付与したものです。