国立国語研究所
 
 

語彙統計:バージョン2022.03

本ページでは、『日本語歴史コーパス』バージョン202203の統合語彙表を提供しています。
【こちら】からダウンロードをしてご利用ください。

  • 統合語彙表は、『日本語歴史コーパス』の各語彙素の各サブコーパス毎の出現頻度を集計した語彙表です。EXCEL等のフィルター機能を用いて、品詞やコア/非コア、本文種別、文体などを絞り込んで語数を測ることも可能です。同じく、絞り込み機能を用いることで、サブコーパス毎など、特定の範囲の総語数を測ることが可能です。
  • 統合語彙表は、①長単位の語彙表、②奈良時代編から江戸時代編までの全ての語彙をまとめた短単位語彙表、③明治・大正編Ⅰ雑誌の短単位語彙表、④明治・大正編の雑誌以外の全てをまとめた短単位語彙表、の4種を公開しています。詳細は、語彙表に同梱の「READ ME」をご参照ください。

『日本語歴史コーパス』バージョン2022.03では、2058万短単位、287万長単位のデータを公開しています。各サブコーパスの規模は次の通りです。

  • 各サブコーパスの語数
時代サブコーパス名短単位長単位
奈良時代奈良時代編Ⅰ万葉集9.9万9.4万
奈良時代編Ⅱ宣命2.1万1.7万
奈良時代編Ⅲ祝詞1.1万
平安時代平安時代編Ⅰ仮名文学101.3万91.2万
平安時代編Ⅱ訓点資料1.0万
平安時代・鎌倉時代和歌集編26.9万25.2万
鎌倉時代鎌倉時代編Ⅰ説話・随筆84.4万79.2万
鎌倉時代編Ⅱ日記・紀行12.8万11.8万
鎌倉時代編Ⅲ軍記33.1万29.1万
室町時代室町時代編Ⅰ狂言27.7万25.6万
室町時代編Ⅱキリシタン資料13.8万12.8万
江戸時代江戸時代編Ⅰ洒落本21.8万
江戸時代編Ⅱ人情本40.6万
江戸時代編Ⅲ近松浄瑠璃25.5万
江戸時代編Ⅳ随筆・紀行1.6万
明治・大正・昭和明治・大正編Ⅰ雑誌1418万
明治・大正編Ⅱ教科書85.6万
明治・大正編Ⅲ明治初期口語資料21.1万
明治・大正編Ⅳ近代小説77.9万
明治・大正編Ⅴ新聞40.7万
明治・大正編Ⅵ落語SP盤10.4万

※本バージョンからは、前バージョンまでに公開していた語数表と語彙表を統合した統合語彙表のみを公開します。

 
 
event
unidic_bnr

日本語をはじめとする言語を分析するための基礎資料として、書き言葉や話し言葉の資料を体系的に収集し、研究用の情報を付与したものです。