国立国語研究所
 
 

語彙統計:バージョン2023.03

本ページでは、『日本語歴史コーパス』バージョン202303の統合語彙表と語数表を提供しています。

統合語彙表

統合語彙表は、『日本語歴史コーパス』の各語彙素の各サブコーパス毎の出現頻度を集計した語彙表です。EXCEL等のフィルター機能を用いて、品詞やコア/非コア、本文種別、文体などを絞り込んで語数を測ることが可能です。同じく、絞り込み機能を用いることで、サブコーパス毎など、特定の範囲の総語数を集計することが可能です。

①長単位の語彙表、②奈良時代編から江戸時代編までの全ての語彙をまとめた短単位語彙表、③明治・大正編Ⅰ雑誌の短単位語彙表、④明治・大正編の雑誌以外の全てをまとめた短単位語彙表、の4種を公開しています。詳細は、語彙表に同梱の「README」をご参照ください。

統合語彙表は、 【こちら】からダウンロードをしてご利用ください。

語数表

サンプルID・コア/非コア・本文種別(引用を含む)・文体ごとに、語数(記号・未知語等を含む場合と含まない場合)をまとめた、短単位と長単位の語数表を公開します。 『日本語歴史コーパス』収録データ(ver.202303)の語数は以下のファイルの通りです。

  • 次のリンクから短単位語数表のデータがダウンロードできます。

短単位語数表csvデータ(バージョン2023.03)のダウンロード

  • 次のリンクから長単位語数表のデータがダウンロードできます。

長単位語数表csvデータ(バージョン2023.03)のダウンロード


各サブコーパスの語数

『日本語歴史コーパス』バージョン2023.03では、2079万短単位、287万長単位のデータを公開しています。各サブコーパスの規模は次の通りです。

時代サブコーパス名短単位長単位
奈良時代奈良時代編Ⅰ万葉集9.9万9.4万
奈良時代編Ⅱ宣命2.1万1.7万
奈良時代編Ⅲ祝詞1.1万0.9万
平安時代平安時代編Ⅰ仮名文学101.3万91.2万
平安時代編Ⅱ訓点資料1.0万
平安時代・鎌倉時代和歌集編27.4万25.0万
鎌倉時代鎌倉時代編Ⅰ説話・随筆84.4万79.2万
鎌倉時代編Ⅱ日記・紀行12.8万11.8万
鎌倉時代編Ⅲ軍記33.1万29.1万
室町時代室町時代編Ⅰ狂言27.7万25.6万
室町時代編Ⅱキリシタン資料13.8万12.8万
江戸時代江戸時代編Ⅰ洒落本21.8万
江戸時代編Ⅱ人情本41.2万
江戸時代編Ⅲ近松浄瑠璃25.5万
江戸時代編Ⅳ随筆・紀行12.8万
明治・大正・昭和明治・大正編Ⅰ雑誌1418万
明治・大正編Ⅱ教科書95.2万
明治・大正編Ⅲ明治初期口語資料21.1万
明治・大正編Ⅳ近代小説77.9万
明治・大正編Ⅴ新聞40.7万
明治・大正編Ⅵ落語SP盤10.4万
 
 
event
unidic_bnr

日本語をはじめとする言語を分析するための基礎資料として、書き言葉や話し言葉の資料を体系的に収集し、研究用の情報を付与したものです。