本ページでは、『日本語歴史コーパス』バージョン202403の統合語彙表と語数表を提供しています。
統合語彙表は、『日本語歴史コーパス』の各語彙素の各サブコーパス毎の出現頻度を集計した語彙表です。EXCEL等のフィルター機能を用いて、品詞やコア/非コア、本文種別、文体などを絞り込んで語数を測ることが可能です。同じく、絞り込み機能を用いることで、サブコーパス毎など、特定の範囲の総語数を集計することが可能です。
①長単位の語彙表、②奈良時代編から江戸時代編までの全ての語彙をまとめた短単位語彙表、③明治・大正編Ⅰ雑誌の短単位語彙表、④明治・大正編の雑誌以外の全てをまとめた短単位語彙表、の4種を公開しています。詳細は、語彙表に同梱の「README」をご参照ください。
統合語彙表は、 国語研学術情報リポジトリ(https://doi.org/10.15084/0002000263)からダウンロードをしてご利用ください。
サンプルID・コア/非コア・本文種別(引用を含む)・文体ごとに、語数(記号・未知語等を含む場合と含まない場合)をまとめた、短単位と長単位の語数表を公開します。 『日本語歴史コーパス』収録データ(ver.202403)の語数は以下のファイルの通りです。
短単位語数表csvデータ(バージョン2024.03)のダウンロード
長単位語数表csvデータ(バージョン2024.03)のダウンロード
『日本語歴史コーパス』バージョン2024.03では、2091万短単位、288万長単位のデータを公開しています。各サブコーパスの規模は次の通りです。
時代 | サブコーパス名 | 短単位 | 長単位 |
---|---|---|---|
奈良時代 | 奈良時代編Ⅰ万葉集 | 9.9万 | 9.4万 |
奈良時代編Ⅱ宣命 | 2.1万 | 1.7万 | |
奈良時代編Ⅲ祝詞 | 1.1万 | 0.9万 | |
平安時代 | 平安時代編Ⅰ仮名文学 | 101.3万 | 91.2万 |
平安時代編Ⅱ訓点資料 | 1.0万 | ― | |
平安時代・鎌倉時代 | 和歌集編 | 27.4万 | 25.0万 |
鎌倉時代 | 鎌倉時代編Ⅰ説話・随筆 | 84.4万 | 79.2万 |
鎌倉時代編Ⅱ日記・紀行 | 12.8万 | 11.8万 | |
鎌倉時代編Ⅲ軍記 | 33.1万 | 29.1万 | |
室町時代 | 室町時代編Ⅰ狂言 | 27.7万 | 25.6万 |
室町時代編Ⅱキリシタン資料 | 14.9万 | 13.9万 | |
江戸時代 | 江戸時代編Ⅰ洒落本 | 21.8万 | ― |
江戸時代編Ⅱ人情本 | 41.2万 | ― | |
江戸時代編Ⅲ近松浄瑠璃 | 25.5万 | ― | |
江戸時代編Ⅳ随筆・紀行 | 12.8万 | ― | |
明治・大正・昭和 | 明治・大正編Ⅰ雑誌 | 1418万 | ― |
明治・大正編Ⅱ教科書 | 105.8万 | ― | |
明治・大正編Ⅲ明治初期口語資料 | 21.1万 | ― | |
明治・大正編Ⅳ近代小説 | 77.9万 | ― | |
明治・大正編Ⅴ新聞 | 40.7万 | ― | |
明治・大正編Ⅵ落語SP盤 | 10.4万 | ― |