本ページでは、『日本語歴史コーパス』バージョン202203の統合語彙表を提供しています。
【こちら】からダウンロードをしてご利用ください。
サンプルID・コア/非コア・本文種別(引用を含む)・文体ごとに、語数(記号・未知語等を含む場合と含まない場合)をまとめた、短単位と長単位の語数表を追加公開しました。 『日本語歴史コーパス』収録データ(ver.202203)の語数は以下のファイルの通りです。
短単位語数表tsvデータ(バージョン2022.03)のダウンロード
短単位語数表Excelデータ(バージョン2022.03)のダウンロード
長単位語数表tsvデータ(バージョン2022.03)のダウンロード
長単位語数表Excelデータ(バージョン2022.03)のダウンロード
※未知語の扱いの違いにより更新がないサブコーパスでも一部にver.2021.03と語数の違いがあります。
『日本語歴史コーパス』バージョン2022.03では、2058万短単位、287万長単位のデータを公開しています。各サブコーパスの規模は次の通りです。
時代 | サブコーパス名 | 短単位 | 長単位 |
---|---|---|---|
奈良時代 | 奈良時代編Ⅰ万葉集 | 9.9万 | 9.4万 |
奈良時代編Ⅱ宣命 | 2.1万 | 1.7万 | |
奈良時代編Ⅲ祝詞 | 1.1万 | ― | |
平安時代 | 平安時代編Ⅰ仮名文学 | 101.3万 | 91.2万 |
平安時代編Ⅱ訓点資料 | 1.0万 | ― | |
平安時代・鎌倉時代 | 和歌集編 | 26.9万 | 25.2万 |
鎌倉時代 | 鎌倉時代編Ⅰ説話・随筆 | 84.4万 | 79.2万 |
鎌倉時代編Ⅱ日記・紀行 | 12.8万 | 11.8万 | |
鎌倉時代編Ⅲ軍記 | 33.1万 | 29.1万 | |
室町時代 | 室町時代編Ⅰ狂言 | 27.7万 | 25.6万 |
室町時代編Ⅱキリシタン資料 | 13.8万 | 12.8万 | |
江戸時代 | 江戸時代編Ⅰ洒落本 | 21.8万 | ― |
江戸時代編Ⅱ人情本 | 40.6万 | ― | |
江戸時代編Ⅲ近松浄瑠璃 | 25.5万 | ― | |
江戸時代編Ⅳ随筆・紀行 | 1.6万 | ― | |
明治・大正・昭和 | 明治・大正編Ⅰ雑誌 | 1418万 | ― |
明治・大正編Ⅱ教科書 | 85.6万 | ― | |
明治・大正編Ⅲ明治初期口語資料 | 21.1万 | ― | |
明治・大正編Ⅳ近代小説 | 77.9万 | ― | |
明治・大正編Ⅴ新聞 | 40.7万 | ― | |
明治・大正編Ⅵ落語SP盤 | 10.4万 | ― |