本ページでは、『日本語歴史コーパス』バージョン2021.03の語数表と語彙表を提供しています。
『日本語歴史コーパス』バージョン2021.03では、1973万短単位、257万長単位のデータを公開しています。各サブコーパスの規模は次の通りです。
時代 | サブコーパス名 | 短単位 | 長単位 |
---|---|---|---|
奈良時代 | 奈良時代編Ⅰ万葉集 | 9.9万 | 9.4万 |
奈良時代編Ⅱ宣命 | 2.1万 | 1.7万 | |
奈良時代編Ⅲ祝詞 | 1.1万 | ― | |
平安時代 | 平安時代編 | 101.3万 | 91.2万 |
平安時代・鎌倉時代 | 和歌集編 | 26.9万 | 25.2万 |
鎌倉時代 | 鎌倉時代編Ⅰ説話・随筆 | 84.4万 | 79.2万 |
鎌倉時代編Ⅱ日記・紀行 | 12.8万 | 11.8万 | |
室町時代 | 室町時代編Ⅰ狂言 | 27.7万 | 25.6万 |
室町時代編Ⅱキリシタン資料 | 13.8万 | 12.8万 | |
江戸時代 | 江戸時代編Ⅰ洒落本 | 21.8万 | ― |
江戸時代編Ⅱ人情本 | 40.6万 | ― | |
江戸時代編Ⅲ近松浄瑠璃 | 25.5万 | ― | |
江戸時代編Ⅳ随筆・紀行 | 1.6万 | ― | |
明治・大正・昭和 | 明治・大正編Ⅰ雑誌 | 1418万 | ― |
明治・大正編Ⅱ教科書 | 85.6万 | ― | |
明治・大正編Ⅲ明治初期口語資料 | 21.1万 | ― | |
明治・大正編Ⅳ近代小説 | 77.9万 | ― |
『日本語歴史コーパス』収録データの語数は以下のファイルの通りです。 サンプルID・コア/非コア・本文種別(引用を含む)・文体ごとに、語数(記号を含む場合と含まない場合)をまとめました。
次のリンクから短単位語数表のデータがダウンロードできます。
短単位語数表tsvデータ(バージョン2021.03)のダウンロード
短単位語数表Excelデータ(バージョン2021.03)のダウンロード
『日本語歴史コーパス』収録データの語数は以下のファイルの通りです。 サンプルID・コア/非コア・本文種別(引用を含む)・文体ごとに、語数(記号を含む場合と含まない場合)をまとめました。
次のリンクから長単位語数表のデータがダウンロードできます。
長単位語数表tsvデータ(バージョン2021.03)のダウンロード
長単位語数表Excelデータ(バージョン2021.03)のダウンロード
『日本語歴史コーパス』収録データの語彙素別の語数(および語種・品詞別の語数)を時代・作品別にまとめました。
次のリンクからダウンロードできます。