統合語彙表は、『昭和・平成書き言葉コーパス』バージョン202305の各語彙素の出現頻度を集計した語彙表です。EXCEL等のフィルター機能を用いて、品詞やコア/非コア、本文種別、文体などを絞り込んで語数を測ることが可能です。
雑誌、ベストセラー書籍、新聞の3種の短単位語彙表を公開しています。詳細は、語彙表に同梱の「README」をご参照ください。
統合語彙表は 国語研学術情報リポジトリ(https://doi.org/10.15084/0002000043)からダウンロードをしてご利用ください。
サンプルID・文体ごとに、語数(記号等を含む場合と含まない場合)をまとめた(短単位)語数表を公開しています。
『昭和・平成書き言葉コーパス』バージョン2023.05では、3340万短単位のデータを公開しています。各レジスターの各年の規模は次の通りです。
時代 | 雑誌 | ベストセラー書籍 | 新聞 |
---|---|---|---|
1933(昭和8)年 | 329.1万 | 17.9万 | 12.8万 |
1941(昭和16)年 | 246.1万 | 23.0万 | 14.6万 |
1949(昭和24)年 | 101.7万 | 27.2万 | 11.7万 |
1957(昭和32)年 | 313.5万 | 45.8万 | 10.1万 |
1965(昭和40)年 | 202.6万 | 37.4万 | 27.9万 |
1973(昭和48)年 | 232.3万 | 34.4万 | 37.9万 |
1981(昭和56)年 | 265.8万 | 29.7万 | 35.6万 |
1989(昭和64/平成元)年 | 274.4万 | 31.6万 | 31.7万 |
1997(平成9)年 | 254.1万 | 30.7万 | 27.1万 |
2005(平成17)年 | 252.3万 | 31.5万 | 23.7万 |
2013(平成25)年 | 306.8万 | 35.5万 | 22.9万 |
合計 | 2739.9万 | 344.6万 | 255.9万 |