国立国語研究所
 
 

menu_title

語彙統計

統合語彙表

統合語彙表は、『昭和・平成書き言葉コーパス』バージョン202305の各語彙素の出現頻度を集計した語彙表です。EXCEL等のフィルター機能を用いて、品詞やコア/非コア、本文種別、文体などを絞り込んで語数を測ることが可能です。

雑誌、ベストセラー書籍、新聞の3種の短単位語彙表を公開しています。詳細は、語彙表に同梱の「README」をご参照ください。

統合語彙表は こちら(https://doi.org/10.15084/0002000043)からダウンロードをしてご利用ください。

語数表

サンプルID・文体ごとに、語数(記号等を含む場合と含まない場合)をまとめた(短単位)語数表を公開しています。

各レジスターの語数

『昭和・平成書き言葉コーパス』バージョン2023.05では、3340万短単位のデータを公開しています。各レジスターの各年の規模は次の通りです。

時代雑誌ベストセラー書籍新聞
1933(昭和8)年329.1万17.9万12.8万
1941(昭和16)年246.1万23.0万14.6万
1949(昭和24)年101.7万27.2万11.7万
1957(昭和32)年313.5万45.8万10.1万
1965(昭和40)年202.6万37.4万27.9万
1973(昭和48)年232.3万34.4万37.9万
1981(昭和56)年265.8万29.7万35.6万
1989(昭和64/平成元)年274.4万31.6万31.7万
1997(平成9)年254.1万30.7万27.1万
2005(平成17)年252.3万31.5万23.7万
2013(平成25)年306.8万35.5万22.9万
合計2739.9万344.6万255.9万
 
 
event
unidic_bnr

日本語をはじめとする言語を分析するための基礎資料として、書き言葉や話し言葉の資料を体系的に収集し、研究用の情報を付与したものです。