語彙表・語数表は本ページ下部をご覧ください。
2017年2月15日より、オンラインコーパス検索アプリケーション「中納言」にて、形態論情報(短単位情報)の一般公開(無償)を行っています。
中納言版は、有償で公開しているCSJ(以下、オリジナル版)と以下の点において異なります。
オリジナル版の短単位情報は、品詞体系や単語の粒度が、『現代日本語書き言葉均衡コーパス』(BCCWJ)などで採用されているUniDic体系と異なります。「中納言」では、UniDic 体系に変換したものが検索対象となります。 オリジナル版の短単位情報と異なりますのでご注意ください。
オリジナル版では、個人情報などを含む単語について、出現形や代表表記などは伏せ字化していますが、品詞情報はそのまま公開しています。「中納言」では、コアを含む人手作業分についてはこの方針を踏襲していますが、自動解析分については品詞情報の変換はせず品詞を一律「伏せ字」としています。
オリジナル版では、言い間違いなどが生じた場合、実際の発音と丁寧に話した場合に生じるであろう発音の両方を記録していますが、「中納言」では前者は対象とせず後者のみ扱っています。
話し言葉では文の認定は容易ではありません。そのためCSJでは文に代わる単位として節単位が認定されています。「中納言」における検索でも文ではなく節単位が基本の単位となります。
「中納言」データの語彙表(頻度表・Excelデータ)および語数表を公開します。研究、教育目的であれば無償で自由にお使いになれます。
日付 | バージョン | 更新内容 |
---|---|---|
2018-03-01 | 20180301 | 「中納言」データ(2018年3月版)公開開始 |