言語資源開発センター -Center for Language Resource Development-
English 国立国語研究所
 

検索アプリケーション「中納言」での『日本語話し言葉コーパス』の一般公開

語彙表・語数表は本ページ下部をご覧ください。

 2017年2月15日より、オンラインコーパス検索アプリケーション「中納言」にて、形態論情報(短単位情報)の一般公開(無償)を行っています。

 中納言版は、有償で公開しているCSJ(以下、オリジナル版)と以下の点において異なります。

1.短単位の体系

 オリジナル版の短単位情報は、品詞体系や単語の粒度が、『現代日本語書き言葉均衡コーパス』(BCCWJ)などで採用されているUniDic体系と異なります。「中納言」では、UniDic 体系に変換したものが検索対象となります。 オリジナル版の短単位情報と異なりますのでご注意ください。

2. 伏せ字の扱い

 オリジナル版では、個人情報などを含む単語について、出現形や代表表記などは伏せ字化していますが、品詞情報はそのまま公開しています。「中納言」では、コアを含む人手作業分についてはこの方針を踏襲していますが、自動解析分については品詞情報の変換はせず品詞を一律「伏せ字」としています。

3. 発音形の扱い

 オリジナル版では、言い間違いなどが生じた場合、実際の発音と丁寧に話した場合に生じるであろう発音の両方を記録していますが、「中納言」では前者は対象とせず後者のみ扱っています。

4. 節単位

 話し言葉では文の認定は容易ではありません。そのためCSJでは文に代わる単位として節単位が認定されています。「中納言」における検索でも文ではなく節単位が基本の単位となります。

詳細につきましては以下の文献をご覧ください。

渡部・田中・小磯(2015)「『日本語話し言葉コーパス』UniDic 版形態論情報の構築」『第8回コーパス日本語学ワークショップ予稿集』pp. 279-288.


「中納言」版公開データ

「中納言」データの語彙表(頻度表・Excelデータ)および語数表を公開します。研究、教育目的であれば無償で自由にお使いになれます。

語彙表データ

語数表データ

「中納言」データ更新履歴

日付 バージョン 更新内容
2018-03-01 20180301 「中納言」データ(2018年3月版)公開開始
 

リンク Links