『昭和・平成書き言葉コーパス』(SHC: Showa-Heisei Corpus of written Japanese)は、昭和・平成期の日本語を通時的に研究できるように設計したコーパスです。上代から近代までの日本語の歴史的変化を追うことのできる『日本語歴史コーパス』と、2001-2005年のデータを中心とする現代語の書き言葉のコーパスである『現代日本語書き言葉均衡コーパス』の間の空白期間をつなぐコーパスであるとともに、『現代日本語書き言葉均衡コーパス』以降のデータも一部含む通時コーパスとなっています。
『昭和・平成書き言葉コーパス』には、(1) 広く読まれて社会的な影響が大きい、(2) 明治から平成まで継続的に刊行されてきた、(3) 『日本語歴史コーパス 明治・大正編』や『現代日本語書き言葉均衡コーパス』に収録されておりコーパスを接続可能である、という観点から雑誌・書籍・新聞の3つのレジスターを採用しました。また、『日本語歴史コーパス 明治・大正編Ⅰ雑誌』が1874年から1925年までのおよそ8年おきにデータが収録されていることを承けて、各レジスターの1933年から2013年までの11か年のデータを収録しています。
収録語数は、雑誌レジスター2740万語、ベストセラー書籍レジスター345万語、新聞レジスター256万語の、合計3340万語です。
『昭和・平成書き言葉コーパス』の構築は、以下のプロジェクトの成果の一部です。
『昭和・平成書き言葉コーパス』は、オンライン検索ツール「中納言」を通してご利用いただけます。ご利用には利用許諾契約が必要です。詳しくは利用・申込方法をご覧ください。
『昭和・平成書き言葉コーパス』は著作権法の「デジタル化・ネットワーク化の進展に対応した柔軟な権利制限規定」(第30条の4,第47条の4,5)にもとづき、著作権者の承諾を得ないで利用することができる「軽微な利用」の範囲内で適法に公開しています。表示される文脈長は前後30語までに制限しており、元テキストのダウンロードはできません。通常の利用方法をこえた原著作者の権利を侵害するような行為は絶対に行わないでください。
『昭和・平成書き言葉コーパス』を利用した研究成果等を発表される際は、必ず下記の論文を参照・引用してください。
また、利用データとして必ず下記の情報を載せてください。
※ バージョンかアクセス年月日のいずれかを明記すれば下記のように短縮しても構いません。
本コーパスの短単位形態論情報は、原則的に『現代日本語書き言葉均衡コーパス』の短単位規程に基づいて付与されています。利用に際しては、規程集もご一読のうえ、ご利用ください。
また、部分的に用いられる文語体のテキストに関しては、『日本語歴史コーパス』の近代の文語の規程に基づいて形態論情報が付与されています。合わせてご一読ください。
利用に際しては、以下の概説書をご一読ください。
※肩書きは開発当時のものです。