国立国語研究所
 
 

menu_title

概要 INTRODUCTION to SHC

『昭和・平成書き言葉コーパス』(SHC: Showa-Heisei Corpus of written Japanese)は、昭和・平成期の日本語を通時的に研究できるように設計したコーパスです。上代から近代までの日本語の歴史的変化を追うことのできる『日本語歴史コーパス』と、2001-2005年のデータを中心とする現代語の書き言葉のコーパスである『現代日本語書き言葉均衡コーパス』の間の空白期間をつなぐコーパスであるとともに、『現代日本語書き言葉均衡コーパス』以降のデータも一部含む通時コーパスとなっています。

『昭和・平成書き言葉コーパス』には、(1) 広く読まれて社会的な影響が大きい、(2) 明治から平成まで継続的に刊行されてきた、(3) 『日本語歴史コーパス 明治・大正編』や『現代日本語書き言葉均衡コーパス』に収録されておりコーパスを接続可能である、という観点から雑誌・書籍・新聞の3つのレジスターを採用しました。また、『日本語歴史コーパス 明治・大正編Ⅰ雑誌』が1874年から1925年までのおよそ8年おきにデータが収録されていることを承けて、各レジスターの1933年から2013年までの11か年のデータを収録しています。
収録語数は、雑誌レジスター2740万語、ベストセラー書籍レジスター345万語、新聞レジスター256万語の、合計3340万語です。

『昭和・平成書き言葉コーパス』の構築は、以下のプロジェクトの成果の一部です。

ご利用にあたって

『昭和・平成書き言葉コーパス』は、オンライン検索ツール「中納言」を通してご利用いただけます。ご利用には利用許諾契約が必要です。詳しくは利用・申込方法をご覧ください。

『昭和・平成書き言葉コーパス』は著作権法の「デジタル化・ネットワーク化の進展に対応した柔軟な権利制限規定」(第30条の4,第47条の4,5)にもとづき、著作権者の承諾を得ないで利用することができる「軽微な利用」の範囲内で適法に公開しています。表示される文脈長は前後30語までに制限しており、元テキストのダウンロードはできません。通常の利用方法をこえた原著作者の権利を侵害するような行為は絶対に行わないでください。



中納言

『昭和・平成書き言葉コーパス』を利用した研究成果等を発表される際は、必ず下記の情報を明記してください。

  • 小木曽智信・近藤明日子・髙橋雄太・田中牧郎・間淵洋子編(2023)『昭和・平成書き言葉コーパス』(バージョン2023.5,中納言バージョン2.7.2)https://clrd.ninjal.ac.jp/SHC/(20XX年X月X日確認)

※ バージョンかアクセス年月日のいずれかを明記すれば下記のように短縮しても構いません。

  • 小木曽智信・近藤明日子・髙橋雄太・田中牧郎・間淵洋子編(2023)『昭和・平成書き言葉コーパス』https://clrd.ninjal.ac.jp/shc/(20XX年X月X日確認)
  • 小木曽智信・近藤明日子・髙橋雄太・田中牧郎・間淵洋子編(2023)『昭和・平成書き言葉コーパス』バージョン2023.5 https://clrd.ninjal.ac.jp/shc/

規程集

本コーパスの短単位形態論情報は、原則的に『現代日本語書き言葉均衡コーパス』の短単位規程に基づいて付与されています。利用に際しては、規程集もご一読のうえ、ご利用ください。

また、部分的に用いられる文語体のテキストに関しては、『日本語歴史コーパス』の近代の文語の規程に基づいて形態論情報が付与されています。合わせてご一読ください。

概要書

利用に際しては、以下の概説書をご一読ください。

開発スタッフ -昭和・平成書き言葉コーパス-

    開発担当者

    • 小木曽智信(国立国語研究所教授)
      近藤明日子(東京大学助教)
      髙橋雄太(明治大学助教)
      間淵洋子(和洋女子大学准教授)
      田中牧郎(明治大学教授)

    開発協力者

    • 中村壮範(特任専門職員)
    • 梅田明日香 黄秀智 堀麻美(技術補佐員)
    • 青柳壮真 渥美真紀 川村純 後藤麻嘉 武田真実 土屋葵 仲村怜 渡邊菜々子(作業協力者)

※肩書きは開発当時のものです。

 
 
event
unidic_bnr

日本語をはじめとする言語を分析するための基礎資料として、書き言葉や話し言葉の資料を体系的に収集し、研究用の情報を付与したものです。