このコーパスのデータを更新したものを、『日本語歴史コーパス』「明治・大正編Ⅰ雑誌」の一部として、コーパス検索アプリケーション「中納言」で公開しています。「中納言」の利用にはユーザー登録が必要です。(2016/10/26)
『国民之友コーパス』(2014年公開)概要
- 明治中期の雑誌『国民之友』(民友社刊)の1~36号(1887~1888年刊)全文の形態論情報(単語情報)付きコーパスです。
- 本文テキストに、文書構造・形態論(単語)・文字・表記に関わる情報がXMLタグによって付与されています。原本画像を参照する機能もあります。
- 総語数:約101万語
- 著者数:80人以上
※このコーパスは国立国語研究所共同研究プロジェクト「通時コーパスの設計」による成果の一部です。
利用方法
『国民之友コーパス』は以下の6つのデータファイルで構成されます。
国立国語研究所学術情報リポジトリよりダウンロードしてお使いください。(2021/06/01)
※このコーパスはクリエイティブ・コモンズ 表示 - 非営利 - 改変禁止 3.0 非移植 (CC BY-NC-ND 3.0)で公開します。
※Windowsをお使いの方は、ダウンロードしたファイルを右クリックし、[プロパティ] > [全般]でセキュリティのブロックが解除されていることを必ず確認してください。
- XMLファイル
本文テキストに、XMLタグによって文書構造・形態論・文字・表記に関する情報を付与した形式。コーパスの根幹となるデータ。 - 「ひまわり」用データ
コーパス検索ツール「ひまわり」用のデータ。
「ひまわり」にインストールすることで、『国民之友コーパス』を簡便に検索・閲覧することができます。国立国語研究所の所蔵する原本の画像を参照する機能もあります。
「ひまわり」ver.1.5β05以降にインストールして利用してください。「ひまわり」へのインストール方法は「『国民之友コーパス』解説書」を参照してください。 - 形態論情報タブ区切りデータ
XMLファイルから形態論(単語)に関する情報を抽出して、タブ区切りのデータにしたもの。 - 記事情報タブ区切りデータ
XMLファイルからarticle要素(記事)とtitleBlock要素に関する情報を抽出して、タブ区切りのデータにしたもの。 - 著者情報タブ区切りデータ
コーパス中の記事の著者・原著者に関する情報を、タブ区切りのデータにしたもの。 - 『国民之友コーパス』解説書(第1.1版)
『国民之友コーパス』の特徴やデータファイルの仕様について解説したPDFファイル。
開発スタッフ
- 開発担当者
近藤明日子 (プロジェクト非常勤研究員) - 開発協力者
小木曽智信 高田智和 田中牧郎 (専任研究員)
鴻野知暁 須永哲矢 間淵洋子 (プロジェクト非常勤研究員)
木川あづさ 田口久美子 服部紀子 (技術補佐員)
※肩書きは開発当時のものです。
更新履歴
- 2014年10月8日 『国民之友コーパス』解説書を第1版から第1.1版に改訂
- 2014年9月30日 『国民之友コーパス』Ver1.0公開
『国民之友コーパス』についての、お問い合わせ、ご意見などは、以下のアドレスまで電子メールでお寄せください。