国立国語研究所
言語資源開発センター

近代語のコーパス 近代語のコーパス

TOP > 明六雑誌コーパス

明六雑誌コーパス

このコーパスのデータを更新したものを、『日本語歴史コーパス』「明治・大正編Ⅰ雑誌」の一部として、コーパス検索アプリケーション「中納言」で公開しています。「中納言」の利用にはユーザー登録が必要です。(2016/10/26)



『明六雑誌コーパス』(2012年公開)概要

  •  明治初期の学術啓蒙雑誌『明六雑誌』(1874~1875年,明六社刊)全文の形態論情報(単語情報)付きコーパスです。
  •  記事・引用・文字に関わる情報のほか、文の境界や単語の情報がタグ付けされています。
  •  対象は『明六雑誌』全号の全文です。
  •  総語数:約18万語
  •  著者数:16人



利用方法

『明六雑誌コーパス』は、以下の3種類の形式で公開します。

国立国語研究所学術情報リポジトリよりダウンロードしてお使いください。(2021/06/23)

データ修正のお知らせ
国立国語研究所学術情報リポジトリで公開したデータのうち、READMEファイルと『ひまわり』用データに誤りがありました。2021年10月13日に正しいものに差し替えましたので、それより以前にリポジトリよりダウンロードした方は再ダウンロードし、『ひまわり』版データを『ひまわり』へ再インストールして御利用ください。なお、XMLファイルと形態論情報タブ区切りデータには修正はありません。(2021/10/13)

クリエイティブ・コモンズ・ライセンス ※ このコーパスはクリエイティブ・コモンズ 表示 - 非営利 - 改変禁止 3.0 非移植 (CC BY-NC-ND 3.0)で公開します。

※Windowsをお使いの方は、ダウンロードしたファイルを右クリックし、[プロパティ] > [全般]でセキュリティのブロックが解除されていることを必ず確認してください。

  • XMLファイル
      本文テキストに、文書構造・形態論・文字・表記に関する情報を付与した形式。コーパスの根幹となるデータ。
  • 形態論情報タブ区切りデータ
      上記のXMLファイルから、形態論(単語)情報を抽出して、タブ区切りのデータにしたもの。
      単位は、国立国語研究所で規定する「短単位」に基づく「SUW(short unit word)」。
  • 『ひまわり』用データ
      コーパス検索ツール『ひまわり』用のデータ。
      『ひまわり』Ver.1.5β06以降にインストールすることで、『明六雑誌コーパス』を簡便に使うことができます。
      形態論情報を利用した検索や国立国語研究所の所蔵する原本の画像参照も可能です。



開発スタッフ

  • 開発担当者
      近藤明日子 須永哲矢 (プロジェクト非常勤研究員)
  • 開発協力者
      小木曽智信 高田智和 田中牧郎 (専任研究員)
      木川あづさ 田口久美子 服部紀子 (技術補佐員)
      小川志乃 (作業協力者)
  •  ※肩書きは開発当時のものです。



更新履歴

  • 2014年10月17日 『ひまわり』用データを『ひまわり』Ver.1.3対応からVer.1.5対応に更新
  • 2013年10月24日 Ver1.1公開
  •    原本画像参照機能の追加
       pbタグ・lbタグの修正

  • 2012年10月31日 Ver1.0公開



『明六雑誌コーパス』についての、お問い合わせ、ご意見などは、以下のアドレスまで電子メールでお寄せください。
k-mail.png