国立国語研究所
 
 

「中納言」検索インターフェース Search interface

本ページでは、「中納言」上での検索結果や、ダウンロードした検索結果の列情報について、特に『日本語歴史コーパス』を利用する上で重要となる、独自に設定されている項目を取り上げて説明します。

  •  ● コーパス情報 時代名/サンプルID/開始位置/連番/コア/主本文/多重化種別
  •  ● 形態論情報 語彙素読み/語彙素/語形/品詞/活用型/活用形/原文文字列・原文Kwic/振り仮名
  •  ● 本文情報 本文種別/話者/文体
  •  ● 作品情報 ジャンル/作品名/成立年/巻名等
  •  ● 作者情報 作者/生年/性別
  •  ● 底本情報 底本/ページ番号/出版社
  •  ● 外部リンク 外部リンク

コーパス情報

時代名

各コーパスの「~時代編」とは別に、次の表のように、時代や年号によって区分された時代名を付与しています。

12345678
奈良平安鎌倉室町江戸明治大正昭和

例えば、「明治・大正編Ⅱ教科書」には明治期~昭和期の国定教科書のデータが含まれていますが、このうち第Ⅰ期(1904年)、第Ⅱ期(1910年)には「6明治」、第Ⅲ期(1918年)には「7大正」、第Ⅳ期(1933年)、第Ⅴ期(1941年)、第Ⅵ期(1947年)には「8昭和」の情報が付与されており、時代別にも並び替え・絞り込みが可能です。

サンプルID

各コーパスの「サンプル」(巻、節、記事など)には、時代や作品などが個別に認識される15桁のIDが付与されています。IDのそれぞれの桁は、以下のことを表わします。

1-2桁目3桁目4-5桁目6-9桁目10桁目11-15桁目
時代(「―編」準拠)ジャンル作品ID成立時期区切り記号作品内での出現順通し番号

例えば、「60M明六1874_01001」のサンプルIDの場合、「60」は「明治・大正編」、「M」は「雑誌(Magazine)」、「明六」は『明六雑誌』、「1874」は「1874年」、「_」は区切り記号、「01001」は第一号の一番目の記事であることを表わしています。

各サブコーパスのサンプルIDは、次の表のような基準で付与されています。

サブコーパス名1-2桁目3桁目4-5桁目6-9桁目10桁目11-15桁目
時代(「―編」準拠)ジャンル作品ID成立時期区切り記号作品内での出現順通し番号
奈良時代編Ⅰ万葉集10(上代)-万葉0759-巻5桁
奈良時代編Ⅱ宣命10(上代)-宣命0797-続日本紀2桁+詔連番3桁
奈良時代編Ⅲ祝詞10(上代)-祝詞0927-祝詞連番5桁
平安時代編Ⅰ仮名文学20(平安)-作品名頭文字2字各作品の成立年-ファイル連番5桁(大鏡のみ部2桁+ファイル連番3桁)
平安時代編Ⅱ訓点資料20(平安)K(訓点資料)西金0803-巻2桁+品3桁
鎌倉時代編Ⅰ説話・随筆30(鎌倉)-作品名頭文字2字各作品の成立年-巻2桁+ファイル連番3桁またはファイル連番5桁
鎌倉時代編Ⅱ日記・紀行30(鎌倉)-作品名頭文字2字各作品の成立年-巻2桁+ファイル連番3桁またはファイル連番5桁
鎌倉時代編Ⅲ軍記30(鎌倉)-作品名頭文字2字各作品の成立年-巻2桁+ファイル連番3桁
室町時代編Ⅰ狂言40(室町)-虎明1642-巻2桁+ファイル連番3桁
室町時代編Ⅱキリシタン資料40(室町)-作品名より2字各作品の成立年-巻2桁+ファイル連番3桁またはファイル連番5桁
江戸時代編Ⅰ洒落本52(江戸・近世後期)-洒落各作品の成立年-地域2桁+ファイル連番3桁
江戸時代編Ⅱ人情本53(江戸・近世末期)-人情各作品の成立年-作品連番2桁+巻連番3桁
江戸時代編Ⅲ近松浄瑠璃51(江戸・近世前期)-近松各作品の成立年-作品連番2桁+巻連番3桁
江戸時代編Ⅳ随筆・紀行51(江戸・近世前期)-芭蕉各作品の成立年-作品連番(成立年順)2桁+同成立年連番3桁
明治・大正編Ⅰ雑誌60(明治・大正)M(雑誌)作品名頭文字2字各作品の成立年-号連番2桁+記事連番3桁
明治・大正編Ⅱ教科書60(明治・大正)T(教科書)作品名頭文字2字各期の成立年-期1桁+学年1桁+巻1桁+記事連番3桁
明治・大正編Ⅲ明治初期口語資料60(明治・大正)C(口語資料)口語各作品の成立年-資料連番2桁+資料内編番号1桁+資料及び編内の通し番号2桁
明治・大正編Ⅳ近代小説60(明治・大正)N(小説)作品名頭文字2字各作品の成立年-冊1桁+部1桁+章連番3桁
明治・大正編Ⅴ新聞60(明治・大正)P(新聞)読売各号の成立年-月1桁(32進数)+日1桁(32進数)+記事連番3桁
明治・大正編Ⅵ落語SP盤60(明治・大正)R(落語)落語家略名2字各作品の成立年-地域2桁+地域内ファイル連番3桁
和歌集編20(平安)W(和歌集)作品名頭文字2字各作品の成立年-巻2桁+ファイル連番3桁
30(鎌倉)

開始位置

「キー」に該当する語の先頭の文字の、サンプル内における位置を表すIDです。本文の1字毎に、10きざみの連番で付与されています。位置検索の際にサンプルIDと合わせて利用することで、用例の同定が可能です。

連番

「キー」に対応する語の、サンプル内における位置を表すIDです。「開始位置」とは異なり、「キー」の文字数に関わらず、1短単位または1長単位毎に、10きざみの連番で付与されています。

コア

検索対象の含まれるサンプルがコアデータ(人手修正が全編にわたり入ったデータセット)、または非コアデータ(一部に人手修正は入っているが形態素解析の結果をそのまま残す部分を含むデータセット)であることを表わします。「1」はコアデータであることを、「0」が非コアデータであることを表わします。

主本文

主本文(主たる読み)と副本文(副たる読み)の区別を表わします。掛詞など、読みや意味に2通り以上の情報がある文字列に対して、多重の形態論情報が付与されているレコードにそれぞれ番号が付与されます。「1」が主本文、「0」が副本文を表わします。

多重化種別

形態論情報の多重化が行われたレコードについて、多重化を行った要因を表わします。「掛詞」や「振り仮名」などの種別が表示されます。

形態論情報

語彙素

「キー」に該当する語の表記を表わします。語彙素は、単語の様々なバリエーション(語形、活用形、表記形など)を統合した辞書の見出しに相当するもので、一般の和語・漢語は漢字平仮名表記、外来語・人名・地名は片仮名表記で表わされます(例:「国」「国家」「カントリー」「ニホン」)。

語彙素読み

「キー」に該当する語(下記項目「語彙素」参照)の読みを表わします。片仮名で表記されます。(例:「クニ」「コッカ」「カントリー」「ニホン」)

語形

「キー」に該当する語の語形を表わします。語形は、語彙素では統合される語形の別(例:語彙素「矢張り」に対する「ヤハリ」「ヤッパリ」など)や活用型の別(例:語彙素「読む」に対する「ヨム(五段-マ行)」「ヨム(文語四段-マ行)」「ヨメル(下一段-マ行;可能動詞形)」など)等を区別した語の個々の形に相当するものです。片仮名で表記されます。

品詞

「キー」に該当する語の品詞で、UniDic の体系に基づく品詞分類の情報が表示されます。学校文法における「形容動詞」は、語幹が「形状詞」、活用語尾が「助動詞」に分割されるなど、UniDic独自の品詞体系を取る部分がある点に注意が必要です。また、短単位では、例えば「朝」という言葉には「名詞-普通名詞-副詞可能」という品詞情報が付されています。これは「名詞」の中の下位分類まで表示される仕組みになっており、名詞で用いられる用例であっても副詞的に用いられる用例であっても、同一の品詞情報を付与する、可能性に基づく品詞情報の付与をしています。

活用型

「キー」に該当する語の活用の型を表わし、活用語の場合のみ表示されます。口語活用は活用の型と行で「五段-サ行」のように、文語活用は「文語」が加わり「文語四段-サ行」のように示されます。

活用形

「キー」に含まれる短単位の活用形を表わし、活用語の場合のみ表示されます。学校文法では「未然形」と助動詞「う・よう」に分割される形態は、結合して「意志推量形」とする点に注意が必要です。

原文文字列・原文kwic

コーパスのテキストは、誤字や脱字、衍字、濁音落ちなどを修正しています。また、サブコーパスによっては、漢字片仮名交じり文を漢字平仮名交じり文に変換する、踊り字(「〳〵」「々々」など)を展開するといった校訂を加えています。「原文文字列」「原文kwic」列には校訂前のテキストが表示されます。

なお、「室町時代編Ⅱキリシタン資料」では例外的に、ローマ字表記の原文が表示されます。

振り仮名

「キー」の、右ルビや本行右側の(または上部の)傍注の校訂後のテキストを表わします。なお、左ルビは「中納言」の検索結果には表示されません。

本文情報

本文種別

検索対象が地の文や会話など、本文のいずれの要素の部分に存在するのかを表わします。

「本文種別」の列が空白の場合は、検索対象が地の文の中にあることを表わします。会話文中にある場合は「会話」、書籍や手紙などの引用文中にある場合は「引用」の情報が付与されています。また、サブコーパスによって、「歌」「詞書」などの独自の情報が付与されていることがあります(各時代編の解説書を参照)。

話者

会話文の発話者や引用文の書き手、引用元の書籍名などが表示されます。和歌の場合、読み手を表わします。

文体

明治・大正編に限って、検索対象の含まれる文の文体が表示されます。使用される文末辞によって、「口語」と「文語」のいずれかの情報が付与されています。なお、「文語」「口語」の分類は、原則「地の文」はサンプル単位で、「地の文」以外の「会話」「引用」等は各「会話」「引用」の単位で行われています。文語と口語が混在する文章の場合は、主たる文体を判断し、「文語」「口語」いずれかの種別を付与しています。このほか、「漢文」「韻文」「外国語」など、サンプル中の特定の部分にのみ例外的に特殊な文体情報を適用している場合もあります。

作品情報

ジャンル

「作り物語」「歌集」「日記」「説話」「狂言」など、各作品が該当するジャンル情報を表わします。ただし、明治・大正編の一部のサブコーパスでは、サンプルが文芸分野(小説、戯曲、詩歌など)かそれ以外(論説、エッセイ、報道など)かによって、「文芸」と「非文芸」の情報がそれぞれ付与されています。

作品名

検索対象の含まれるサンプルが収録された資料名を表わします。

成立年

検索対象の含まれるサンプルが収録された資料・編の刊行年・成立年を表わします。『竹取物語』など、成立年が不詳な作品であっても、おおよその予想に基づく西暦年が付与されています。

巻名等

検索対象の含まれるサンプルが収録された資料の編名・巻名、およびサンプルのタイトルを表わします。

作者情報

作者

検索対象の含まれるサンプルの著者名や歌の読み手などの作者情報を表わします。著者名の認定は、底本テキストの記載に基づきますが、現在一般的に知られている呼称に変えた場合があります。

一部の作者については、「国立国会図書館典拠データ検索・提供サービス(Web NDLAuthorities)」のウェブページでの著者情報へのリンクが付与されており、作者情報を参照することができます。

生年

検索対象の含まれるサンプルの著者の生年を表わします。

性別

検索対象の含まれるサンプルの著者の性別を表わします。

底本情報

底本

コーパステキストの元となった、検索対象の底本(原資料)を表わします。

ページ番号

検索対象の底本における出現ページ番号を表わします。

出版社

検索対象の底本の出版元を表わします。

外部リンク

『日本語歴史コーパス』では、外部リンクとして「底本リンク」と「参考リンク」をご用意しています。

「底本リンク」は、コーパスの本文テキストの元となった原本の画像や、小学館の『新編 日本古典文学全集』の当該箇所を参照することのできるリンクです。

「参考リンク」は、コーパスの本文テキストの元となった原本やテキストが権限などにより公開できない場合に、参考として当該箇所を参照できるリンクです。現代語の全集テキストへのリンクや、原本テキストとは異なる版の画像へのリンクなどが該当します。

 
 
event
unidic_bnr

日本語をはじめとする言語を分析するための基礎資料として、書き言葉や話し言葉の資料を体系的に収集し、研究用の情報を付与したものです。