国立国語研究所
 
 

menu_title

「中納言」検索インターフェース Search interface

本ページでは、「中納言」上での検索結果や、ダウンロードした検索結果の列情報について、特に『昭和・平成書き言葉コーパス』を利用する上で重要となる、独自に設定されている項目を取り上げて説明します。

  •  ● コーパス情報 時代名/サンプルID/開始位置/連番/コア
  •  ● 形態論情報 語彙素読み/語彙素/語形/品詞/活用型/活用形/原文文字列・原文Kwic/振り仮名
  •  ● 本文情報 本文種別/話者/文体
  •  ● 作品情報 ジャンル/作品名/成立年/巻名等
  •  ● 作者情報 作者/生年/性別
  •  ● 底本情報 底本/ページ番号/出版社

コーパス情報

時代名

用例の出典の成立年に合わせて、次の表のように、時代や年号によって区分された時代名を付与しています。値は『日本語歴史コーパス』に収録される「1奈良」から「7大正」までの数値を継承して、1933年から1981年までの用例には「8昭和」、1989年から2013年までの用例には「9平成」の情報が付与されています。

昭和と平成の境目である1989年に関しては、昭和64年が1月7日までとごく短期間であったことをうけて、出典の発行日に関わらず一律で「9平成」に傾けています。

サンプルID

各レジスターの「サンプル」(巻、章、記事など)には、時代や作品などが個別に認識される15桁のIDが付与されています。IDのそれぞれの桁は、以下のことを表わします。

レジスター1-2桁目3桁目4-5桁目6-9桁目10桁目11-15桁目
時代ジャンル作品ID成立時期区切り記号作品内での出現順通し番号
雑誌70(昭和)
80(平成)
M(Magazine)中央(中央公論)
文春(文藝春秋)
各号の成立年-雑誌の号番号2桁+号内の通し番号3桁
ベストセラー書籍B(Best selling)作品名頭文字2字各作品のベストセラー収録年-上位階層1桁+中位階層2桁+下位階層2桁
新聞P(Paper)読売(読売新聞)各号の成立年-月1桁(32進数)+日1桁(32進数)+記事連番3桁

雑誌の「80M文春1989_02089」のサンプルIDの場合、「80」は「平成」、「M」は「雑誌(Magazine)」、「文春」は『文藝春秋』、「1989」は「1989年」、「_」は区切り記号、「02089」は第2号の89番目の記事であることを表わしています。

ベストセラー書籍の「80B東京2005_00612」のサンプルIDの場合、「80」は「平成」、「B」は「ベストセラー(Best selling)」、「東京」は『東京タワー オカンとボクと、時々、オトン』、「2005」は「2005年」、「_」は区切り記号、「00612」は第6章の第12節であることを表わしています。

新聞の「70P読売1933_72001」のサンプルIDの場合、「70」は「昭和」、「P」は「新聞(Paper)」、「読売」は『読売新聞』、「1933」は「1933年」、「_」は区切り記号、「72001」は7月2日の1番目の記事であることを表わしています。

開始位置

「キー」に該当する語の先頭の文字の、サンプル内における位置を表すIDです。本文の1字毎に、10きざみの連番で付与されています。位置検索の際にサンプルIDと合わせて利用することで、用例の同定が可能です。

連番

「キー」に対応する語の、サンプル内における位置を表すIDです。「開始位置」とは異なり、「キー」の文字数に関わらず、1短単位または1長単位毎に、10きざみの連番で付与されています。

コア

検索対象の含まれるサンプルがコアデータ(人手修正が全編にわたり入ったデータセット)、または非コアデータ(一部に人手修正は入っているが形態素解析の結果をそのまま残す部分を含むデータセット)であることを表わします。SHCにおいては、全レジスターの全編が非コアデータであり、非コアデータであることを表わす「0」が表示されます。

形態論情報

語彙素

「キー」に該当する語の表記を表わします。語彙素は、単語の様々なバリエーション(語形、活用形、表記形など)を統合した辞書の見出しに相当するもので、一般の和語・漢語は漢字平仮名表記、外来語・人名・地名は片仮名表記で表わされます(例:「国」「国家」「カントリー」「ニホン」)。

語彙素読み

「キー」に該当する語(下記項目「語彙素」参照)の読みを表わします。片仮名で表記されます。(例:「クニ」「コッカ」「カントリー」「ニホン」)

語形

「キー」に該当する語の語形を表わします。語形は、語彙素では統合される語形の別(例:語彙素「矢張り」に対する「ヤハリ」「ヤッパリ」など)や活用型の別(例:語彙素「読む」に対する「ヨム(五段-マ行)」「ヨム(文語四段-マ行)」「ヨメル(下一段-マ行;可能動詞形)」など)等を区別した語の個々の形に相当するものです。片仮名で表記されます。

品詞

「キー」に該当する語の品詞で、UniDic の体系に基づく品詞分類の情報が表示されます。学校文法における「形容動詞」は、語幹が「形状詞」、活用語尾が「助動詞」に分割されるなど、UniDic独自の品詞体系を取る部分がある点に注意が必要です。また、短単位では、例えば「朝」という言葉には「名詞-普通名詞-副詞可能」という品詞情報が付されています。これは「名詞」の中の下位分類まで表示される仕組みになっており、名詞で用いられる用例であっても副詞的に用いられる用例であっても、同一の品詞情報を付与する、可能性に基づく品詞情報の付与をしています。

活用型

「キー」に該当する語の活用の型を表わし、活用語の場合のみ表示されます。口語活用は活用の型と行で「五段-サ行」のように、文語活用は「文語」が加わり「文語四段-サ行」のように示されます。

活用形

「キー」に含まれる短単位の活用形を表わし、活用語の場合のみ表示されます。学校文法では「未然形」と助動詞「う・よう」に分割される形態は、結合して「意志推量形」とする点に注意が必要です。

原文文字列・原文kwic

コーパスのテキストは、誤字や脱字、衍字、濁音落ちなどを修正しています。また、サブコーパスによっては、漢字片仮名交じり文を漢字平仮名交じり文に変換する、踊り字(「〳〵」「々々」など)を展開するといった校訂を加えています。「原文文字列」「原文kwic」列には校訂前のテキストが表示されます。

振り仮名

「キー」の、右ルビや本行右側の(または上部の)傍注の校訂後のテキストを表わします。

本文情報

本文種別

検索対象が地の文や会話など、本文のいずれの要素の部分に存在するのかを表わします。

「本文種別」の列が空白の場合は、検索対象が地の文の中にあることを表わします。会話文中にある場合は「会話」、書籍や手紙などの引用文中にある場合は「引用」の情報が付与されています。

話者

会話文の発話者や引用文の書き手、引用元の書籍名などが表示されます。和歌の場合、読み手を表わします。

文体

検索対象の含まれる文の文体が表示されます。使用される文末辞によって、「口語」と「文語」のいずれかの情報が付与されています。なお、「文語」「口語」の分類は、原則「地の文」はサンプル単位で、「地の文」以外の「会話」「引用」等はそれぞれの「会話」「引用」の単位で行われています。文語と口語が混在する文章の場合は、主たる文体を判断し、「文語」「口語」いずれかの種別を付与しています。このほか、「漢文」「韻文」「外国語」など、サンプル中の特定の部分にのみ例外的に特殊な文体情報を適用している場合もあります。

作品情報

ジャンル

ベストセラー書籍と新聞では作品や記事によって「文芸」と「非文芸」の情報がそれぞれ付与されています。雑誌では「小説」「戯曲」「詩歌」「非文芸」の情報が記事毎に付与されています。

作品名

検索対象の含まれるサンプルが収録された資料名を表わします。

成立年

検索対象の含まれるサンプルが収録された資料・編の刊行年・成立年を表わします。ただし、ベストセラー書籍では一律でベストセラーへの収録年の情報が付与されており、刊行年とはずれる場合があります。

巻名等

検索対象の含まれるサンプルが収録された資料の編名・巻名、およびサンプルのタイトルを表わします。

作者情報

作者

検索対象の含まれるサンプルの著者名や歌の読み手などの作者情報を表わします。著者名の認定は、底本テキストの記載に基づきますが、現在一般的に知られている呼称に変えた場合があります。

一部の作者については、「国立国会図書館典拠データ検索・提供サービス(Web NDLAuthorities)」のウェブページでの著者情報へのリンクが付与されており、作者情報を参照することができます。

生年

検索対象の含まれるサンプルの著者の生年を表わします。

性別

検索対象の含まれるサンプルの著者の性別を表わします。

底本情報

底本

コーパステキストの元となった、検索対象の底本(原資料)を表わします。

ページ番号

検索対象の底本における出現ページ番号を表わします。新聞の場合、検索対象の出現する面を表わします。

出版社

検索対象の底本の出版元を表わします。

 
 
event
unidic_bnr

日本語をはじめとする言語を分析するための基礎資料として、書き言葉や話し言葉の資料を体系的に収集し、研究用の情報を付与したものです。