中納言マニュアル:中納言の特徴
中納言オンラインマニュアル
「中納言」は国立国語研究所で開発されたコーパスを検索することができる Web アプリケーションです。
短単位・長単位・文字列の 3 つの方法によってコーパスに付与された形態論情報を組み合わせた高度な検索を行うことができます。
上のメニューから操作方法をご覧ください。
また現在中納言から検索できるコーパス一覧はこちらをご覧ください。
中納言の特徴
中納言には、3種類の検索方法から形態論情報、コーパス情報および出典情報を表示させ、その結果をダウンロードすることができます。
3種類の検索方法
中納言では「短単位検索」「長単位検索」「文字列検索」の 3 種類の検索方法を提供しています。
形態論情報、コーパス情報および出典情報の表示
検索結果として前後文脈・形態論情報・コーパス情報・出典情報などを表示します。
共起検索
共起条件を指定することができます(短単位検索および長単位検索時のみ)。
検索結果のダウンロード
検索結果をタブ区切りテキスト形式(CSV形式)でダウンロードすることができます。
UniDicについて
中納言に格納された短単位データの作成は自動形態素解析によって行われています。 形態素解析処理は形態素解析器に「MeCab」、解析用辞書に「UniDic」を使用しています。
BCCWJのコアデータと日本語歴史コーパスのデータは、上記の自動解析結果に人手による修正を加えています。
長単位データは、短単位データを元に自動処理で生成した後、人手による修正を加えたものです。
UniDicの見出し語と階層構造
BCCWJの形態論情報付与に使用しているUniDicでは、表記が異なっても同じ語であれば一つの見出し語にまとめるという方針をとり、語を階層化した形で辞書登録しています。この階層の最上位を語彙素と呼び、この語彙素の下に語形、更に語形の下に書字形という階層が設けられています。
「短単位検索」ではこのUniDicの階層構造を利用した検索を行うことができます。例えば、検索条件で検索項目を「語彙素」、検索値を「矢張り」と指定することで、「やはり」「やっぱり」「やっぱ」「やっぱし」「矢張り」など、「矢張り」という語彙素見出しを持つ全ての語形、及びその語形見出しを持つ全ての書字形を網羅的に検索することができます。
活用語についても同様で、例えば検索条件で検索項目を「語彙素」、検索値を「読む」と指定することで、「よま」「読み」などの「読む」という語彙素見出しを持つ全ての活用形・書字形を網羅的に検索することができます。
詳しくはこちらをご覧ください。