まとめて検索『KOTONOHA』

まとめて検索『KOTONOHA』とは?

「まとめて検索『KOTONOHA』」は、複数のコーパスを同時に検索し、 その集計結果をグラフ化して視覚的に観察できるサービスです。
言語資源開発センターがこれまで提供してきた従来のコーパス検索システム『中納言』は、 現代日本語書き言葉均衡コーパス(BCCWJ)や日本語話し言葉コーパス(CSJ)といったコーパスを それぞれ"個別"の画面で検索し、結果を閲覧するサービスでした(個別検索)。
これに対してKOTONOHAは、「まとめて検索」の名前の通り、中納言の中のコーパスを1度にまとめて検索し、 その集計結果をユーザに表示します。 これを専門的な用語で「包括的検索」「串刺し検索」「横断検索」と言ったりします。
こうした検索を実現するためには、 それぞれのコーパスが何かしら統一された枠組みの中で構築されている必要がありますが、 国立国語研究所には電子化辞書『UniDic』という、 単語(短単位)を斉一に認定し、管理していく枠組みがあります。
中納言の中のコーパスはいずれもUniDicの中の単語として斉一に切り出され、UniDicの形態論情報が付与されています。 そのため我々は特に不自由を感じることなく、それぞれのコーパスをまたいで単語を検索し、 調べたい単語について各コーパスでの出現状況を俯瞰的に観察できます。
そのためのツールが、KOTONOHAです。

使用例1: 任意の単語について、書き言葉と話し言葉での使用を比較できます。

「けれど」という表現は書き言葉よりも、話し言葉でよく使われていることがわかります。

kotonoha_periodimage
クリックすると拡大します

使用例2: 任意の単語について、時代ごとの使用の変化を観察できます。

「恋しい」という表現の使用が現代に向かうにつれ、徐々に減っていることがわかります。

kotonoha_written_speech_image
クリックすると拡大します

KOTONOHAで検索可能なコーパスリスト

KOTONOHAで検索可能なコーパスリスト

KOTONOHAマニュアル




注1)KOTONOHAはバックグラウンドで中納言検索系を使っている都合、コーパスのまとめて検索を完全な形で利用するには、 中納言上で各コーパスの利用申請・利用許諾を得た上で、下図のように中納言内のコーパスすべてを検索できる状態にしておかないといけません。

cond_0

注2)中納言内のすべてのコーパスが利用可能でない場合は (上図のようにすべてにチェックがついていない場合は)、 利用可能なコーパスの検索結果のみ表示されます。
また、検索対象内のカテゴリ(例:検索対象「話し言葉・書き言葉」の「話し言葉」)に属するコーパスすべてが利用可能な場合に限り、 カテゴリ内の調整頻度が表示されます。

 

リンク Links