『中納言』の新しい「コーパス選択画面」について(2019/12/14~)
このページでは、コーパス検索アプリケーション『中納言』の「コーパス選択画面」について解説します。
新しい「コーパス選択画面」でまず目につくのは「まとめて検索 KOTONOHA」という検索窓です。
こちらは『中納言』サービスを提供している言語資源開発センターが新たに開発している検索システムで、
ユーザが利用申請を行なった(下の【検索対象】というコーパス一覧で灰色になっていない)コーパスを一度に検索できる、新しいコーパス検索サービスです。
この検索窓から直接、国語研短単位の書字形出現形と語彙素での検索が可能です。
検索は国語研短単位を上の窓に入力して行います。
ただし短単位の仕様を知っていないと、入力がなかなか難しいため、
今回、短単位のサジェスト機能を追加しました。
サジェスト機能の使い方
サジェスト機能は普段の仮名漢字変換と同時に表示されてしまうので、先に仮名漢字変換(上)を終えた後、提示されている候補から調べたい短単位を選びます(下)。
上図で行なっているのは「書字形出現形で検索」です。
書字形出現形の検索では、前方一致で候補が出現します。
上図では、ひらがなで「かな」と打って、「かなり」や「かならず」などがサジェストされています。
ただしここでのサジェストはあくまで「出現形」ですので、コーパスに現れる表層形そのままの形(調べたい対象が"ひらがな表記以外の場合"、ひらがなでなく、漢字表記やカタカナ表記)で入力しなくてはサジェストされません。
例えば、「仮名」という書字形出現形をサジェストで出したいときは、「仮名」と漢字で窓に打ち込んでいないとサジェストされません。
ひらがな「かな」を入力しても「かなり」や「かならず」など、ひらがな表記のものがサジェストされるばかりで、「仮名」は候補に上がりません。
「語彙素で検索」のときのサジェスト機能は書字形出現形と少し異なります。
例えば、「~する」の「する」の語彙素表記は「為る」ですが、これを知っていて入力できる人はあまりいないでしょう。
そこで、語彙素の検索ではわざわざ仮名漢字変換で漢字やカタカナに変換しなくても、ひらがな表記からサジェストが働くようになっています。
ただし書字形出現形の時と異なり、前方一致で入力の手間を省く機能はなく、語彙素表記orその読みが完全一致する候補のみサジェストされます。
つまり「する」と入力したときに「為る」をサジェストしてはくれますが、「するどく」や「するり」などは前方一致であり、完全一致でないので、サジェストされません。
ユーザ設定
以前のコーパス選択画面では画面下にまとめられていた「パスワード変更」などのユーザ情報の設定が画面上のヘッダーで可能になりました。
歯車ボタンの「ユーザ設定」をクリックすると、プルダウンで現れます。
非表示にするには、もう一度「ユーザ設定」をクリックします。
ユーザ設定の左に表示されているのは、ログイン時に使用したメールアドレスで、これまで明示してきませんでしたが、これが「ユーザ名」となります。
ログアウトボタンもこのライン上に表示されるようになりました。
コーパスの「個別検索」
『KOTONOHA』というコーパスの「まとめて検索」サービス(専門的には「包括的検索」と呼びます)が導入されたことで、これまでの『中納言』上でのコーパス検索は、コーパスの「個別検索」と呼ぶことになりました。
使い方は従来と同じですが、新しく『国語研日本語ウェブコーパス(NWJC)』を『中納言』用にダウンサイズしたものが一覧に追加されています。
フルバージョンをご利用になりたい方は、専用の検索サービス『梵天』を利用してください。
また、『梵天』にも『現代日本語書き言葉均衡コーパス(BCCWJ)』が搭載されたため、便宜上、これまで『中納言』上で公開していた『BCCWJ』は「中納言版」と呼んで区別することになりました。
また、これまで「状態」という列でユーザの各コーパスの利用可否を表示していましたが、
『KOTONOHA』に搭載済みのコーパスもあれば、逆にまだ『KOTONOHA』にしか搭載されていないコーパスもあるため、
列を2つに分け、それぞれ「個別検索」と「包括的検索(KOTONOHA)」で利用可能か否かの状態を表すようになりました。
新たに使いたいコーパスが増えた場合は、「利用不可」の下の「申込み方法」のリンクから「コーパスの追加利用の申請」画面に移動できますので、
そこで申請を行なってください。
状態が「準備中」のものはまだ搭載が終わっていない段階で、どのユーザも利用できないという意味です。
2019/12/10(Tue) 改訂
2019/10/02(Wed) 改訂
2019/10/01(Tue) ページ公開