「UniDic」国語研短単位自動解析用辞書|UniDicとは

UniDicとは？（2019年現在）

UniDicとは、国立国語研究所の規定した斉一（せいいつ）な言語単位（短単位）と、階層的見出し構造に基づく電子化辞書の

① 設計方針

および、その実装としてのリレーショナルデータベース

② UniDicデータベース

と、そのデータベースからエクスポートされた短単位をエントリ（見出し語）とする、形態素解析器MeCab用の解析用辞書

③ 解析用UniDic

の総称です。

本サイトでは ③の解析用UniDic を公開・配布しています。

解析用UniDicは短単位をMeCab辞書のエントリとしているため、 UniDicを使った形態素解析は「短単位（自動）解析」とも呼ばれます。

UniDicの目的

UniDicデータベースの目的

UniDicの第一の目的は、国語研で構築しているコーパスアノテーションを支援することです。

国語研所内にあるUniDicデータベースは、同じく所内のコーパスのデータベースと参照関係にあり、完成したコーパスデータベース中の短単位は、

UniDicデータベースに登録されており、
UniDicデータベース中の一意のエントリを参照する（リンク付けられている）状態になっています。

こうしたコーパスと辞書を統合したシステム運営の利点として、以下の２点が挙げられます。

コーパスへの短単位情報アノテーションの際、作業は、「コーパスに出現した各短単位がUniDicデータベースのどのエントリであるかを選択していけばいいだけ」なので、コーパス中の異なる位置に出現した同一の短単位に対して、活用など、一部の情報を異なって付与してしまうミスを防ぎ、コーパス中に不整合が生じる可能性を少なくできる。
現時点のUniDicデータベースに存在しない情報・属性（項目）が、新たにUniDicデータベースへ追加された場合でも、データベース間のリンクでコーパスへの反映（新項目の追加）は瞬時に行える。

またコーパスデータベースとの参照関係の最大の利点は、UniDicデータベースの１エントリからコーパス中の膨大な用例を一度に引き出せる用例索引の能力にあります。下図に示す『UniDicExplorer』というUniDicデータベース用の操作ツールを使うと、データベース中の短単位エントリを指定して用例列挙のボタンを押すだけで、そのエントリに対応する用例を、コーパスデータベースから、語彙素・語形・書字形の段階ごとに一覧して取得する事ができます。

残念ながら現在、研究所外部のユーザに対して、 UniDicExplorerを使った所内コーパスデータベースへの直接アクセスサービスは提供していません。しかし公開済みのコーパスならば、コーパス検索システム『中納言』を使うことで、共起や連接の指定など、より柔軟かつ簡単な用例検索を行うことができます。

またUniDicDBではありませんが、解析用UniDic内蔵の語彙ファイル（lex.csv）を検索するサービスとしてCradleExpressがあります（2019年11月現在、unidic-cwj-2.3.0のlex.csvを検索可能）。

解析用UniDicの目的

上述の通り、UniDicの第一の目的は国語研で構築するコーパスアノテーションを促進することです。解析用UniDicも元々は『日本語話し言葉コーパス(CSJ)』の（i）短単位自動アノテーションデータ（非コアデータ）を作成するために構築されたのが始まりです。『現代日本語書き言葉均衡コーパス（BCCWJ）』構築時からは「解析用辞書を使った短単位自動解析の結果を人手修正していく」という作業方針が採られるようになり、現在では（ii）人手アノテーション作業のコスト削減ツールとしても利用されています。

本サイトで公開している解析用UniDicも、上記２つの用途（i、ii）を意図しています。下の参考文献「解析器用UniDicに関する論文」中に記載の解析性能も、自動アノテーションで作ったコーパスの精度および、解析用UniDicのユーザが同様のコーパスを作ろうとしたときの参考値（＝どのくらい同じようなものが再現できるかの度合い）として掲載されています。

また短単位は、漏れの少ない用例検索を重視した設計（単位の長さ、可能性に基づく品詞体系語源主義に基づく脱文脈化）となっているため、自然言語処理分野の統語解析や意味解析に向いていません。

統語解析には、構文機能に着目し、文節からトップダウンに認定する長単位の使用を推奨しています。

反面、用例検索に向けた斉一な単位であるため、文脈の有無や、文脈の違いによらず、一貫した自動解析を実現でき、検索エンジンのような情報検索システム上で有効性があるとの報告もあります[高橋+, 16]。

UniDicを使った所外Webサービス/成果物(2021/07 現在)

名称	URL	参考URL
Bing	https://www.bing.com/	https://help.bing.microsoft.com/apex/index/18/ja/10018
形態素解析ウェブアプリUniDic-MeCab（複合名詞判定，サ変動詞判定ver付き）	http://www4414uj.sakura.ne.jp/Yasanichi1/unicheck/	http://www4414uj.sakura.ne.jp/Tools_unicheck.html
形態素解析ウェブアプリUniDic-MeCab中学校教科書まとめ表現登録版	http://www4414uj.sakura.ne.jp/Yasanichi1/sumex/	http://www4414uj.sakura.ne.jp/Tools_sumex.html
Sudachi	https://github.com/WorksApplications/Sudachi
mecab-unidic-NEologd	https://github.com/neologd/mecab-unidic-neologd
UniDic Lite	https://pypi.org/project/unidic-lite/
UniDic2UD	https://pypi.org/project/unidic2ud/
konoha	https://github.com/himkt/konoha/	https://github.com/himkt/konoha/releases/tag/v4.6.5

参考文献

UniDicの設計と実装全体に関係する文献

UniDicデータベースに関する文献

伝康晴, 浅原正幸: 「リレーショナル・データベースによる統合的言語資源管理環境」, 第1回『話し言葉の科学と工学』ワークショップ講演予稿集, pp.77-84 (2001).
伝康晴, 小木曽智信, 小椋秀樹, 山田篤, 峯松信明, 内元清貴, 小磯花絵: 「コーパス日本語学のための言語資源：形態素解析用電子化辞書の開発とその応用」, 日本語科学, Vol.22, pp.101-123 (2007).
小木曽智信, 中村壮範: 「『現代日本語書き言葉均衡コーパス』形態論情報アノテーション支援システムの設計・実装・運用」, 自然言語処理, Vol.21, No.2, pp.301-332 (2014).
小木曽智信, 中村壮範: 「『現代日本語書き言葉均衡コーパス』形態論情報データベースの設計と実装改訂版」

UniDicデータベースからのエクスポートに関係する文献

鴻野知暁, 小木曽智信: 見出し語の時代情報を付与した電子化辞書の構築, 言語処理学会第20回年次大会発表論文集, pp.209-212 (2014).

解析用UniDicに関係する文献

UniDicを使った日本語研究のケーススタディ

情報検索への応用例

高橋文彦, 颯々野学: 「情報検索のための単語分割一貫性の定量的評価」, 言語処理学会第22回年次大会(NLP2016), pp.949-952 (2016).