第3回 Universal Dependencies 公開研究会

開催趣旨

Universal Dependencies (UD) は異なる言語間で共通化した依存構造アノテーション仕様です。
2014年に始まったオープンコミュニティで、ガイドラインとコーパスの整備を進めています。
現在、古語・危機言語を含む 100言語以上のデータが公開されています。
今回、UD Japanese 関連の言語資源整備について議論する公開研究会を企画いたしました。
現在公開されている UD Japanese の言語資源の開発手法について紹介するとともに、アノテーションに関する諸問題について検討いたします。
ふるってご参加ください。
Univerasal Dependencies 日本語ページ

プログラム

口頭発表 10:00-12:00

10:00-10:40 趣旨説明
浅原正幸 (国立国語研究所)
10:40-11:20 日本語Universal Dependenciesデータの作成・整備の概要
大村舞(国立国語研究所)
〔概要〕 日本語Universal Dependenciesコーパスは日本語の文節係り受けコーパスを元にして単語間構文情報になるように作成している。BCCWJ・GSDコーパスのデータリソース及び文節係り受けコーパスからUDコーパスへの変換方法について説明し、変換したUDコーパスの特徴・検討事項を説明する。
11:20-12:00 日本語Universal Dependenciesのための学習済みTransformersモデル公開に向けて
松田寛(Megagon Labs)
〔概要〕 BERTなどのTransformers言語モデルはオープンソース・ソフトウェア化され様々な応用タスクにおいて大幅な精度向上をもたらしている。Transformers言語モデルは大量の平文テキストを入力とするMasked Language Modelや次文/文順序予測といったタスクで事前学習(Pretraining)を行った上で、少量の訓練データで応用タスクの学習(Finetuning)を行う。本研究では日本語Universal Dependenciesのトークン区切りであるUniDic短単位をベースとする事前学習をNWJCコーパスで行う。Transformersモデルには文順序情報を必要としないELECTRAを、トークン化処理にはSudachiPyおよびそのコア辞書を、依存構造解析モデルにはspaCy-transformersをそれぞれ用いて、日本語依存構造解析モデルの構築を試みる。
[講演資料]

口頭発表 13:15-15:15

13:15-13:55 UDにおける述語並列の記述と日本語並列表現の類型論的特徴
伊藤薫(九州大学)
〔概要〕 Universal Dependencies (UD)では並列構造を示すためのタグが規定されているが、日本語の述語並列はそもそも従属接続との区別が難しく、UDにおける記述方法にも並列関係のタグを用いるか議論の余地がある。本発表では、類型論や日本語文法の先行研究を参考にしながら、UDの仕様でどのように日本語の述語並列を記述するかを検討する。
13:55-14:35 多言語UDの変遷が後段タスクに及ぼす影響
岩本蘭(富士フイルムビジネスイノベーション)
〔概要〕 UDは多数の研究者によって継続的に更新されている. 本発表では,様々な言語のUDコーパスの更新内容と,更新が構文解析器の出力や応用タスクに与えた良い/悪い影響について紹介する.
14:35-15:15 UDを活用して文法把握能力の高い言語モデルを多言語へ拡張する
神藤駿介(東京大学・産総研)
〔概要〕言語モデルは自然言語処理における基礎的な技術であり、近年は文法構造の情報を明示的に取り入れたモデリングが注目されている。本発表ではUDを用いてそのようなモデルを多言語に拡張する試みについて議論する。

招待講演 15:30-16:30

15:30-16:30 世界のUniversal Dependenciesと係り受け解析ツール群
安岡孝一(京都大学)
〔概要〕100以上の書写言語に対してUDが開発されるとともに、 多彩な係り受け解析ツールが製作され、 60を超える言語の係り受け解析が可能となった。 これらのUDと各解析ツールの「クセ」を紹介する。
[発表予稿]

クロージング 16:30-17:00

 

リンク Links