コーパスとしてのウェブテキスト活用シンポジウム

LRW2018の台風21号に対する対応につきまして (9/3更新)

コーパスとしてのウェブテキスト活用シンポジウムご参加予定のみなさま

現在準備を進めておりますが、あいにく台風21号が近づいてきております。
そこで以下のとおり、運営につきましてお知らせいたします。

・基本的に天候状況・交通機関の状況にかかわらず、開催いたします。

ご参加に際しましては、どうぞ無理をなさらぬようお気をつけて御来所ください。

国立国語研究所コーパス開発センター言語資源活用WS事務局

9/6(木)プログラム (講演時間35分/人(含 質疑応答))

13:00-13:10 趣旨説明: 岡 照晃(国立国語研究所)

13:10-14:55 セッション1: 日本語研究に大規模ウェブテキストデータを扱うためには?

13:10-13:45 【初級編】ウェブの検索結果を利用する
荻野 綱男(日本大学)
参考文献 荻野 綱男(2014)「ウェブ検索による日本語研究」, 朝倉書店.
13:45-14:20 中の人が国語研日本語ウェブコーパス(NWJC)"さわって"みた
-【中級編】ウェブコーパスを"さわって"みる-

岡 照晃(国立国語研究所)
参考文献1 『国語研日本語ウェブコーパス』の概要
参考文献2 「梵天」のチュートリアル
14:20-14:55 ウェブコーパスの表と裏
林部 祐太Megagon Labs
参考文献1 浅原正幸, 今田水穂, 保田祥, 小西光, 前川喜久雄 (2014) 「Webを母集団とした超大規模コーパスの開発 : 収集と組織化」, 国立国語研究所論集, 7号, pp.1-26.
参考文献2 Common Crowl のウェブサイト

14:55-15:10 休憩


15:10-16:20 セッション2: 企業は大規模ウェブテキストデータをどのように活用しているか?

15:10-15:45 利便性のあるコーパス構築へのテキストマイニング取り組み
-ビジネス分析に役立つ解析手法開発-

三澤 賢祐Insight Tech
参考文献1 不満買取センターの紹介@NII IDRフォーラム2016の資料
参考文献2 テキストマイニングツールITASの紹介1
参考文献3 テキストマイニングツールITASの紹介2
参考文献4 Kensuke Mitsuzawa, Maito Tauchi, Mathieu Domoulin, Masanori Nakashima and Tomoya Mizumoto (2016) FKC Corpus: a Japanese Corpus from New Opinion Survey Service, In proceedings of the Novel Incentives for Collecting Data and Annotation from People: types, implementation, tasking requirements, workflow and results, pp.11-18.
15:45-16:20 Wikipediaを使った進んだ自然言語処理
山田 育矢Studio Ousia

16:25-17:00 セッション3

16:25-17:00 登壇者へのQAタイム ~ クロージング
発表タイトルは当日変更になる場合がございます。
また発表時間は目安であり、必ずしもこのスケジュール通りに進行するわけではありません。
ご注意ください。

補足:
最後にQAタイムというのをどうしても設けたかったわりに、アドリブに弱い進行担当のため、
「参加してこれは訊いておきたい」
「こういう話を訊きに行くつもりだぞ」
というのを #SUWTC でつぶやいておいてくださると非常に、助かります<(_ _)>

開催趣旨

ウェブをクロールし、大量のテキストを集め利用することは情報系の分野では既に当たり前の手法となっている。 ただしそれを実践するには、ウェブをクロールするための知識・技術、 そしてクロール及びクロールしたテキストデータを保存しておくサーバ運用のノウハウも不可欠なため、 分野外の、特にコーパスを扱う日本語研究者が、ウェブを対象とした研究を行う際の高いハードルとなっていた。

しかし、近年になって『筑波ウェブコーパス』『国語研日本語ウェブコーパス』といった日本語のウェブテキストコーパスが登場したことにより、 個人がウェブをクロールせずとも、大規模なウェブテキストを日本語研究の対象とすることが可能となった。

半面、"ウェブテキスト"というこれまで日本語研究の分野で積極的に利用されてこなかったデータの中には、 新聞記事や書籍を対象としていた頃には現れなかったような、 さまざまな留意点・注意事項が暗黙的に潜んでいる。

そこで本シンポジウムでは、

1) これからウェブコーパスやウェブ上にあるテキストをコーパスとして利用したい、もしくはすでに利用している研究者、エンジニア、企業関係者を聴衆として招き、

2) ウェブ上のテキストをどのように研究や事業・サービスに導入するのか? or しているのか?

3) またウェブテキストを実際に活用した応用事例・分析方法を講演者らが紹介していく中で、それらを扱う際の留意点・注意事項に関するノウハウを聴衆に提示し、講演者と聴衆の間でのセオリーの共有・確立を図ることを一番の目的としている。

開催案内

  • 日 時:2018年9月6日(木) 13:00~17:00
  • 会 場:国立国語研究所 2階 講堂
         東京都立川市緑町10−2(アクセス

       ■ JR「立川駅」まで: JR中央線「東京駅」から快速で約50分
       ■ JR「立川駅」から:
        ○ 多摩モノレール「立川北駅」乗車(約3分)「高松駅」下車,「高松駅」より 徒歩約7分
        ○ 立川駅北口バスのりば2番から乗車(約5分)「自治大学校・国立国語研究所」下車
        ○ JR「立川駅」より徒歩約20分
  • 参加費:無料
  • 受付開始: 12:30~(国語研2階 講堂前)
  • 主 催:国立国語研究所 コーパス開発センター
  • 事前登録は終了していますが、当日参加も可能です。
    講演スライド公開予定のURLを記載したハンドアウトには数に限りがありますため、先着順の配布となります。
    (事前登録された方には、必ず全員に配布いたします)

お問い合わせ

国立国語研究所 コーパス開発センター
言語資源活用WS事務局
E-mail: lrw あっと ninjal.ac.jp

講演者(敬称略)と講演依頼内容(講演タイトルではありません)

  • 前半戦:日本語研究に大規模ウェブテキストデータを扱うためには?
  • 【初級編】ウェブの検索結果を利用する 荻野 綱男(日本大学)
  • 【中級編】ウェブコーパスを利用する 岡 照晃(国立国語研究所)
  • 【上級編】自分でウェブをクロールする 林部 祐太Megagon Labs
  • 後半戦:企業は大規模ウェブテキストデータをどのように活用しているか?
  •  不満調査データセットの収集・公開や分析、利用例についてなど 三澤 賢祐Insight Tech
  •  Wikipediaの活用に関する取り組み 山田 育矢Studio Ousia
 

リンク Links