言語資源ワークショップ2025:プログラム

  • 参加に際しては、参加登録が必要です(参加費無料)

  • 発表番号の末尾に「s」のついている発表は「言語資源ワークショップ:優秀発表賞」の対象となっています。

  • 口頭発表の時間は1件あたり30分(発表20分+質疑応答10分)です。

  • インタラクティブセッションはセッション冒頭の発表紹介が1分、 ブレイクアウトルームに分かれた後の持ち時間は1件あたり20分(+交代等5分)です。

各発表時間や休憩時間についてはこちらをご確認ください。
タイムテーブル





■ 1日目:08月28日(木)

8月28日(木)オープニング

時間:10:20〜10:30
場所:Zoom



8月28日(木)インタラクティブセッション(1)

時間:10:30〜12:00
場所:Zoom/ブレイクアウトルーム


本セッション発表者による1分間の発表紹介(10:30 〜 10:45)

セッション冒頭の発表紹介1分×発表者9人


Aルーム (10:45 〜 12:00)

i1_1A:「NINJAL-LINEコーパス(仮)」の設計と公開

発表者:落合哉人(国立国語研究所)

使用する言語資源:NINJAL-LINEコーパス(仮)

直近の10年あまり,アプリケーションソフトウェア「LINE」は日本語話者の言語生活において極めて重要な地位を占めてきたが,そこでの言語使用については,秘匿性の高さからこれまで広く共有されているデータベースやコーパスが存在せず,実態が十分に記述されてこなかった.そこで発表者は,昨年度より,すべての参加者から公開に関して同意を得たLINE上のやりとり(スクリーンショット)を収集しており,最終的にコーパス検索アプリケーション「中納言」等での利用も可能な小〜中規模コーパスとして整備することを計画している.本発表では,当該コーパス(「NINJAL-LINEコーパス(仮)」)の概要を説明するとともに,現時点でテキスト化が完了したデータ(約1万発信)について紹介を行う.また同時に,構築したコーパス全体に関して,日本語研究の発展に資する共有のあり方を模索する.

i1_2As:OpenCHJを活用した青空文庫データの公開―国語教科書所収6作品を対象に―

発表者:木下瞳(総合研究大学院大学 日本語言語科学コース)

共著者:久保 柾子, 呉 子凡, 謝 正科, 小木曽 智信

使用する言語資源:日本語歴史コーパス(CHJ);オープンCHJ(OpenCHJ)

国立国語研究所(国語研)では、OpenCHJと題して、国語研外部の研究者や日本語学研究に関心を持つ一般の人が、「中納言」で公開されている国語研のコーパスと同様に、インターネット上で資料を公開することができる環境の整備を進めている。 本発表では、OpenCHJの一例として、大学院生のグループで青空文庫のテキストを形態素解析・修正したオープンデータを作成し、「中納言」で検索可能にした例を示す。また、予備的な研究として、今回構築したデータの応用可能性についても述べる。

i1_3A:『分類語彙表』PowerBIレポート版の構築と公開

発表者:柏野和佳子(国立国語研究所・総合研究大学院大学)

共著者:平本智弥(国立国語研究所)

使用する言語資源:分類語彙表;『WLSP-familiarity』 (version 4.0)(2024/06/30), 『語の文体値データ』(2022年2月公開第1版), 『WLSP-SchoolGrade』 (version 1.0) (2025/01/01)

『分類語彙表』増補改訂版に対して付与されている、親密度『WLSP-familiarity』 (version 4.0)(2024/06/30)と、『語の文体値データ』(2022年2月公開第1版)に基づく位相情報と、推定習得年齢『WLSP-SchoolGrade』 (version 1.0) (2025/01/01)の情報を、BI(ビジネス・インテリジェンス)ツールによって統合し、学習レベル情報(初級・中級・中上級・上級)と位相情報の参照可能なデータベースとして構築し、公開した。その詳細について報告する。

Bルーム (10:45 〜 12:00)

i1_1B:「文の包摂」の音韻的な特徴の予備調査―連濁とアクセントに着目して―(仮)

発表者:泉大輔(立教大学)

使用する言語資源:日本語日常会話コーパス(CEJC)

本発表では、「文の包摂」の音韻的な特徴について検討を行う。「文の包摂」とは、「振り込め詐欺」「幻のポケモンをもらおうキャンペーン」「困ったな状態」など、語の内部に文相当の要素が包み込まれている言語現象である(泉2024)。ただし、これらには必ずしも動詞の命令形や意志形、終助詞などが含まれるとは限らず、表記上は、節による通常の名詞修飾表現との判別がつきにくい用例も確認される(例:「スダチとカボス区別つかない説」「M-1決勝逃した芸人」など)。従来、「文の包摂」に関する研究は、ウェブテキストを中心とした用例をもとに、形態的・意味的な特徴の考察が行われてきた。これに対し、本発表では音韻的な側面からの記述の蓄積を目指し、テレビ番組やYouTube、『日本語日常会話コーパス』などの発話データから採取した用例を対象に、「連濁」および「アクセント」の観点から分析を行う。

i1_2Bs:横浜中華街の言語景観における漢字字体顕在化モデルの構築:社会・文化、技術、権力の可視化

発表者:石井諒太(東京科学大学 環境・社会理工学院)

使用する言語資源:収集した言語景観データ(自作)

本研究における言語資源は、書記言語のなかでも文献言語とは異なり、看板・標識などを主とする言語景観(景観言語)である。社会生活に密着した言語で、公共メディアに現れる言語資源である。書記の過程に関わる主体には書記者の他に、その媒体の所有者、言語政策等の関連する規制、書記の道具・技術が存在する。そこで本研究では、横浜中華街の言語景観における異なる漢字字体の使用に注目し、これらの主体と文字顕在化との関わりを示す。これまでに、文字体系(中文繁体字、英語ローマ字など)と、言語標示の類型(注意書き、店名標示、メニュー・ポスターなど)を言語資源として収集し関連を分析した。今後は、書記者・所有者に対するインタビュー調査を実施し、書記の社会・文化的動機や技術的背景、字体に関する識字能力や出身などとの関連、そして書記にあたっての課題を分析する。発表時点で実施済み予定の予備調査の結果を踏まえ、調査方法・項目や分析方法について、言語資源を最大限に活用できるよう皆さまと議論を行う。

i1_3B:日中同形同義動名詞の対訳・誤用傾向の分析 ―「~用」を例として―

発表者:陳迪(神戸大学)

使用する言語資源:多言語母語の日本語学習者横断コーパス(I-JAS);北京日本語学習者縦断コーパス(B-JAS);日中対訳EGAコーパス(EGA-Ver.1);HSK动态作文语料库3.0版

本発表では、陳(2023)により抽出された200種の漢語動名詞の中で、重要度が最も高かった「利用」に着目し、その意味機能と使用文脈の違いを明らかにすることを目的とする。中日対訳コーパスと学習者コーパスを用いて、「利用」の対訳表現と学習者による誤用傾向を調査した。まず、中→日では“利用”が17種の日本語表現に訳され、対訳分散度は0.62、直訳率は0.36であったのに対し、日→中では「利用」が31種の中国語表現に訳され、対訳分散度は0.75、直訳率は0.19であり、翻訳における明確な非対称性が確認された。次に、学習者データでは、中国語話者の日本語学習者には使用場面のズレが、日本語話者の中国語学習者にはコロケーションの誤用が多く見られ、後者の方が意思伝達への影響が大きい傾向が示された。これらの結果を踏まえると、日本語教育では語の意味分化と文脈判断を重視した指導が、中国語教育ではコロケーションに着目した指導が有効であると考えられる。

Cルーム (10:45 〜 12:00)

i1_1C:大規模言語モデルにおける日本語オノマトペの音韻的・意味的特徴の分析

発表者:佐々木稔(茨城大学工学部情報工学科)

共著者:小関竜真,茨城大学工学部情報工学科

使用する言語資源:現代日本語書き言葉均衡コーパス(BCCWJ)

本研究は,大規模言語モデル(LLM)が多義的な感覚的な意味を持つ日本語オノマトペを内部でどのように表現しているかを分析する.LLMにおけるオノマトペの処理メカニズムを音韻的特徴と意味的特徴の観点から解明するため,埋め込みベクトルを用いてその特徴の可視化を試みた.具体的には,オノマトペを含む文に対して,「オノマトペ単体」,「オノマトペを含む周辺文脈」,「両者の平均」の3条件でLLMを用いて埋め込みベクトルを取得し,次元縮約手法により各文を2次元平面に配置する.その結果,オノマトペ単体では音韻的類似性,文脈中では意味的類似性に基づきクラスタが形成された.また両者の平均では,音韻的特徴が優位に現れた.これはLLMが文脈的な特徴に応じてオノマトペの音韻情報と意味情報を選択的に利用していることを示唆しており,こうした分析によって将来的にLLMがオノマトペをより適切に認識できることに繋がると考えられる.

i1_2Cs:LLMの生成テキストの真偽検証のための日本語言説分解データセットの構築

発表者:政野美和(一橋大学ソーシャル・データサイエンス学部/国立情報学研究所大規模言語モデル研究開発センター)

共著者:欅 リベカ(東京工科大学コンピュータサイエンス学部),欅 惇志(一橋大学ソーシャル・データサイエンス研究科),清丸 寛一(国立情報学研究所大規模言語モデル研究開発センター),中山 功太(国立情報学研究所大規模言語モデル研究開発センター),堀尾 海斗(早稲田大学理工学術院),源 怜維(早稲田大学理工学術院/国立情報学研究所大規模言語モデル研究開発センター),橘 秀幸(国立情報学研究所大規模言語モデル研究開発センター),河原 大輔(早稲田大学理工学術院/国立情報学研究所大規模言語モデル研究開発センター)

使用する言語資源:日本語言明分解データセット、AI王データセット Version 2.0

大規模言語モデルの生成テキストには誤り情報(ハルシネーション)が含まれることがあるため,情報の真偽を検証する事実検証システムの開発が期待されている.事実検証システムでは,まず,生成テキストを,独立した最小粒度の情報である言明 (claim) に分解する.次に,言明をクエリとして関連文書を検索し,得られた言明-関連文書ペアに対して事実検証を行う.言明単位での事実検証を行うことで,事実検証結果に対する説明性が向上する.その際,高精度な事実検証のためには適切な粒度に言明が分解されていることが求められる.これらを踏まえて,本研究では日本語言明分解データセットの構築に取り組んでいる.本発表では,データセット構築の中間報告として,言明分解のガイドラインの設計について報告する.ガイドライン設計においては,抽出される言明が事実検証において有用な形式となることを目的としつつ,作業結果の揺れを軽減する言明分解ルールを検討した.

i1_3C:日常会話コーパスの談話行為情報データから分かること

発表者:川端良子(国立国語研究所)

共著者:居關友里子(国立国語研究所)、小磯花絵(国立国語研究所)

使用する言語資源:日本語日常会話コーパス(CEJC)

日本語日常会話コーパス(CEJC)では、発話に対してその機能を示す「談話行為情報」を付与している。談話行為情報は、発話行為の国際基準であるISO 24617-2をベースに日常会話用に整備した基準である。「情報提供」「情報要求」「依頼」「申し出」「挨拶」「謝罪」「感謝」等、基本的な談話機能である「レベル1タグ」と、談話の展開や会話の調整に関わる「レベル2タグ」、また、各発話が他の発話と結んでいる関係を示す「依存関係」の情報から構成されている。CEJCで提供しているデータには、談話行為情報の他にも、会話の目的や会話参加者の属性などの情報を提供している。本発表では、こうした会話のメタ的情報と、談話行為の関係を定量的に調査し、会話の場面と言語活動の関係について議論する。



8月28日(木)招待講演(1)

OCRに関連するNDLラボの研究成果とその応用について

時間:13:00〜14:00   場所:Zoom
発表者:青池亨(国会図書館)

国立国会図書館(NDL)では、「ビジョン2021-2025 -国立国会図書館のデジタルシフト-」を掲げて、2021年から2025年までの5年間に100万冊以上の所蔵資料のデジタル化を進めるとともに、OCR(光学的文字認識)による全文検索のためのテキスト化を進めてきた。NDLにおける実験的なサービスを提供する場であるNDLラボでは、このOCRによるテキスト化事業の成果物等を踏まえ、研究開発を行った実験サービスの公開や、古典籍資料向けのOCRの開発等を行い、オープンソースライセンスでの成果の公開を進めてきた。本講演では、日本語研究に資すると思われる各種サービス、データセットやソフトウェアを中心に、近年の取組を振り返り、現在検討している研究開発の一部を紹介する



8月28日(木)口頭発表(1)

時間:14:40〜15:40
場所:Zoom

o02s:中古語の動詞語彙に対するアスペクト・ヴォイスにかかわる分類情報のアノテーションの試み

発表者:加藤咲子(筑波大学大学院人文社会ビジネス科学学術院人文社会科学研究群)

使用する言語資源:日本語歴史コーパス(CHJ);UniDic

本発表では、中古語の動詞と「アスペクトおよびヴォイスにかかわるカテゴリカルな語彙的意味」(石井正彦2007:37)とを対応づける試みについて報告する。古典日本語の動詞に関しては、意味分類のアノテーションの例はあるものの、文法的な観点からのアノテーションは大規模には行われていない。そこで、まず、中古語の動詞に対応づける文法的な情報として、石井正彦(2007)『現代日本語の複合語形成論』による分類を採用したことを述べる。これは、現代日本語の複合動詞を構成する造語成分をアスペクト的側面(動作/変化)とヴォイス的側面(主体/客体)のくみあわせから6種類に分類するものである。次に、実際の対応づけの手法として、「中古和文UniDic」において品詞が動詞である語(語彙素)を対象に、「アスペクトおよびヴォイスにかかわる語彙的意味」による分類情報のアノテーションを行ったことについて説明する。最後に、データ構築の進捗状況を報告するとともに、中古語における動詞の様相に関する分析事例を示す。

o03s:助詞「は」の上位意味項目の再検討ー名詞句+「は」に着目してー

発表者:井原彩樺(同志社大学文化情報学部)

共著者:山内信幸

使用する言語資源:現代日本語書き言葉均衡コーパス(BCCWJ)

本発表では、助詞「は」の意味分類の検討を扱う。従来から、様々な説(菊地1995、寺村1991、尾上1981、北原1981、益岡1991、野田1996、柴谷1990など)が提唱され、定説がなく、現在も、とりわけ、「強調」と「主題」の意味項目の取り扱いに関して、曖昧性が確認され、これが、国語教育や日本語教育の現場においても、混乱を招く要因の1つとされている。本発表では、助詞「は」の意味分類に関する従来の説の問題点を指摘・整理し、助詞「は」の意味上位項目の策定に向けて、語用論の知見に基づく新提案を行う。具体的には、助詞「は」の前に名詞が接続する「名詞+(付属語)+『は』」という形式に限定して、基本的に、「元の形」が存在し、それが助詞「は」を用いた別の形に変化することで、関連性理論における「認知効果」の程度が上昇し、「強調」の意味が生じるという仮説のもと、助詞「は」の上位意味項目の検討を行う。



8月28日(木)口頭発表(2)

時間:15:55〜17:25
場所:Zoom

o04:短単位検索システムとOpenCHJ形式形態論情報付与ツールの構築(仮)

発表者:松本茂雄(慶應義塾大学文学部(通信教育課程))

使用する言語資源:オープンCHJ(OpenCHJ);UniDic;自作ツール「短単位検索システム」https://github.com/smtmto/jp-suw-search 「OpenCHJAnnotator」https://github.com/smtmto/openchj-annotator

テキストデータを短単位で検索できるブラウザベースの「短単位検索システム」と、それに対応する形態論情報付与ツール「OpenCHJAnnotator」を構築した。従来、短単位の検索には国立国語研究所の「中納言」が主に用いられてきたが、検索対象となるコーパスは限定的であり、手元のデータを柔軟に活用することは難しかった。そこで、OpenCHJAnnotatorにより任意のテキストをOpenCHJ形式に自動変換し、ブラウザ上で動作する同システムに読み込ませることで、中納言に未収載のデータについても短単位検索を実行できるようにした。両ツールの連携により、データ変換から検索までの一連の処理が可能になるとともに、検索結果を第三者が検証可能な形で提示できるようになる。また、両ツールの構築に際しては生成AIモデルが活用されており、言語資源分野におけるAI技術活用の一例ともなっている。

o05:テキストデータから特徴語を自動抽出するオンラインツール「EJTKAN」の開発―コーパス研究における特徴語分析の意義と可能性―

発表者:石川慎一郎(神戸大学)

使用する言語資源:UniDic;Web茶まめ

当研究室では、英語または日本語の複数テキストから、テキストごとの頻度を一覧できる統合語彙表を自動生成するEnglish/Japanese Word Frequency Table Generator(EJWFTG)を開発・公開しているが、今般、新しく、English/Japanese Text Keyword Analyzer(EJTKAN)を開発した。EJTKANは、ターゲットデータおよび参照データとして、単一または複数のテキストファイルをアップロードすることで、形態素解析を行い、ターゲット側において参照側より多く出現する統計的特徴語(keyword)のリストを自動抽出するオンラインツールである。EJTKANは、特徴度の尺度として、対数尤度比統計量(1型、2型)、カイ二乗統計量(Yates補正)、標準化済み相対頻度差、ベイズ情報量規準、対数尤度比効果量、相対頻度比、対数化相対頻度比、オッズ比などの値を同時に出力することができ、各基準に基づいて、ターゲット側で多く出現している語を調べることができる。本発表では、コーパス研究における特徴語の重要性に触れた後、EJTKANの概要や採用した尺度について述べる。

o06:日本語話し言葉における定式表現の分析-CSJ・CEJC・J-TOCC の比較を中心にー

発表者:蘇振軍(江蘇大学・大阪大学招へい准教授)

使用する言語資源:日本語話し言葉コーパス(CSJ);日本語日常会話コーパス(CEJC);UniDic;話題別会話コーパス(J-TOCC)

本稿は、日本語話し言葉における定式表現の使用実態を明らかにすることを目的とし、日本語話し言葉コーパス( CSJ ) に収納されている学術講演、日常会話コーパス(CEJC)、話題別会話コーパス(J-TOCC)から各 100 万語を抽出した。語彙多様性はCSJがタイプ17,302(G.I.=17.30)、CEJCが22,967(22.97)、J-TOCCが18,780(18.78)と異なる。分析の結果、三ジャンルに共通して用いられる定式表現が確認される一方、アカデミックスピーキングに特有の表現も抽出された。



■ 2日目:08月29日(金)



8月29日(金)インタラクティブセッション(2)

時間:10:30〜12:00
場所:Zoom/ブレイクアウトルーム


本セッション発表者による1分間の発表紹介(10:30 〜 10:45)

セッション冒頭の発表紹介1分×発表者9人


Aルーム (10:45 〜 12:00)

i2_1A:日本語日常会話における話し手の頷きの位置について

発表者:天谷晴香(神奈川工科大学)

共著者:鈴木 亮子(慶應大学), 臼田 泰如(静岡理工科大学)

使用する言語資源:日本語日常会話コーパス(CEJC)

本研究は日本語の日常会話において,現行の話し手が発話を行う際に,その話し手自身が行う頷きについて,そうした頷きが生じる発話上の位置を中心に検討する.従来,頷きは主要な聞き手行動として捉えられることが中心であった一方,日本語においてはいわゆる話し手も自身の発話に沿って頷くことが知られている.しかしながら,その詳細については十分に明らかにはなっていない.そこで本研究では,『日本語日常会話コーパス』を利用し,現行の話し手が行う頷きについて,特にその頷きが,話し手自身の発話のどの位置において生じるかということに注目して分析する.特に,一人の参与者が一定の間連続して発話を産出する状況を扱う.

i2_2A:同じ話者の異なる場面における上昇下降調と上昇調の使用率

発表者:李海琪(浙江大学日本語科)

使用する言語資源:日本語日常会話コーパス(CEJC)

『日本語日常会話コーパス』コアデータを対象に、同じ話者が異なる場面における上昇下降調の使用率(HL%率)と上昇調の使用率(H%率)の傾向を調べた。まず、関係性が異なる場面について、2種類以上の関係性の会話がある話者14名の中で、8名はロジスティック回帰分析で得たHL%率の全体傾向「仕事関係者>友人知人>家族親戚」に一致する。仕事関係者との会話がある話者5名の中で、4名はロジスティック回帰分析で得たH%率の全体傾向「仕事関係者<友人知人・家族親戚」に一致する。次に、形式が異なる場面について、雑談と会議か用談がある話者6名の中で、5名はロジスティック回帰分析で得たHL%率の全体傾向「会議・用談>雑談」に一致する。ロジスティック回帰分析で各形式のH%率の間に有意差がなかったが、4名のH%率は「会議・用談<雑談」である。個人差があるが、ロジスティック回帰分析で得た全体傾向を支持する個人の例が存在すると言える。

i2_3A:日本語の語彙アクセント型の規則性に関する一考察

発表者:劉時珍(国語研非常勤研究員)

使用する言語資源:NHK時論・公論と視点・論点をコーパス化した。

本発表は日本語の単語アクセントを辞書などで調べ、日本語教育の観点から、学習者が日本語の単語アクセントを予測できるように、アクセント型の規則性を提示することを目的とする。研究方法としては、まずNHKの解説番組から1000語を抽出し、アクセント辞典および国語辞典でアクセントを調べ、その結果を学習者にとっても分かりやすい概念である語種と品詞から分類し、それに語の表記を手がかりに語を単純形と複合形に分けて、アクセントを集計し、その傾向を見た。さらに、中高型を細分類することによって、漢語、外来語の複合形におけるアクセントのルール(傾向性)を抽出した。以上の結果から、語種、品詞と、漢字の字数による単純形と複合形の分類がアクセントの予測において有効な方法であることを示した。

Bルーム (10:45 〜 12:00)

i2_1B:「仏典音義データベース」の構築と運用可能性

発表者:李乃琦(名古屋大学 高等研究院・人文学研究科)

使用する言語資源:日本語歴史コーパス(CHJ)

本発表では、仏典中の難字・難語に注釈を施す「音義」を対象とした言語資源の一種である「仏典音義データベース」の構築と、その運用可能性について報告する。音義は、仏教内外の語彙に対して音訓・語義・字体・語源などを注釈する辞書的文献であり、中国のみならず日本でも数多く編纂された。特に日本には、写本・刊本を通じて和訓や声点を伴う資料が多く伝存しており、日本語史・訓点語学・仏教学にとって極めて重要な史料群を形成している。本データベースでは、これらの資料を語彙単位で整理し、TEI/XMLを用いて構造化記述を行う予定である。本発表では、「仏典音義データベース」の設計・構築を紹介するとともに、他のデータベースやコーパスとの連携による応用可能性についても検討する。

i2_2B:統合型日本語語彙データベースJ-CLIDに見られる多義語

発表者:呂建輝(岡山大学)

共著者:片山 鮎子(沖縄工業高等専門学校)

使用する言語資源:統合型日本語語彙データベースJ-CLID

J-CLIDは、複数の日本語語彙データベースならびに図書に収録されている語彙を一表にまとめた統合型日本語語彙データベースである。UniDicを基にして構築されたデータベースとは違い、日本国内外の日本語教科書や参考書で実際に「語彙」として認められている言葉を網羅しているため、「形態素」とは異なる観点で「語彙」を考察することが可能になった。また、一語一義を原則とするJ-CLIDでは、同じ表記、同じ読みの語に対してさらに意味用法による細分類を行うことで、特に日本語教育における多義語に対する認識を読み取ることができた。本発表では、これらの発見を踏まえ、日本語教育における語彙分類の基準を再考する。

i2_3B:児童作文にみる待遇表現の使用の変化

発表者:加藤恵梨(愛知教育大学)

使用する言語資源:愛知教育大学附属岡崎小学校文集『ひばり』

本研究は、愛知教育大学附属岡崎小学校で発行されている文集『ひばり』の2号(1949年版)から6号(1953年版)、23号(1971年版)から27号(1975年版)、39号(1987年版)から43号(1991年版)、72号(2020年版)から76号(2024年版)の計20冊を調査資料とし、小学生が家族や友だちについて表現する際にどのような言葉を使っているのか、またその変化について、人間関係や場面に注目しながら学齢別に明らかにすることを目的とする。

Cルーム (10:45 〜 12:00)

i2_1C:(子どもにおける痛み(病気)についての表現方法 「子ども版日本語日常会話コーパス」からのオノマトペ使用状況

発表者:浅野恵子(順天堂大学医学部)

使用する言語資源:子ども版日本語日常会話コーパス(CEJC-Child)

本研究は、「子ども版日本語日常会話コーパス(モニター版)(CEJC-Child)」を用いて、乳幼児から小学生までの自然発話におけるオノマトペの使用実態について、発話分析ツールを用いて明らかにする。分析対象は、同コーパスに収録された日常会話データであり、オノマトペの初発月齢、出現頻度、種類(擬音語・擬態語)、使用状況および機能に注目して定量・定性両面から検討を行った。オノマトペ研究はすでに膨大な蓄積があるが、今回、子どもの日常会話での遊びや食事など、身体的活動を伴う場面でのリアルタイムの発話使用を映像と音声から分析する機会を得ることはまれである。子どもの言語発達におけるオノマトペの機能的意義を考察するとともに、言語教育や発達言語学の視点からの応用可能性についても論じる。

i2_2C:『CEJC』『CEJC-Child』に基づく日常会話における複合動詞の使用実態

発表者:丁若峰(総合研究大学院大学日本語言語科学コース・国立国語研究所)

日本語日常会話コーパス(CEJC);子ども版日本語日常会話コーパス(CEJC-Child)

本研究は、『日本語日常会話コーパス(CEJC)』および『子ども版日本語日常会話コーパス(CEJC-Child)』を用い、日常会話における複合動詞の使用傾向を明らかにすることを目的とする。両コーパスから複合動詞を抽出し、語彙素ごとの出現頻度を整理・集計したうえで、頻出語彙については話者属性や、意味的特徴などに基づいて使用傾向を考察した。本研究は、日常会話における複合動詞の定量的把握を通じて、日本語教育における語彙指導や教材設計に資する知見を提供するものである。

i2_3C:子ども版日常会話コーパスにおけるオノマトペと動詞の使用の考察

発表者:江口典子(国立国語研究所)

使用する言語資源:子ども版日本語日常会話コーパス(CEJC-Child)

親子の会話では多様なオノマトペが使用されており、子ども版日本語日常会話コーパスモニター版においても多くのオノマトペが収録されている。また日本語オノマトペは「する」を中心とした動詞を伴い、動詞化することができるのも特徴であると言える。 本発表では子ども版日本語日常会話コーパスモニター版に収録されている副詞としてのオノマトペの音韻形態を分類し、会話で使用されている動詞「する」を中心とした動詞の結びつきとそのアスペクトを考察する。



8月29日(金)招待講演(2)

AIによる言語資源の利用法 ー辞書データを中心にー

時間:13:00〜14:00   場所:Zoom
発表者:近藤泰弘(青山学院大学)

言語資源に対しては、従来の自然言語処理の手法も必要だが、近年急速に発展してきたニューラルネットワークによる研究手法、典型的にはAIによる研究方法も非常に重要になってきている。しかし、チャット型の生成AIとの対話以外の方法はなかなか習得しにくいのが現状である。本発表では、国語辞典データを中心に、AIとの関係ある方法でどのような研究手法があるかについて概要といくつかの実践例を紹介していきたい。



8月29日(金)口頭発表(3)

時間:14:10〜15:10
場所:Zoom

o07:言語資料のジャンルの考慮した言葉づかいの分析-少年マンガ、現代小説の見方の提案-

発表者:西澤萌希(中部学院大学)

使用する言語資源:少年マンガ(『週刊少年ジャンプ』(集英社))、現代小説(本屋大賞受賞作品)を対象として、Excelにセリフを文字起こしし、使用される語彙要素をタグ付けした後、テーブル機能を使って簡易的な検索を可能にしたデータ。

現在、ことばと人物像の結びつきに関する分析への個人的な活用を目指し、フィクション作品中の言葉づかい(自称詞、スタイル、終助詞、音変化などの使用)を簡易的に検索できるデータを作っている。本発表では、少年マンガと現代小説のデータを比較し、言葉づかいの特徴を分析する。それにより、ジャンルによる偏りを考慮した、少年マンガ、現代小説のデータの見方を考える。結果、スタイルや音変化の使用は少年マンガ、現代小説で変わらない一方で、ぞんざいな語彙の使用は少年マンガにおいて現代小説より多く見られ、言葉づかいの丁寧さは語彙によって偏りが生まれると分析した。また、少年マンガの自称詞や終助詞はより多様で「役割語度」が高い言葉づかいが見られた。以上はジャンルの性質(読者に求めることや場面)による偏りだと考えられる。特にぞんざいな語彙、自称詞、終助詞においては、その偏りを意識してデータを見ていく必要があろう。

o08:小説会話文の文末形式リストの作成

発表者:佐藤理史(名古屋大学)

使用する言語資源:現代日本語書き言葉均衡コーパス(BCCWJ);BCCWJ小説会話文, 小説会話文文末形式リスト

小説会話文の文末形式リストを作成した。このリストには、1,923種類の文末形式収録されており、「BCCWJ小説会話文」に含まれる276,576文における頻度情報、「小説家になろう」に掲載されている小説から収集した会話文8,879,279文における頻度情報、および、「BCCWJ小説会話文」を利用して算出した女性率の情報が含まれている。このリストを利用することにより、書籍体の小説とウェブ小説での文末形式の使用差や、多様な文末形式の男女の使用差を観察することができる。



8月29日(金)口頭発表(4)

時間:15:20〜16:50
場所:Zoom

o09:BCCWJにおける三点リーダーとその亜種の使用実態の定量的分析

発表者:酒井拓人(愛知学院大学心理学部)

使用する言語資源:現代日本語書き言葉均衡コーパス(BCCWJ)

本研究では、現代日本語書き言葉均衡コーパス(BCCWJ)における三点リーダーとその亜種(二点リーダー、句点・読点・中黒・ピリオドの連続使用)の使用実態を分析した。BCCWJから各記号を含む文を抽出した結果、三点リーダーが最も多く、次いで中黒、句点、ピリオド、読点、二点リーダーの順であった。三点リーダーは法律を除く全レジスターで確認されたが、亜種はほとんどがブログと知恵袋レジスターでのみ確認された。これは校正やコーパス作成時の文字入力仕様の影響と考えられる。また、二点リーダーを除く亜種の連続使用個数を集計した結果、平均値は約3~6個とばらつきがあった。ただし、すべての記号で中央値や最頻値が3個であった点や最長連続使用個数が3個である文の出現頻度最多であった点などから、書き手が「三点」を意識して亜種を使用している可能性が示唆される。

o10:詳細なメタデータを含む英語学習者話し言葉コーパスの構築:発話特徴の包括的な分析に向けて

発表者:神澤克徳(京都工芸繊維大学)

共著者:田中悠介(熊本学園大学),近大志(京都大学),瀬戸口彩花(都城市立明和小学校),小林雄一郎(日本大学),光永悠彦(名古屋大学),森真幸(京都工芸繊維大学),李在鎬(早稲田大学)

使用する言語資源:The KIT Speaking Test Corpus

本発表では、発表者らが構築したThe KIT Speaking Test Corpus(以下、KISTEC)の概要および特徴について、具体的な分析例を交えながら紹介する。KISTECは、京都工芸繊維大学の学部1年次生全員を対象に実施された英語スピーキングテスト (KIT Speaking Test) の解答音声を基にした約30万語規模の英語学習者話し言葉コーパスである。書き起こされた発話には、発話特徴を表す各種タグが付与されているほか、学習者の属性、スピーキングテストのスコア(全体およびタスクごと)、TOEIC L&Rのスコアといったメタデータが提供されている。また、解答のプロンプトとなったタスクもすべて公開されている。現在公開されている先行コーパスには、NICT JLE CorpusやThe International Corpus Network of Asian Learners of Englishなどが存在するが、KISTECほど詳細な補足データは提供されていない。日本の英語教育においては、スピーキング力の向上が重視されており、日本語を母語とする英語学習者の言語的特徴や発達過程の解明が急務となっている。KISTECを活用することで、既存のコーパスでは実現できなかった個人差やタスク特性を考慮した包括的な発話分析が可能となり、日本語母語話者の英語スピーキング能力に関する新たな知見が得られることが期待され、英語教育への貢献が見込まれる。

o11:「漢語の自他」に関する定量的研究

発表者:庵功雄(一橋大学国際教育交流センター)

使用する言語資源:現代日本語書き言葉均衡コーパス(BCCWJ)

自他の対応は(1)のように自動詞と他動詞が対応関係を持つ現象を指す。(1)a.コップが割れた。(自動詞)b.太郎がコップを割った。(他動詞)日本語教育では和語の場合のみが扱われるが、論文では漢語の場合も重要となる。(2)a.A国の経済が発展した。b.*彼はA国の経済を発展した。c.彼はA国の経済を発展させた。(3)a.*新製品が発売した。b.新製品が発売された。c. B社が新製品を発売した。(4)a.彼の夢が実現した。b.彼は夢を実現した。c.彼は夢を実現させた。漢語には、「を~する」が使えない自動詞型、「が~する」が使えない他動詞型、両者が使える自他同形型がある。ここで、自動詞型、自他同形型ともに「を~させる」を使うとできれば学習負担をかなり減らせる。本発表ではこの目的のために二字漢語についてBCCWJで「が~する」(ガ格は無情物)「を~する」「を~させる」の比率を調べた結果を報告する。



8月29日(金)クロージング

時間:16:50〜17:15
場所:Zoom



 

リンク Links