言語資源ワークショップ2024:プログラム
参加に際しては、参加登録が必要です(参加費無料)
発表番号の末尾に「s」のついている発表は「言語資源ワークショップ:優秀発表賞」の対象となっています。
口頭発表の時間は1件あたり25分(発表20分+質疑応答5分)です。
インタラクティブセッションはセッション冒頭の発表紹介が1分、 ブレイクアウトルームに分かれた後の持ち時間は1件あたり20分(交替時間を含む)です。
各発表時間や休憩時間についてはこちらをご確認ください。
→ タイムテーブル
■ 1日目:08月28日(水)
8月28日(水)オープニング
時間:09:20〜09:30
場所:Zoom
8月28日(水)口頭発表(1)
時間:09:30〜10:45
場所:Zoom
o01:会話データにおける「文の包摂」の出現状況
発表者:泉大輔(立教大学)
使用する言語資源:日本語日常会話コーパス(CEJC)
「早くしろオーラ」「私頑張ってますアピール」「ポケモンカードゲームはじめようキャンペーン」などの言語表現は、「文」相当の要素が語の内部に生起しており、語の内部にはそれより大きい単位は入り得ないという一般的な語形成規則を逸脱する特異な言語現象である(本発表では「文の包摂」と呼ぶ)。従来は、『現代日本語書き言葉均衡コーパス』や『国語研日本語ウェブコーパス』などを用いて、主に書籍や雑誌上あるいはインターネット上のテキストを対象に「文の包摂」の出現状況の調査や形式的・意味的特徴を考察した研究が中心であった。そこで本発表では、主に『日本語日常会話コーパス』や種々の動画などから採取した実例に基づき、その出現状況および会話に見られる「文の包摂」の諸特徴について記述・考察を行う。それにより、「文の包摂」を1つの切り口としてレジスター研究に資することを目指す。
o02:中間言語対照分析(CIA)のためのI-JASダウンロードデータの加工―I-JAS for CIAの整備―
発表者:石川慎一郎(神戸大学)
使用する言語資源:多言語母語の日本語学習者横断コーパス(I-JAS)、Web茶まめ、UniDic
2020年のリリース以降、I-JAS(迫田 2020)は、多様な日本語学習者のL2習得を科学的に議論する上で不可欠の一次資料として広く研究に応用されている。また、B-JAS、JASWRIC等、I-JASと同一のタスクを用いて異なる種類のデータを集める動きも広がっている。一方で、筆者の知る限り、I-JAS利用の大半は中納言上の用例検索に留まっており、科学的な相互比較が可能になるよう高度に統制的なデザインで構築されているI-JASの真の価値は、いまだ十分に引き出されていないように思える。世界の学習者コーパス研究の標準手法である中間言語対照分析(contrastive interlanguage analysis:CIA)(Granger 1996; Granger 2015)の枠組みを踏まえると、特定学習者集団と母語話者の比較だけでなく、習熟度の異なる学習者集団間やL1を異にする学習者集団間で多層的・多元的な比較を行い、L2日本語習得の段階性やL1の影響を丁寧に検証する必要が生じる。こうした高度な分析を行うには、ダウンロード版を入手して各自のスタンドアロン環境で分析することになるわけだが、現行のI-JASダウンロード版は、(1)習熟度の未分類、(2)複雑なフォルダ構造、(3)発話者コードとテキストの併存、(4)修正情報の混入、といった制約があり、コンコーダンサを用いた一般的なコーパス分析を拒絶する面がある。そこで、筆者は、これらの制約を可能な限り排除し、I-JASを一般的なSLA研究や学習者コーパス研究の文脈で使用できるよう、I-JASデータの整理と統合を行い、I-JAS for Contrastive Interlanguage Analysis(I-JAS for CIA)を構築した。本データセットが、I-JASの価値を引き出す新しいタイプの日本語学習者コーパス研究の創出に寄与できればと考える。
o03:日本語日常会話コーパスにおける推量副詞とモダリティ形式の働き
発表者:Irena Srdanovic (イレーナ・スルダノヴィッチ)(Juraj Dobrila University of Pula(ユライ・ドブリラ大学プーラ))
使用する言語資源:日本語日常会話コーパス(CEJC)
推量副詞と文末モダリティの呼応および遠隔共起関係の現象については従来の研究で既に議論されている(南1974、工藤 2000、Bekes 2006、Srdanovicら2008, Hodoscekら2009, Bekes 2011)。複数の日本語コーパスを用いた実証的な研究では、コーパス・ジャンル別の副詞分布および副詞と文末モダリティ形式の共起傾向が異なり、モダリティタイプの程度で表していると確認された(Srdanovicら2009、Hodoscekら2009)。本研究の目的は、その現象を日本語日常会話コーパス(CEJC)(Koisoら2022)の中で観察し、他のコーパスと比較しつつ、現代日本語の話し言葉コーパスにおける副詞と文節モダリティの特徴を明らかにすることである。得られた研究結果は会話における副詞とモダリティの役割を更に明確にし、日本語教育、談話分析、語用論などの分野に応用できる。
8月28日(水)口頭発表(2)
時間:10:55〜12:10
場所:Zoom
o04s:カタカナ語の意味分類に対する大規模言語モデルの有効性検証
発表者:小滝主紀(茨城大学院理工学研究科)、佐々木稔(茨城大学工学部)
使用する言語資源:現代日本語書き言葉均衡コーパス(BCCWJ)
本稿では、LLMを用いてカタカナ語の文脈中の意味分類を行った手法と結果について報告する。ChatGPTなどの生成AIの学習に用いられる資源の多くは英語で占められており、日本語の資源はあまり使用されていない。そのため日本語に含まれるカタカナ語は対応する英単語の意味と異なる場合があり、文脈中の意味分類が正しく行われない可能性が高い。そこでBCCWJに含まれる文章からカタカナ語を含む文章を抽出し、その中から数個の単語を対象として、複数のLLMを用いてFew-shot-learningを行った。各LLMでの各カタカナ語の分類に対する有効性を検証し、結果の考察や今後の課題についての検討を行う。
o05s:和語動詞が前接する「化」の使用動態について:新語「見える化」を中心に
発表者:谷口悠(同志社大学大学院文学研究科)
使用する言語資源:現代日本語書き言葉均衡コーパス(BCCWJ)、日本語話し言葉コーパス(CSJ)、日本語日常会話コーパス(CEJC)、昭和話し言葉コーパス(SSC)、名大会話コーパス(NUCC)、現日研・職場談話コーパス(CWPC)、日本語歴史コーパス(CHJ)、昭和・平成書き言葉コーパス(SHC)、NINJAL-LWP for TWC
従来、接尾辞「化」に関する研究は、その歴史的変遷に研究が当てられることが多かった。近年、和語動詞(特に可能動詞)が前接する「化」の用法が注目されている。しかし、その詳細は明らかになっていない。そこで、本研究は、この新たな用法の一つである「見える化」を主に取り上げ、使用の動態を調査・分析する。具体的には、過去数十年にわたる「見える化」の使用頻度を調査し、新聞などの文章のジャンルに注目する。また、「可視化」と比較し、使用場面やニュアンスにどのような違いが見られるかを検討し、その使い分けを考察する。こうした分析を通して、「見える化」の使用増加要因、新語使用増加要因の一端を明らかにすることを目指す。
o06s:漢語動名詞を含む名詞節の構造パターンの分析-BCCWJデータに基づいて-
発表者:陳迪(神戸大学大学院)
使用する言語資源:現代日本語書き言葉均衡コーパス(BCCWJ)、日本語日常会話コーパス(CEJC)、分類語彙表、Lancaster Corpus of Mandarin Chinese
漢語動名詞が名詞節内で使用される場合、少なくとも、動詞型(「漢語+スル・シタ」)、名詞型(「漢語+ノ」)、形容詞型(「漢語+的・的ナ・ナ」)などの3種類の構造パターンがある。本研究では、まず、『現代日本語書き言葉均衡コーパス』(BCCWJ)を用いてそれらの典型性を確認した。その後、重回帰分析により、各種の構造パターンの選択を促す言語的要因を調査した。その結果、漢語動名詞が名詞節内で使用される際に、(1)動詞型の構造パターンの典型性が突出していること、(2)名詞型の構造パターンには制約があること、(3)形容詞型の構造パターンは例外的であることが確認された。また、漢語動名詞の品詞性、使用環境、意味範疇、時代などの要因が、各パターンの選択に影響を及ぼすことも明かになった。得られた知見は、言語学だけではなく、日本語教育にも応用が可能だと考えられる。
8月28日(水)招待講演(1)
言語資源とAI
時間:13:00〜14:00
場所:Zoom
発表者:橋田浩一(理化学研究所)
AIの進歩と普及に伴って言語コーパス等を含む研究用データの形とサプライチェーンが大きく変わる可能性がある。まず、最も収益性の生成AIの活用法はパーソナルAI、すなわち利用者と対話してサービスを仲介する特定個人専属のAIだが、これを使っていると多様なサービスの入出力データが自ずと利用者本人の手もとに集約され、それをサービスの改善やリスク管理に用いる(1次利用)だけでなく、研究開発等での2次利用に供することも利用者本人の意思だけで簡単にできるようになる。こうして日常の生活や業務で生成・活用されるデータと研究開発に使われるデータが融合する。そのデータは文書を含むが、文書の形や活用の仕方もAI と人間の共同作業およびAIが支援する人間同士の共同作業を最適化するように変化する可能性が高い。本講演ではそのような可能性について述べる。
8月28日(水)口頭発表(3)
時間:14:10〜15:50
場所:Zoom
o07s:『中国語動画音声コーパス』の構築 ──複数モダリティによる正確な書き起こしを目指して──
発表者:篠崎秀紀(大阪大学人文学研究科)、于拙 (大阪大学人文学研究科)、陳宇鍇 (大阪大学人文学研究科)
使用する言語資源:自作のコーパス
動画共有サイトにアップロードされている中国語の動画は,字幕が画像データとして動画のフレーム内に埋め込まれていることが一般的である.中国語コーパスの作成に際し,より広範なテキストの収集を可能にするためには,動画に対し文字認識あるいは音声認識の手法を用いる必要がある.本研究では,埋め込み字幕に対するOCR,音声に対する音声認識,動画制作者が用意した字幕など,複数のリソースから得られる,テキストを同時に表示・検索できるようなアプリケーションを実装する.また試験的にいくつかのジャンルを収集し,言語分析を試みる.
o08s:日本語を母語とする自閉スペクトラム症者の公開コーパス構築
発表者:鈴木あすみ(国立障害者リハビリテーションセンター研究所/東北大学大学院 文学研究科)、幕内充(国立障害者リハビリテーションセンター研究所)、 和田真(国立障害者リハビリテーションセンター研究所)、 中村仁洋(国立障害者リハビリテーションセンター研究所)、 石井亨視(国立障害者リハビリテーションセンター研究所)、 小磯花絵(国立国語研究所)
使用する言語資源:UniDic、自閉スペクトラム症者・定型発達者(各6名)の会話の映像・音声付きコーパス(現在構築中、国立国語研究所から公開予定)
自閉スペクトラム症 (Autism Spectrum Disorder: ASD) は、対人・情緒的関係の障害等で特徴づけられる、発達障害の1つである。ASD者と定型発達 (Typically Developing: TD) 者の間では、両者のコミュニケーションスタイルの違いから語用論的な障害が生じ得るが、ASD者・TD者の言語運用の定量的分析を可能にするコーパスを構築することで、両者間のコミュニケーションを円滑にするための支援デバイス・手法の開発につなげることができる可能性がある。そこで、本研究では世界初となる日本語母語話者のASD者を対象とする動画付き公開コーパス構築に取り組む。データ規模はASD者・TD者各6名を目標とし、2024年6月現在、ASD者6名・TD者5名の会話の映像・音声 (1人当たり約110分) を収録済みである。また、マルチモーダルな分析のために、ASDに関連する心理指標得点、会話中の心拍変動データも収集した。本コーパスは国立国語研究所から公開する計画である。本発表ではまず、コーパスの設計やデータ収集の概要を述べる。次に、話者の意図・感情の伝達を担う終助詞に着目し、ASD者6名・TD者3名分の転記テキストに基づき、終助詞使用率の差を検証する。
o09s:携帯メイルにおける絵文字の登場位置
発表者:山崎由佳(京都大学大学院人間・環境学研究科)
使用する言語資源:加藤安彦ケータイメイルコーパス
本発表は、「加藤安彦ケータイメイルコーパス」における携帯メイル上の絵文字の登場位置と使用傾向について報告する。絵文字の位置を「文頭部・文末部・文内部・一文が絵文字のみで成る場合」の四つに分類すると、メイル本文中・件名中とも文末部に現れる絵文字が88%以上を占めていた。なお絵文字の連続使用により真の末尾以外に現れたものが全体の2割以上あり、その割合は2000年代半ばに上昇傾向が見られた。本発表では、絵文字が文末まで連続する際の使用傾向(反復や修飾的用法など)についても論じる。一方で絵文字が文頭部に位置する率は本文中で1%未満、件名中で2.6%程度であったが、文頭で使用頻度の高い絵文字の傾向は全体の傾向(田中・林 2021)と異なっていた。特に頻度上位の絵文字には具体的な物体を表すものや数字を含むものが多く、箇条書きのマーカーとしての使用も見られることがうかがえた。
o10:「象は鼻が長い」構文が使われるのはいつか:文内要因の検討
発表者:吉田真大(千葉大学大学院人文公共学府)、伝康晴(千葉大学)
使用する言語資源:現代日本語書き言葉均衡コーパス(BCCWJ)、Universal Dependenciesのデータ
意味上では交換可能だと感じられる二つの構文が、どのような要因によって選択されているのかについて検討した。本研究では「AはBがP」「AのBがP」という二つの構文に焦点を当て、統語的な要因に着目した。データとして現代日本語書き言葉均衡コーパス(BCCWJ)を使用した。BCCWJのコアデータのうち、Universal Dependencies係り受け構造データを用いて当該構文の形式をとっているものを抽出し、利用した。各要素の「長さ」要因が構文の選択時に関係していると考え、その観点からデータを分析した。その結果、各構文のうち、助詞「は」(もしくは「が」)の前後において、それぞれの要素の文字数が近づくような形をとっている可能性が示唆された。
8月28日(水)インタラクティブセッション(1)
時間:16:00〜17:15
場所:Zoom/ブレイクアウトルーム
本セッション発表者による1分間の発表紹介(16:00 〜 16:15)
セッション冒頭の発表紹介1分×発表者12人
Aルーム (16:15 〜 17:15)
i1_A1s:『現代日本語書き言葉均衡コーパス』データに基づく字音接辞の共起成分データベースの構築
発表者:秦周漢(総合研究大学院大学 日本語言語科学コース)
使用する言語資源:現代日本語書き言葉均衡コーパス(BCCWJ)、分類語彙表
日本語の漢語において、造語力の強さはその顕著な特徴の一つである。特に字音接辞は漢語の語形成に重要な役割を果たしているが、従来の研究では、接辞の使用実態に関する計量的な特徴については十分に明らかにされていない。本研究では、張(2019)の日本語字音接辞語彙表を参考にし、『現代日本語書き言葉均衡コーパス』に含まれる字音接辞および、その接辞と共起する語基成分を抽出し、手作業で語彙情報の修正を行い、字音接辞の共起成分データベースを構築した。各接辞とその共起成分の頻度のほか、『分類語彙表 増補改訂版』に基づく意味分類情報も付与されている。本データベースは、共起成分の頻度情報を付与することにより、共通の意味成分の抽出や生産性の数値化に道を拓くものであり、中国語接辞との対照研究も可能にする。習得研究や日本語教育や国語教育への貢献も期待される。
i1_A2s:BCCWJとLINEにおける文末の三点リーダーと感嘆符「...!」の使用実態
発表者:浦温美(筑波大学人文社会科学研究群)
使用する言語資源:現代日本語書き言葉均衡コーパス(BCCWJ)
本発表では、文末の三点リーダーと感嘆符の組み合わせがBCCWJとLINEのチャットデータでそれぞれどのように示されているのかを明らかにすることを目的とする。三点リーダーは「...」「・・・」と表記されるだけではなく、読点や句点を用いて表記される場合があり、点の数もさまざまである。感嘆符についても数が決まっているわけではないため、多様な三点リーダーと感嘆符の組み合わせが観察される。そこで、本発表では、このような符号の種類と数の、文末における実態を明らかにするため、BCCWJと自身で収集したLINEのチャットデータを用いて分析を行った。その結果、BCCWJでは三点リーダー、中点、読点、句点を使用したものが確認された。レジスターに注目すると、三点リーダーを使用したものは「書籍」のみに、その他は「ブログ」「知恵袋」のみに現れた。また、LINEのチャットデータでは三点リーダーと読点を使用したものが確認され、BCCWJと比較して読点が多く用いられていることが分かった。
i1_A3:日本語学習者用の日本語・スロベニア語辞書のための読みやすいアクセント表記の試み
発表者:寒川仁衣菜(University of Ljubljana, Faculty of Computer and Information Science )、Jan Hrastnik (University of Ljubljana, Faculty of Mathematics and Physics)、Kristina Hmeljak Sangawa (University of Ljubljana, Faculty of Arts)
使用する言語資源:UniDic、Web茶まめ
強弱アクセントの言語を母語とする学習者にとって、日本語の高低アクセントの認識と発声は難しい。高低差が聞き取れない学習者にとって、目に見えるアクセント情報の表記が正しい発音の助けになると考え、日本語・スロベニア語辞書の改訂にあたって、アクセント情報も付与することにした。そこで、入手可能なUniDicのアクセント情報を見出し語に付与したが、数字などの記号によるアクセント情報は学習者にとって分かりにくいと判断し、辞書の見出し語を初級日本語学習者にも読みやすいローマ字に変換し、高低アクセントを大文字と小文字の区別で表した。本発表では、その過程を説明し、パイロット版の資料を利用した学習者の反応を紹介する。
Bルーム (16:15 〜 17:15)
i1_B1s:使用実態から見た複合動詞の「非用」:『多言語母語の日本語学習者横断コーパス』に基づく分析
発表者:丁若峰(総合研究大学院大学・日本語言語科学コース)
使用する言語資源:多言語母語の日本語学習者横断コーパス(I-JAS)
これまで複合動詞に関する学習者の誤用を考察した研究が多くあるのに対し、学習者の「非用」に注目する研究は少なく、中国語を母語とする日本語学習者(以下「CLJ」という)の複合動詞の「非用」実態や「非用」が生じる要因はいまだほとんど明らかにされていないと思われる。したがって、CLJの複合動詞の「非用」の実態がまだ明らかになっていない現在の状況で、まず行うべきことは、その実態を捉えることであると考えられる。従来、「非用」に関して、複合動詞全体に着目するマクロな研究は多いが、具体的な複合動詞に着目するミクロな研究は少ない。そこで、本研究では、コーパス調査によって、特定の2つの場面に出現する「飛び出す」および「呼び止める」の「非用」をミクロな視点で解明する。
i1_B2s:ダイナミック・システムズ理論から見た中国人日本語学習者が産出した作文の統語的複雑さの経時変化
発表者:王琳軒(中国人民大学)
使用する言語資源:「湖南大学学習者中間言語コーパス」
本稿ではダイナミック・ システムズ理論を援用し、「湖南大学学習者中間言語コーパス」に収録される63名の学生が3年1か月を通じて産出した作文を研究対象に、文字数と文節数に基づく平均文長、平均依存距離、平均階層距離を文の統語的複雑さの変化を測る指標として分析を行った。結果、以下の4点が明らかになった。第一に、4指標はいずれも中国人日本語学習者の通時的作文データにおける統語的複雑さの経時変化を有効に測定できること。第二に、moving min-max graphやCPA等から、文字数に基づく平均文長の他の3指標の発展パターンはより似ており、各指標が反映する学習者能力の発達時期がずれていること。第三に、文字数に基づく平均文長が後半になると、他の3指標と負の相関に転じた原因として、認知資源の配分のアンバランスが考えられること。第四に、4指標に現れた傾向は、システムにおける各サブシステムの共働作用による調整と、突然の変化がもたらす現段階のアトラクター状態から次のアトラクター状態への移行の繰り返しであり、これは先行研究で言及された第二言語習得のプロセスの特徴でもあること。
i1_B3s:パタンマッチングによるオノマトペ候補語抽出の試み ーオノマトペ形態変換プログラムを用いてー
発表者:廉沢奇(神戸大学 国際文化学研究科)
使用する言語資源:現代日本語書き言葉均衡コーパス(BCCWJ)、日本語日常会話コーパス(CEJC)
オノマトペは数が多く、形態パタンも多様であるが、具体的にいくつあるのかという点に関して、先行研究の見解は一致していなかった。そこで本研究では、(1)既存のオノマトペ形態に関する研究から整理、(2)自作プログラムで既存のオノマトペリストを形態パタンに変換という2つのアプローチを取り、 72 種という形態パタン数の最大値を特定した上で、BCCWJ と CEJC に含まれる全データを調査し、72種のうち実際に出現するパタンの数、および、それらに合致する具現形の数を特定した。その結果、現代日本語の書き言葉・話し言葉に出現するオノマトペの形態パタンは61種で、具現形は約 2200 語であることが明らかになった。今回の調査で明らかになったオノマトペの形態パタンおよび具現形のリストは、今後のオノマトペ研究の基礎資料になるものと考えられる。
Cルーム (16:15 〜 17:15)
i1_C1:医療記録に含まれる医療縮約表現の語構成と意味的な分類
発表者:相良かおる(奈良先端科学技術大学院大学)
使用する言語資源:分類語彙表、MeSH、CINAHL 、日本語語彙体系
医療記録には、複合語に加えて,助詞が省略された句や節に相当する「右肺Ca再発病変」のような合成語(以下、「医療縮約表現」という)が含まれる。 今回、日本語学研究者および医療従事者と共同し、医療縮約表現810語を、医療の観点からみた有意味性を反映する1,342種類の語構成要素に分割し、これらを、医療従事者は、どのように解釈・認識するかという視点に立ち、全1,342要素に50種類の意味ラベルを付与した。本発表では、医療縮約表現810語の縮約のパターンについて述べ、次いで50種類の意味ラベルの体系化について、学術医療用語を対象としたシソーラスMeSHまたはCINAHLのカテゴリー分類、および「日本語語彙体系」における「単語意味属性体系」の利用可能性について述べる。
i1_C2:日本語における外来語として取り入れられていない英語語彙の特徴
発表者:山崎誠(国立国語研究所)
使用する言語資源:NGSL(New General Service List)
本発表では、日本語に取り入れられていない英語の外来語に焦点を当て、それらの語にはどのような特徴があるのか、その一端を明らかにする。現代日本語には多くの英語からの外来語が存在することはよく知られている。しかし、すべての英語が日本語の外来語になっているわけではなく、例えば、使用頻度が高い冠詞の「a」、副詞の「as」、代名詞の「he」などは日本語の外来語にはなっていない(国語辞典の見出し語にはなっていない)。本発表では、以下の方法でこの違いを明らかにするものである。英語の語彙リスト「NGSL(New General Service List)」の上位語が国語辞典「デジタル大辞泉」の見出し語になっているかどうかを調査し、その有無の状況から日本語に取り入れられていない英語について、品詞や意味、対応する日本語側の語彙体系などの観点から考察する。上位100語の結果では、「デジタル大辞泉」の見出し語になっているものが49語、なっていないものが51語と約半々であった。品詞別で見ると、名詞(8語)はすべて見出し語になっていたのに対し、助動詞は6語中5語が、代名詞は12語中9語が見出しになっていないことが分った。
i1_C3:字源から語彙を拡げる漢字学習方法研究における『分類語彙表』の活用
発表者:神谷佳那(杏林大学大学院国際協力研究科)、山田京子(早稲田大学)、Noriko K. Williams(前American University)、小山真理(文化学園大学)、小山由記(フリーランスエンジニア)、永澤よしゆき(ジャパン・ビット・イノベーション[JBI])、徳弘康代(名古屋大学)
使用する言語資源:分類語彙表
本発表では「字源から語彙を拡げる学習方法研究会」における共同研究の概要および研究における『分類語彙表』の活用方法を報告する。現在、当研究会で開発を進めている日本語学習者向け漢字学習用資料は、漢字の字源を軸とした字義拡張に着目し、その意味構造を支えるメタファーや抽象的展開を分析した上で、それらを手掛かりとして学習者の習得語彙の拡大につなげることをねらいとしている。資料作成にあたっては、①漢字字典による字源の調査、②語彙の選定、③字義展開の分析、④イラスト、解説、英訳などを付けた資料の作成を行う。このうち、特に②と③においては、国立国語研究所(2004)『分類語彙表―増補改定版―』のデータベース版を使用し、データ管理ソフトFileMakerを用いて、他のデータベースと併用する形で進めている。そこで、今回は研究全体の流れや成果物を提示し、複数のデータベースの組み合わせによる活用の試みについて紹介する。
Dルーム (16:15 〜 17:15)
i1_D1:日本語日常会話コーパスにおける助数詞の使用実態に関する分析-〈つ〉〈個〉への置き換えに注目して-
発表者:山本晃子(立命館大学大学院文学研究科)
使用する言語資源:日本語日常会話コーパス(CEJC)
日本語ではものを数える際、鉛筆は「一本」、皿は「一枚」、服は「一着」のように様々な助数詞が使い分けられている。しかし実際にそのような使い分けがどの程度細かくなされているかは、書き言葉と話し言葉で、あるいは書き言葉のレジスターや、話し言葉の場面によっても異なると考えられる。例えば話し言葉においては、〈本〉〈枚〉〈着〉のような助数詞よりも、〈つ〉のような数えられるものの範囲が広い助数詞を用いる傾向が書き言葉よりも高いと予想される。本発表では日本語日常会話コーパスを対象に、そのものを数えるのによりふさわしい助数詞があるにも関わらず〈つ〉のような助数詞を用いる例に注目し、分析を行う。そして、そのような助数詞への置き換えが起こる場合の特徴について考察を行う。
i1_D2:議論の様相を可視化するモデル構築に向けたアノテーション方法の検討
発表者:下山田周平(江戸川大学基礎・教養教育センター)、納谷耕世(一橋大学大学院言語社会研究科博士後期課程)、浦野歩(国立国語研究所)、長田祥一(城西学園)、井上雄太(国立国語研究所)
使用する言語資源:収集した議論データベース
我々の研究では、議論の最中の話題の発展・脱線・接続の様子、複数の意味的レイヤーの同時的・ディゾルヴ的な重なりあいなど、いわば議論の「盛り上がり」「深まり」「行き詰まり」といった感覚的には理解される様相を可視化するモデルの構築を目指している。そのために、30分間という時間的制約を設け、①音声通話②テキストチャット、それぞれの形式で行われた議論を収集したデータベースを構築中である。本発表では、①音声通話で収集したデータを紹介し、既存の複数の文字化形式を参考に、モデルの構築にもっとも有効な形式を検討する。試みの瑕疵について、あるいはデータの取り扱いの技術について、忌憚のないご指摘を頂ければ大変にありがたい。
i1_D3:修辞機能と脱文脈化による書籍の文体的特徴の分析 -専門度に焦点をあてて–
発表者:田中弥生(国立国語研究所)、柏野和佳子(国立国語研究所)、加藤祥(目白大学)
使用する言語資源:現代日本語書き言葉均衡コーパス(BCCWJ)
本発表は、書籍の文体的特著と修辞機能及び脱文脈度の相関を検討する研究の一環である。柏野(2013)は文体を分類するための指標として、専門度、客観度、硬度、くだけ度、語りかけ性度の分類指標を提案し、現代日本語書き言葉均衡コーパス(BCCWJ)の図書館サブコーパスに情報を付与している。本研究では、これらのサンプルに修辞機能分析の分類法によってアノテーションを行うことで、修辞機能と脱文脈度を特定している。本発表では、専門度に焦点をあて、「専門家向き」であると評定されたものと「一般向き」であると評定されたものについて統計的に分析する。文体的特徴と関わりのある言語表現が明らかになれば、文章の産出時に印象を調整することが可能になり、文章表現指導などに活用できると考える。
■ 2日目:08月29日(木)
8月29日(木)インタラクティブセッション(2)
時間:09:00〜10:40
場所:Zoom/ブレイクアウトルーム
本セッション発表者による1分間の発表紹介(09:00 〜 9:20)
セッション冒頭の発表紹介1分×発表者16人
Aルーム (9:20 〜 10:40)
i2_A1:『日本語ゲームコーパス(JGC)』の構築に関する中間報告―前期のアクションゲームに見られる量的特徴―
発表者:麻子軒(関西大学)
使用する言語資源:ゲームコーパス
紙媒体や音声媒体を対象としたコーパスが多く存在する中、ゲームコーパスは技術的な理由によりその構築が困難とされ、長らく言語資源において欠けている存在であった。発表者は、日本の代表的なゲームを前期と後期に分け、それぞれ12タイトルを選定し、ゲームコーパスの構築を進めている。本発表では、その構築作業の中間報告として、進捗状況及びテキストの出現環境に対する分類基準を中心に述べた上、既に完成した3つのアクションゲームのデータを用いた分析を報告する。具体的には、各ゲームに見られる言語的構造(異なり語数、延べ語数、文長、品詞構成、漢字含有率、特徴語など)を明らかにする。また、語彙表も試行的に公開する。
i2_A2:「国会図書館デジタル化資料全文テキストデータ」を利用した日本語研究の試み―特に「現代日本語」の通時変化をとらえることを念頭に置いて―
発表者:岡田祥平(新潟大学)
使用する言語資源:現代日本語書き言葉均衡コーパス(BCCWJ)、昭和・平成書き言葉コーパス(SHC)、日本語歴史コーパス(CHJ)、国会図書館デジタル化資料全文テキストデータ・ジャパンナレッジ
国立国会図書館の「令和3年度OCR関連事業」によって作成されたデジタル化資料全文テキストデータ(以下「NDL全文テキストデータ」)は,現在,「国立国会図書館デジタルコレクション」など三つのプラットフォームで検索が可能である。それらのプラットフォームを利用して検索できるNDL全文テキストデータは量が膨大なこともあり,特に明治以降の日本語に関する研究にも新たな視座を提供し得ると考えられる。ただ,それらのプラットフォームは日本語研究用に開発されたものでないことに加え,量が膨大ゆえに検索結果も膨大で検索結果を精査することが非常に困難である。それゆえ,NDL全文テキストデータを日本語研究に利用することが可能なのか,慎重な検討を要する。そのような点を踏まえ,本発表ではNDL全文テキストデータを利用して重複表現(「違和感を感じる」)などの事例について経年的変化の実態をとらえる試みをその手順から仔細に紹介したうえで,NDL全文テキストデータを日本語研究に利用する可能性について問題提起を行う。
i2_A3:『分類語彙表』番号の多義語コードとしての検討―『計算機用日本語基本辞書IPAL』最重要動詞を用いて―
発表者:柏野和佳子(国立国語研究所)、大阿久志緒理
使用する言語資源:分類語彙表、情報処理振興事業協会(IPA)GSK配布版「計算機用日本語基本辞書IPAL―動詞・形容詞・名詞―」(2007年)
『分類語彙表 ―増補改訂版―』(国立国語研究所, 2004年)では、増補の際に基本的な多義語は多重分類するということが行われていた。しかしながら、基本的な多義語の意味がどこまでカバーされているかの検証は行われていない。情報処理振興事業協会(IPA)GSK配布版「計算機用日本語基本辞書IPAL―動詞・形容詞・名詞―」(2007年)に収録されている最重要動詞の多義語を対象に、その意味に該当する『分類語彙表』の番号付与を試み、『分類語彙表』の番号を多義語コードして活用可能である点と課題とを報告する。
i2_A4:文法用語:翻訳と造語をめぐって
発表者:青山文啓(桜美林大学大学院)
使用する言語資源:IPAL
三上章(1959/1973: p.149)は《夫が十二時過ぎに食事をとりに帰ってくる》のような例文で,この「とり」を日本語の〈不定法〉と呼ぶべきだと言う。英語経由で用語を採りいれる場合の好例として,動詞の〈連用形〉を取りあげ,文法用語の翻訳と造語の問題に触れることにしたい。言語の覇権を握った英語は著名な外国人研究者を魅了してきたが,彼らを魅了したのは英語の持つ特異性だったにちがいない(例:イェスペルセン1963;林語堂1960)。 つまり日本語の文法記述に,ふだん使われない用語を使う場合,以下の二点を念頭におく必要がある。一つは,この用語が使われる英語と,日本語との比較を前提に,この用語で日本語を記述することの利点が述べられること。二つめに,おなじ用語が使われる周辺言語とのあいだに大きな開きがないことなどを確認すべきである。
Bルーム (9:20 〜 10:40)
i2_B1:『金光明最勝王経』平安初期点コーパスによる音便形の分析
発表者:柳原恵津子(国立国語研究所)
使用する言語資源:日本語歴史コーパス(CHJ)、ひまわり
平安初期の貴重な言語資料である西大寺本『金光明最勝王経』平安初期点の訓読文(巻1)を対象としたコーパスとして、2021年11月にtxt、xml、ひまわり版が、2022年3月にCHJ版(平安時代編Ⅱ訓点資料)が公開されている。本資料に関しては、CHJ版とひまわり版の双方を活用することで、訓点資料という表記形態が複雑な資料から採集できる用例の正確な解釈が可能になるケースが多い。たとえばCHJで採集した「四段活用動詞連用形+接続助詞「て」」199例について、原文文字列欄で表記を確認すると、語尾が仮名で書かれた非音便形の確例を12例(サ・ハ・マ・ラ行)拾うことができる。また他の例の詳細な表記をひまわり版で確認すると、ひとつのヲコト点で記された「において」「して」「たまひ」、訓漢字「以」(省画体)で記す「もち(て)」の例が多いとわかる。このような例は非便形か音便形かの判定には使えないが、ひまわり版を併用することではじめてその旨を確認できる。
i2_B2:昭和女子大学近代文庫所蔵「與謝野晶子書簡」コーパス‐晩年の晶子の師弟関係と近江家を中心に‐
発表者:宮嵜由美(昭和女子大学)、鈴木雅弓(昭和女子大学)、竹下琴海(昭和女子大学)
使用する言語資源:昭和女子大学近代文庫所蔵「與謝野晶子書簡」コーパス
本発表ではまず、昭和女子大学近代文庫所蔵「與謝野晶子書簡」(以下、本書簡)コーパスの特徴(宮嵜:2024)と変更点について報告し、本書簡における晶子の使用語彙について報告する。具体的には本書簡(91通)は、晶子晩年の愛弟子近江滿子とのやり取りを中心(52通)としているが、その一部に晶子と近江家(滿子とその夫湖雄三(産婦人科医)とのやり取りが含まれる(29通)。そこで本発表では、師弟関係である滿子との一対一の書簡本文と、家族ぐるみで交流のあった近江家に宛てた書簡本文との使用語彙の比較を行う。 宮嵜由美(2024)「昭和女子大学近代文庫所蔵「與謝野晶子書簡」コーパス化の基本設計―日文コースプロジェクト5の取り組みと今後の公開に向けて―」昭和女子大学近代文化研究所紀要No. 19 pp.25-33
i2_B3:ポップアップ辞書に向けての日本語形態素解析システムの設計・実装・運用
発表者:卿学童
使用する言語資源:UniDic、日本語非辞書形辞典(NonJiShoKei)
調査したい単語にマウスを当てて辞書を表示することは、リーディングの効率を高める効果があるとされている。しかし、この機能を実現するためには、マウスで当てられているところの文字列を辞書形に変換するという問題を解決する必要がある。Mecabなどの形態素解析システムを利用することは、一つの解決策であるが、そのようなシステムは、ユーザーのコンピュータのパフォーマンスに特定の要件を求めることがあるため、通常はサーバー上で実行されることが多い。しかし、このプロセスの形態素解析は、語学研究や機械翻訳や全文検索のための形態素解析とは異なり、入力された文字列を辞書形に変換することが主な目的である。そのため、形態素解析システムのサイズを縮小し、より効率的な実装が可能である。本稿では、ポップアプ辞書に向けて辞書検索に特化した形態素解析システムNonJishoKeiの設計、実装、運用について論じる。
i2_B4:日本語の統語構造から見た副詞の種類ごとの位置と分布
発表者:王琳軒(中国人民大学)
使用する言語資源:現代日本語書き言葉均衡コーパス(BCCWJ)、cabocha
本稿は、心理学的実験を行った先行研究から推測した陳述の副詞、時の副詞、様態の副詞、結果の副詞の語順を、日本人が産出した実際の使用状況をより反映できる大規模コーパスBCCWJを通じて、該当副詞が係り先の述語までの係り受け距離(dependency distance)を構文解析ツールCaboChaで算出して検証した。その結果、係り受け距離の平均値の順番として陳述の副詞>時の副詞>様態の副詞≈結果の副詞となったが、陳述の副詞と時の副詞、様態の副詞と結果の副詞は平均値の差が統計学的に有意ではないのに対し、他の4ペアはいずれも有意であった。野田(1984)で指摘された各種類の副詞の生起位置を参照すれば、有意差が検出されなかったのはその2ペアの生起位置のスパンが重なっているからではないかと明らかになった。本稿で得られた結果は小泉・玉岡(2006)の心理学的実験の結果と野田(1984)による分析を裏付けるものと考えられる。
Cルーム (9:20 〜 10:40)
i2_C1:文学論文における思考動詞の使用状況―医学・農学・工学論文における使用状況との比較を通してー
発表者:向坂卓也(外交学院(中国))
使用する言語資源:J-stage(国立研究開発法人科学技術振興機構)
本研究ではJ-stage収録の文学論文と医学・農学・工学論文おける「思う」「思われる」「考える」「考えられる」の使用を比較する。アカデミックライティング教育では4つの思考動詞のうち、客観的な根拠に基づき著者が判断する「考えられる」が推奨されている。しかし、論文(直接引用部分は除外)における使用状況を調査したところ、医学・農学・工学論文では「考えられる」が多用され、文学論文では「考える」が多用されていることが分かった。実験データ等の客観的な数値に基づき著者が判断を行う医学・農学・工学研究では著者の思考を表す際に「考えられる」が多用され、「考える」も使用されているが、「思う」「思われる」の使用は少ない。一方、文学作品の解釈を行う文学研究では著者の主観が反映されることがあるため「考える」が多用され、「考えられる」「思われる」も使用されている。また作品中の人物の思考を表す際に「思う」「考える」が使用されている。
i2_C2:学習者コーパス構築機構としての作文教育支援システムTEachOtherS
発表者:山口昌也(国立国語研究所)、徐 煉(国立国語研究所)、張 曦冉(国立国語研究所)
使用する言語資源:作文教育支援システムTEachOtherS
現在,我々は学習者同士の相互コメント活動や,グループでの振り返り活動を含む,協同型の作文教育に対する支援システムTEachOtherSを開発している。このシステムは,大きく分けて,次の二つの方法で学習者と教師を支援する:(a)学習者にWebベースの作文・コメント・振り返り環境を提供する,(b)教師がクラス全員のアカウントを管理したり,作文・コメント・振り返りといった活動フェーズを制御し,クラス全員に一括して適用できるようにする。これらに加え,他人から受けたコメントなどに基づき作文を改訂することを想定し,作文のバージョン管理機能を持つ。また,作文教育活動の結果はHTML形式で出力することが可能である。本発表では,これらの機能を組み合わせることにより,グループでの作文活動の結果として,クラス全員の作文とコメント,改訂版の作文から構成される学習者コーパスが構築されることを示す。
i2_C3:詩を通してみる中学生の日常の捉え方
発表者:加藤恵梨(愛知教育大学)、角谷昌範(愛知教育大学附属岡崎小学校)
使用する言語資源:愛知教育大学附属岡崎中学校の年間文集『つくし』、愛知教育大学附属岡崎小学校の年間文集『ひばり』
詩は発達段階に応じて、言葉遊びとして響きやリズムを楽しんだり、自分の感じたことを率直に表現したりするのに適した形式であると先行研究で指摘されている。確かに、中学生の書いた詩と小学生の書いた詩を比較すると、物事の捉え方や表現の仕方が異なっている。そこで本研究では、愛知教育大学附属岡崎中学校の年間文集『つくし』の67号(2019年度)~71号(2023年度)に収録されている詩(1年生80篇、2年生81篇、3年生81篇)を調査資料とし、中学生が日常をどのように捉え、表現しているのかを明らかにする。また、それらを愛知教育大学附属岡崎小学校の年間文集『ひばり』に収録されている詩と比較し、違いについて述べる。
i2_C4:高校生の手書き漢字における書き誤りの傾向
発表者:本多由美子(国立国語研究所)
使用する言語資源:東京都高校生縦断作文データベース
近年、手書きや端末入力など複数の方法で文字や文を書くことが日常化している。そのような中で手書きによる表記の実態の一端を探るため、本発表では高校生の手書き作文のデータを用いて漢字の書き誤りの傾向を分析した。本発表では東京都立高校の中の進路多様校の生徒約1000名を対象に3年間にわたって収集された作文の縦断データから、生徒100名の3年分の作文(300本)データを用いた。書き誤りは①画の過不足などにより学校教育で学ぶ漢字の字形とは異なる字が用いられるタイプの誤りと②同じ読みや部品を持つ別の漢字が用いられるタイプの誤りの2種類に分けた。分析の結果、1年生では約70%の生徒の作文に漢字の書き誤りが見られたが、学年が上がるにつれて誤りは減少し、3年生では50%程度に減少した。また20作文以上で使用された漢字の中で書き誤りの割合が最も高かった漢字は「達」であり、「達」が出現する作文のうち約40%の作文で「達」の字形に誤りが見られた。
Dルーム (9:20 〜 10:40)
i2_D1:Never-ending sentencesにおける「話し手のうなずき」
発表者:天谷晴香(神奈川工科大学)、臼田 泰如、 大野 剛
使用する言語資源:日本語日常会話コーパス(CEJC)
本研究では,日本語において節が「文」として完結することなく連続する "never-ending sentence (Auer 1992)" において,話し手が行う「うなずき」を分析する.話し手による「うなずき」については,これまで話し手自身による発話の分節と関連するという分析 (金田 2008, Amatani 2014, 天谷 2015) や,相互行為において聞き手への働きかけを行うとする分析 (Aoki 2011) がなされてきた.また,その生起位置についても,発話末および冒頭に生じることが指摘されてきている (金田 2008).本研究ではこれらの知見を踏まえ,日本語の日常会話において,話し手の「うなずき」が生起する形態統語的,音韻論的,相互行為的環境について探索的に検討する.
i2_D2:テ節終わりの形態とその節内に現れる副助詞の傾向について―オンラインコーパスBCCWJ,CSJ ,CEJCを対象として―
発表者:千葉小百合
使用する言語資源:現代日本語書き言葉均衡コーパス(BCCWJ)、日本語話し言葉コーパス(CSJ)、日本語日常会話コーパス(CEJC)
現代日本語書き言葉均衡コーパスBCCWJ, 日本語話し言葉コーパスCSJ ,日本語日常会話コーパスCEJCにおけるテ節終わりの形態とその節内に現れる副助詞の傾向について発表します。テ節終わりの形態には話者や書き手が意図的にテ節で終わらせているものもあれば,発話のターンが起きることなく,発話者がポーズ,フィラー,接続表現などを介して発話を継ぎ足したがゆえに主節と従属節の見極めが難しい構造となっているものもあります。このようなテ節の機能を包括的に捉えるためには,従来の単文,複文という文構造よりはるかに大きな談話の節連鎖構造を踏まえると共に,節内に用いられる要素に注目して共通する規則性を見出す必要があると考えます。今回は,各資料の類型別にとりたて詞として卓立・焦点化に作用する副助詞がテ節内に出現する傾向を把握した結果を共有し,今後の課題について知見を得たいと思っています。
i2_D3:曖昧な情報要求・その言語的表現の特徴の探索
発表者:森高楓(千葉大学文学部)、松香敏彦
使用する言語資源:UniDic、Yahoo! 知恵袋データ(第3版)
インターネット検索において、検索者が自身の知りたいこと(情報要求)を曖昧にしか把握していない場合、適切に検索できず、必要な情報が得られないことがある。本研究では、コミュニティQ&Aサービス(Yahoo!知恵袋)に投稿された質問文を、質問者が自身の情報要求を言語化したものと捉え、その量的分析によって、曖昧な情報要求を言語的に表現したときの特徴を探索した。 特に、ある質問に寄せられた回答が外部のウェブページを参照する場合について、その質問者の情報要求は、適切に把握されれば検索により回答を得ることが可能なものである一方、質問者自身には曖昧にしか把握されなかったものだと考え、中心的な分析対象とした。現時点では、情報要求を曖昧に把握した質問者が投稿した質問文に共通する特徴は発見されていないが、本発表では、今後のさらなる検討によって、曖昧な情報要求の言語的表現の特徴を明らかにできる可能性を論じる。
i2_D4:日常会話の中のシーンの移行に関する分析
発表者:川端良子(国立国語研究所)、中野 幹生(株式会社 C4A研究所)
使用する言語資源:日本語日常会話コーパス(CEJC)
会話の中で話し手は、眼前の事物に言及することもあれば、過去に特定の場所で起こった出来事、将来起る出来事、さらには架空の出来事に言及することもある。聞き手がこれらの会話を正しく理解するためには、背景とも呼ばれる、場所や時間の情報を理解する必要がある。我々は、「日本語日常会話コーパス (CEJC)」を用いて、会話を理解するために必要な場所や時間の情報がどのように提示されるか分析を行った。これまでの研究では、言語的な手掛かりについての分析がほとんどであったが、CEJCの分析の結果、言語以外の方法でも時間、場所を理解するための情報が提示されていることがわかったので、報告する。
8月29日(木)口頭発表(4)
時間:10:50〜12:05
場所:Zoom
o11:ビット表現を用いた日本語テキストの正規数性の評価
発表者:田窪洋介(新居浜工業高等専門学校・電気情報工学科)、浅原正幸(国語研究所)、山崎誠(国語研究所)
使用する言語資源:現代日本語書き言葉均衡コーパス(BCCWJ)
乱数は暗号化通信に駆使されており、情報の漏洩や盗聴を防ぎ、安全な通信を実現するためにはビット列が有する乱数性を定量的に判定する必要がある。正規数性はそのような判定指標の1つである。本研究では、自然言語の特徴を統計的に分析するために、正規数性を用いた分析が有効であるかも知れない点に注目した。我々は日本語テキストをUTF-8、SJIS、EUCの文字コードを用いてビット表現に変換し、異なるレジスタと文字コードについてビット列がもつ正規数性の指標を計算した。本講演では、我々の解析によって得られた日本語テキストの正規数性の特徴について議論する。
o12:アニメ・ゲームのスクリプト分析における形態素解析の問題点
発表者:小川満梨奈(愛知淑徳大学)、山本裕子(愛知淑徳大学)、岩﨑理紗(愛知淑徳大学グローバルカルチャー・コミュニケーション研究科)
使用する言語資源:アニメ、ゲームのスクリプト
日本語学習者にとってアニメやゲームはリソースの一つであるが、教室で学ぶ日本語とは用いられる語彙が異なる。しかしジャンル別の語彙やその頻度がわかる、学習者にも教師にも活用しやすい語彙リストは公開されていない。そこで、日本語教育で活用できる言語資源として語彙リストを作成することにした。アニメやゲームのスクリプトはそのまま形態素解析すると誤解析が生じやすい。正確なデータ提供を目指し、まずどこにどの程度誤解析が生じるかを確認するため、アニメ4作品、ゲーム1作品を対象に形態素解析を行った。その結果、10%前後の誤解析が生じることが分かった。そのほとんどが作品特有の名詞に加え、感動詞、くだけた話し言葉、言い淀みなど、アニメやゲームの語彙の特徴を表すものであった。本発表では、語彙リスト作成に向けて行った形態素解析の手順と誤解析の内容を整理し、アニメやゲームの特徴を可能な限り残したまま解析する方法を検討する。
o13:『子ども版日常会話コーパス』モニター版の概要
発表者:小磯花絵(国立国語研究所)、石本祐一(ものつくり大学/国立国語研究所)、居關友里子(国立国語研究所)、江口典子(国立国語研究所)、柏野和佳子(国立国語研究所)、川端良子(国立国語研究所)、田中真理子(国立国語研究所)、田中弥生(国立国語研究所)、西川賢哉(国立国語研究所)
使用する言語資源:子ども版日本語日常会話コーパス
国立国語研究所共同研究プロジェクト「多世代会話コーパスに基づく話し言葉の総合的研究」(2022〜2027年度)では、2022年に公開した『日本語日常会話コーパス(CEJC)』で不足する子どものデータを補充するために、子どもを中心とする多様な場面・相手との会話を対象とする映像付き『子ども版日本語日常会話コーパス』(CEJC-Child)の構築を2022年度から進めている。収録対象は8世帯12名の子どもであり100時間規模のコーパスを目指す。このうち50時間のデータを対象に2024年度中にモニター公開する予定である。本発表ではCEJC-Childモニター版の概要について報告する。
8月29日(木)招待講演(2)
生成AIとの対話を深める言語学
時間:13:00〜14:00
場所:Zoom
発表者:佐野大樹(Google合同会社)
人と生成AIとのコミュニケーションは自然言語によって行われます。本発表では、言語学の知見に基づき、普段何気なく使っている言葉を、生成AIとの対話というコンテクストで捉え直し、生成AIとの対話をより深く、効果的で可能性に満ちたものにするための言葉の選択肢と選び方について説明します。具体的には、生成AIとの対話における言葉の選択や構造の特徴、コンテクストの伝え方、指示の伝え方、 様式の選択と、例の提示方法などについて見ていきます。また、今後の生成AIとの対話の展望として「シェアードディスコース」という概念を提案します。言語学的な知識を活用することで、より深く、可能性に満ちた生成AIとの対話が可能になると考えられます。
8月29日(木)インタラクティブセッション(3)
時間:14:10〜15:25
場所:Zoom/ブレイクアウトルーム
本セッション発表者による1分間の発表紹介(14:10 〜 14:25)
セッション冒頭の発表紹介1分×発表者12人
Aルーム (14:25 〜 15:25)
i3_A1:上昇下降調と会話形式の関連性―「日本語日常会話コーパス」を用いて―
発表者:李海琪(浙江大学日本語科)
使用する言語資源:日本語日常会話コーパス(CEJC)
句末音調である上昇下降調の使用場面に関して、見解の相違がある。内省と資料に基づいたまとめによれば、上昇下降調はやや改まった場で使われやすい。しかし、独話をデータとした印象評定と使用率の統計によれば、上昇下降調はくだけた発話で多用される。本研究は『日本語日常会話コーパス』のコアデータの52会話を対象に、日本語母語話者の日常会話における上昇下降調の使用率を考察し、会話の形式との関連性を探った。全体として上昇下降調率は会議・会合>雑談>用談・相談であり、会話ごとの上昇下降調率は平均値でも中央値でも会議・会合>用談・相談>雑談である。会議・会合において上昇下降調の使用率が雑談より高いため、くだけた会話ほど上昇下降調が多用されるとは言えないと主張する。
i3_A2:日本語日常会話コーパスにおける会話場面と発話速度の関係
発表者:石本祐一(ものつくり大学/国立国語研究所)
使用する言語資源:日本語話し言葉コーパス(CSJ)、日本語日常会話コーパス(CEJC)
自発音声ではパラ言語情報や感情の影響により韻律が様々に変動することが直感的に知られているが、多様な状況を反映した音声データの不足により自発音声の韻律の多様性について大規模な定量的分析を行うことは困難であった。発表者は先に、日本語日常会話コーパスに収録された音声の基本周波数を抽出し発話ごとにまとめることで、日常会話では会話場面や会話相手との関係性によって声の高さが異なることを示した。本発表では同様に会話場面や会話相手によって発話速度がどのように変わりうるか調べた結果について報告する。
i3_A3:日本語における/ei/母音連続の発音
発表者:Katarina Hitomi Gerl(カタリーナ・ゲール)(University of Ljubljana, Faculty of Arts, Japanese Studies(リュブリャーナ大学、文学部、日本研究講座))
使用する言語資源:この調査のために収集した音声データ
様々な辞書によれば、日本語における ei 母音連続は、意味の切れ目の間にない 場合、長い「え」として発音される。しかし、文献を調査すると、言語 学者達は発音に関して異なる意見を持っていることが分かる。一部の著 者は、二つの異なる音を持つ可能性のある発音を挙げており、他の著者は 長母音のみの発音を支持している。日本語の長母音の歴史的な発展を探究するこ とにより、二重母音が長母音に進化する傾向を観察できる。例えば、ou という連 続が長い「お」に同化したことがある。長母音の歴史的な発展と専門家の意見に基づき、この研究 では、東京方言を使用する若い日本語の母語話者の中で、母音の連続である ei が 長い「え」として発音されているかどうかを調査する。研究で調査した言葉は、 その語種、音節数に基づいて選ばれた。語の長音化の存在には、語の起源、種類、 発音される文脈などさまざまな要素が影響し、これらはすべてこの論文で取り上 げられている。
Bルーム (14:25 〜 15:25)
i3_B1:中上級日本語学習者の振り返り要素の変化―日本語学習者の振り返りコーパス(RCLJ)から―
発表者:Jieun Ahn(長崎外国語大学(非常勤講師))
使用する言語資源:日本語学習者の振り返りコーパス(RCLJ)
ディスカッションという授業形態においてファシリテーターとして円滑にクラスを運営していくためには、日本語学習者の発音やイントネーション等の個々人の日本語の特徴を把握することが求められる。しかし、日本語レベルの自己評価の低さや性格等が影響し発言量が少ない、または、無言の学習者も存在するのが現状である。そのため、毎回400字程度のディスカッションの振り返りを課題として出し、音声データを収集した。音声データをテキストデータに変換する作業を経て、現在、日本語学習者の振り返りコーパス(RCLJ)を構築している。本研究では、構築途中であるRCLJの中から、中上級日本語学習者(韓国人2名と中国人2名)の振り返りに注目し、1学期分の振り返り要素がどのように変化していくのかを見る。
i3_B2:対象を示す格助詞性複合辞とそれに対応する中国語表現
発表者:丁文静(國學院大学)
使用する言語資源:日中論文抜粋コーパス
本稿では、対象を表す格助詞性複合辞を取り上げ、中国語表現に対応させながら、意味の分類を整理し、構文要素との関連付けを考察した。その結果、対象を示す格助詞性複合辞と中国語の介詞との対応は意味的類似するが、語彙的には一対一ではない。日本語では「動作の対象」を示すのに格助詞性複合辞「に対して」「について」「に関して」「に向けて」を使用するが、中国語の表現はより多くのバリエーションが見られる。格助詞性複合辞「に対して」「について」「に関して」では「メッセージを伝える対象」と「態度・感情の対象」を示す用法が見られる。一方、「対抗・抵抗・対処の対象」「比較、割合の対象」「反応・作用・働きかけの対象」を示す用法には格助詞性複合辞「に対して」、「判断・評価の対象」を示す用法には格助詞性複合辞「にとって」のみである。それらに対応する中国語の表現は、“对”“对于”“针对”“给”“向”“对~而言”などのバリエーションがある。
i3_B3:辞書反転とオープンデータを元にしたスロベニア語・日本語学習辞典の構築
発表者:クリスティナ・フメリャク寒川 (Kristina Hmeljak Sangawa)(リュブリャナ大学 / University of Ljubljana)、Laura Barovič Božjak、 Nadja Bostič、 Katarina Hitomi Gerl、 Jan Hrastnik、 Nina Kališnik、 Sara Kleč、 Eva Kovač、 Nina Sangawa Hmeljak、 Jure Tomše and Tomaž Erjavec
使用する言語資源:日本語・スロベニア語辞典 (jaSlo)、日本語・スロベニア語パラレルコーパス
スロベニアでは日本語学習が盛んだが、参考書はまだ少ない。そこで、以前に編集した日本語・スロベニア語辞典のデータを反転し、オープンデータも利用し、スロベニア語・日本語学習辞典の構築を試みた。まず、日ス辞典から語義ごとの対訳語を抽出し、スロベニア語を見出し語にした対に並べ替え、次に手動で重複、不適切な見出し語を削除し、自動で見出し語の品詞とCEFR準拠難易度、一部に例文を付与した。共同編集用のソフトLexonomyを使い、手作業で多義の見出し語に語義ごとの意味ヒント、相位ラベルを付与し、一部の見出し語にはパラレルコーパスからの例文も添えた。このように構築した約8500語の辞書データをTEI Lex0 準拠のxmlデータとして一般公開した。企画に参加した学習者は辞書の仕組みに関する知識が得られてためになったとの反応があり、今後も同じ体制での編集を続ける予定である。
Cルーム (14:25 〜 15:25)
i3_C1:漢語「是非」の用法の拡張:語用論的配慮の表現
発表者:髙橋圭子(東洋大学・慶應義塾大学)、東泉裕子(東洋大学)
使用する言語資源:日本語日常会話コーパス(CEJC)
現代日本語においては、「事実」「大体」など漢語名詞から副詞へ意味・用法が拡張した例が少なくない。さらには、「勿論」「無理」など応答/反応用法への拡張が見られるものもある。応答/反応用法を持つ表現には狭義の感動詞だけでなくさまざまなものがあるが、本発表では、陳述副詞に由来する「是非」を例として取り上げる。そして、「是非」は相手の発話に対する応答/反応として単独で用いられ、配慮表現として強い賛同・勧め・促しといった機能を示す場合にも用いられていることを指摘する。
i3_C2:個人的な緊急事態:X (Twitter)における「待って」の分析
発表者:落合哉人(国立国語研究所)
使用する言語資源:現代日本語書き言葉均衡コーパス(BCCWJ)、X (Twitter)の投稿データ,自作LINEデータベース,Yahoo!リアルタイム検索
X (Twitter)において,同一文中で主体や対象等を表す他の要素を伴わず,送り手(書き手)自身のことばとして記される言い切りの「待って」の用例に着目して使用実態と特徴を分析した。直近60分間に投稿された用例の観察から,そのような「待って」は類似の特徴を持つ「見て」「聞いて」よりも多く用いられており,特定の宛先を持たない「ツイート」(ポスト)で使用されることが多いことを明らかにした。また,そのような「待って」は,送り手(書き手)自身の感情や評価の発露と共起することが多いことから,後続文とあわせて「感情・評価を揺さぶる何らかの出来事があり,かつ,それが送り手(書き手)個人にとって文字通り待ってほしいほどの緊急事態である」ということを表しているものと考えた。さらに,Yahoo!ブログ及びLINEチャットにおける用例とも比較を行い,X (Twitter)で特にそのような「待って」が用いられやすいことを推測した。
i3_C3:チャットにおける符号使用の印象評価のための予備的分析
発表者:岩崎拓也(筑波大学)、市江愛(東京都立大学)、井上雄太(国立国語研究所)
使用する言語資源:UniDic、符号印象評価テキストデータベース
本発表では、LINEなどのチャットアプリ(以下、チャット)内で使用される符号にたいする印象評価について検討する。チャットにおいて、句点「。」は文末を示すマーカーとしてだけではなく、なんらかの感情や態度を示している可能性がある。これらを明らかにするために、句点あり、感嘆符あり、符号なしのメッセージにたいして、読み手がどのように感じているのかをクラウドソーシングを使用した自由記述アンケートを300件程度実施し、符号印象評価テキストデータベースを作成した。このデータベースにたいしてテキストマイニングを行い、符号の有無や種類による印象評価を可視化し、各特徴を明らかにする。
Dルーム (14:25 〜 15:25)
i3_D1:ごっこ遊びにおける養育者の関与
発表者:居關友里子(国立国語研究所)、小磯花絵(国立国語研究所)
使用する言語資源:CEJC-Child
「ごっこ遊び」は子どもの言語やコミュニケーションの発達を促す機会であるとともに、子どもが好んで行う遊びの一つである。家庭でごっこ遊びが遊ばれる際にはしばしば養育者がこれに参与し、子どもが自らの想像によって場面を組み立て、これを実現する活動に貢献している。本研究ではごっこ遊びにおいて養育者がどのようにここに参与しているのかについて、国立国語研究所で現在構築中の『子ども版日本語日常会話コーパス』に格納予定である幼児と養育者の会話データを用い記述・考察を行う。
i3_D2:家庭における子どもの談話の脱文脈度の観点からの分析
発表者:田中弥生(国立国語研究所)、小磯花絵(国立国語研究所)
使用する言語資源:『子ども版日常会話コーパス』内部公開版
本研究は、修辞機能分析の分類法による日常会話分析の一環として、幼児の談話について、修辞機能を確認し、脱文脈度の観点から検討するものである。本研究において、脱文脈度は「発話がコミュニケーションの場「いま・ここ・わたし」にどの程度依存しているか」の程度を表す概念とする。本発表では、現在構築中の『子ども版日本語日常会話コーパス』の内部公開データから、家庭での親子による談話と、親戚が来訪した際の談話を対象に、話題内容、参与者、状況の違いによる修辞機能の出現と、それらとの脱文脈度の関連を検討する。
i3_D3:パン作りの場面における親子の会話から見るオノマトペの使用についての考察
発表者:江口典子(国立国語研究所)
使用する言語資源:日本語日常会話コーパス(CEJC)
本発表では『子ども版日本語日常会話コーパス』の収録データから、パン作りの過程における保護者と子ども(4歳8ヶ月)のオノマトペの使用を考察する。パン作りという課題遂行までに保護者と子どもの多様なオノマトペの使用が見られる。収録の中で見られるオノマトペには、パンの様子やパンを作る動作を想起させるもの、子どもに保護者の行動を伝えるための使用などが見られた。また子どもは保護者の使用するオノマトペを継承しながら、自らもオノマトペを使用し、保護者の問いに反応し会話を進めていく様子が伺えた。本発表ではオノマトペが親子の会話の中でどのような役割を果たしているかを考察する。
8月29日(木)口頭発表(5)
時間:15:35〜16:50
場所:Zoom
o14:漢語の連体形の諸相―辞書記述の精密化に向けて―
発表者:庵功雄(一橋大学)
使用する言語資源:現代日本語書き言葉均衡コーパス(BCCWJ)
日本語では名詞を修飾する際に語が取る形態(連体形)が様々であるが、こうした情報は本来、非日本語母語話者が参照できる形で、日本語学習者向けの辞書や国語辞典に記載されているべきものである。本発表では、辞書に掲載すべき統語情報整備の一環として、旧日本語能力試験出題基準収録の漢語について、BCCWJのデータを用いて、それらが連体修飾で用いられる際の連体形の具体的な形態を整理し、それらの類型ごとにその特徴を記述し、辞書記述のために必要な情報のあり方を考えたい。
o15:A corpus-based cognitive semantic analysis of the polysemy of the Japanese temperature adjective tsumetai
発表者:Wang Haitao(Kyoto University)、Huang Haihong(Kyoto University)、 Zhong Yong(Nanjing University of Aeronautics and Astronautics)
使用する言語資源:現代日本語書き言葉均衡コーパス(BCCWJ)、Child Language Data Exchange System(CHILDES)
Meaning is grounded in human sensorimotor experiences, which include our experiences of temperature phenomena. The study of temperature concepts provides a fundamental perspective to explore cognitive mechanisms. Temperature term tsumetai (cold) constitutes a crucial concept in the basic temperature domain. This study adopted a corpus-based approach to explore the semantic structure of the polysemous Japanese temperature adjective tsumetai. First, 4,402 instances of tsumetai were retrieved form the Balanced Corpus of Contemporary Written Japanese (BCCWJ). Manual analysis and semantic annotation of each instance were performed based on eleven dictionaries and sense-identifying criteria. Consequently, eight senses of tsumetai were identified. Second, sense 1 : (of objects) having a relatively low temperature was identified as the prototype of tsumetai based on its frequency and earliest acquisition. Sense 1 is the most frequently occurring sense in the BCCWJ data (57.20%), indicating its predominance in the semantic network. Also, sense 1 is the earliest acquired and used sense in the Sumihare component of the CHILDES corpus. Third, semantic extension mechanism among each sense was analyzed by means of cognitive principles including metaphor, metonymy, and specialization. The semantic extensions of tsumetai shift from physical tactile experience to emotional states and abstract characteristic evaluation. Within the semantic extensions of tsumetai, temperature domain can be mapped to domains of color, emotion, manner, relationship, and atmosphere. Finally, a hypothesized semantic network of tsumetai was constructed to present the semantic relationships between the prototype and extended senses. New senses and usage characteristics of each sense identified in this study may serve as a reference for Japanese language teaching and lexicography. The patterns of semantic shift revealed in this study can provide a valuable reference for the semantic analysis of other temperature adjectives in Japanese or other languages.
o16:小説のセリフの書き分けに使われる文末形式
発表者:佐藤理史(名古屋大学大学院工学研究科)
使用する言語資源:小説のセリフを抽出したデータ(自作)
日本語の小説では、主要登場人物(キャラクタ)のセリフを、人物毎に異なる話し方スタイルで記述する技法が、しばしば用いられている。「セリフの書き分け」と呼ばれるこの手法は、日本語の話し言葉に、スタイルに関わる多くの選択肢が存在していることを利用している。本稿では、エンターテイメント小説・ライトノベル10作品に登場する24名のキャラクタのセリフから文末の形式を収集し、整理・分析を試みる。整理・分析では、(1)調査対象とする文末形式の範囲を定め、(2)それらを機能に基づいて分類した後、(3)話し手に応じて置換可能と考えられる文末形式を整理する。
8月29日(木)クロージング
時間:16:50〜17:15
場所:Zoom