言語資源活用ワークショップ2021:プログラム
参加に際しては、参加登録が必要です(参加費無料)
9月13日(月)オープニング 10:00~10:20 (zoom)
9月13日(月)ポスターセッション1(学生セッション)10:40~12:00 (slack/zoom ブレイクアウトルーム)
p1-1s:現代短歌における字余りとリズムの考察
発表者:俵匠見(宮崎県立五ヶ瀬中等教育学校)
現代短歌は、字余りでもリズムの乱れを感じにくい場合がある。「名前 のみ読み上げられる祝電のしゅうぎいんぎいんさんぎいんぎいん 松村正直」の下の句 は8・8だが、乱れているだろうか。本研究は、現代短歌のアンソロジー歌集に収録 された約2000首を対象に、字余りの傾向を分析した。字余りの歌が、第何句でどんな音を含んでいるかを分類し、特に、字余りでもリズムが乱れていないと感じる歌について考察したものである。主に三つの分類項目、1字余りが発生している句の場所、2字余りの句の中に、撥音、促音、拗音、長音、二重母音などの特殊な音が含まれているか、3助詞が含まれているか、の情報を結び付けながら分類した。その上で、全国の現代短歌詠者にアンケートを取り、字余りの感覚を調査した。本論文は、現代短歌の字余りを分析することで、定型の定義を再検討するものである。
p1-2s:対のある自他動詞における日本語学習者の誤用例の傾向 -「寺村誤用例集」と「I-JAS」の比較-
発表者:沖本与子(一橋大学)
本発表は,日本語学習者の「対のある自他動詞」における誤用例を調べるために,寺村(1990)『外国人学習者の日本語誤用例集』(以下,寺村)と『多言語母語の日本語学習者の横断コーパス:I-JAS』(以下,I-JAS)に出現する誤用を検索・比較することを目的とする。まず寺村の誤用例を分析した結果,本来他動詞を使うべき場面で自動詞を使用した例がその逆の1.8倍であること,母語別の有意差がないこと,助詞と動詞の組み合わせでは動詞の間違いが出現していることが分かった。一方I-JASでは寺村の誤用例で出現した動詞が,発話・会話データを合わせて11~5,999件確認され、助詞と動詞の組み合わせでの誤用が一定数現れることが分かった。双方の誤用には用例数の違いはあるが,質的に大きな差がないことが確認された。寺村とI-JASは25年の差があるが,少なくとも対のある自他動詞では,その誤用の傾向は変わらず,年代の違いがあるが,日本語学習者は同じ間違いを行っていることが確認された。
p1-3s:歌詞における二重表記の使用実態と変化:「J-POP」が誕生した後の10年間において
発表者:胡佳芮(一橋大学)
本稿は「J-POP」という概念が誕生した後10年間において,日本の流行歌の歌詞における二重表記の使用実態と変化を考察したものである。日本語は複数の文字体系が使用されているため,一つの語に対し,異なる文字体系を使って表記することができる。例えば,時間の意味を表す「トキ」という語の場合,漢字の「時」で書くのが一般的だが,ひらがなの「とき」で書いても良いし,カタカナの「トキ」という書き方も可能である。さらに,歌詞など特定の分野においては,「時間(とき)」のように語の直後に括弧を付け,読み方を括弧の中に示すという二重表記も存在している。そこで,本稿は1990年から1999年まで各年度オリコン年間ランキングトップ50入りの楽曲の歌詞を調査し,この10年間において歌詞における二重表記の使用実態と変化を考察した。その結果,二重表記が使用されている曲は調査曲数のうち約20%を占めており,これらの20%の曲において,二重表記は一曲あたりに2回の出現頻度で使用されることが判明した。二重表記の出現率は1990年から増加し,1993年と1994年において最大値となり,その後減少するという通時的変化が見られた。
p1-4s:壁塗り代換に共起する結果述語形容詞の予備調査 :係り受け解析器を利用した統語構造に基づくデータ抽出の一実践
発表者:小川雅貴(東京大学) 岸山健(東京大学)
「塗る」のような壁塗り代換を起こす日本語の動詞には,「動作によって移動する移動物」を目的語で表す移動物目的語構文(「壁にペンキを塗る」)と「動作の生じる場所」を目的語で表す場所目的語構文(「壁をペンキで塗る」)がある。両構文に共起する結果述語は,移動物目的語構文内で斜格語を修飾したり(「壁にペンキを【赤く】塗る」),場所目的語構文内で目的語を修飾したり(「壁をペンキで【赤く】塗る」)して,「場所」の変化を表せる。しかし,同じ叙述対象の状態変化を表すのに,両構文のいずれが選ばれる機能的な理由や,両構文が使い分けられる環境は明らかでない。そのため,両構文での結果述語が,場所と移動物のどちらの変化を表する傾向が強いか調査する。ここでは,結果述語として形容詞連用形を取り上げ,形容詞が壁塗り代換動詞に係る文を分析する。さらに,「現代日本語書き言葉均衡コーパス」データに係り受け解析器KNPを適用し,統語構造に基づいてデータを抽出した過程も詳述する。
p1-5s:アジア/ヨーロッパ言語母語の日本語学習者による品詞使用量の差異―I-JASの2つの作文タスクを用いた調査―
発表者:西島光洋(清華大学 / 東京工業大学)
本研究では、アジア言語母語およびヨーロッパ言語母語の中級日本語学習者(以下それぞれアジア/ヨーロッパ言語母語話者)による各品詞の使用量の差異を調査した。計11母語の日本語学習者それぞれに対して、I-JASのストーリーライティング(SW)タスクとエッセイ(E)タスクそれぞれにおける、各品詞(大分類・細分類)のトークン数とタイプ数の頻度を計算した。その結果、対象とする母語数を増やすと、先行研究で指摘されていたアジア/ヨーロッパ言語母語話者間の差異が確認されなくなる場合があることが分かった。また、タスクによって、アジア/ヨーロッパ言語母語話者間の差異が確認できる品詞は異なることも分かった。特に、ヨーロッパ言語母語話者はアジア言語母語話者と比べて、SWタスクでは終助詞を多用する一方で、Eタスクでは口語的な助詞を豊富に使用することが判明した。この結果を基に、ヨーロッパ言語母語話者が書く文書には、文書のジャンルに依らない、文体上の共通点が存在する可能性を指摘した。
p1-6s:絵文字の統語的分類に関する調査
発表者:岡本沙紀(東京大学) 落合哉人(筑波大学)
絵文字は、1999年ドコモ「iモード」サービス開始以降日本で普及し、GメールやiPhoneが日本参入しUnicodeに登録されたことから世界中に広まった。以来、絵文字は単なる感情や挿絵を付加する記号の枠を超え、語用論的な研究の対象になっている。しかしながら、これまでの絵文字の用法に関する調査は、小規模なものや、自然言語処理的な手法のものが多かった。本研究では絵文字に馴染み深いと思われる15~40歳を対象に、1680個の絵文字の用法について、「体・用・相のうちどれを表すのに使うことができるか」を複数選択可のアンケートで調査した。その結果、顔の絵文字は体言性が弱く相言性が突出して強いこと、交通手段を用いる絵文字では用言性が顕著に高いこと、また食べ物と動物は共通して強い体言性と弱い相言性が見られたが食べ物の方が用言性が強いことなど、絵文字の意味によって特徴ある分布が見られた。
p1-7s:書き言葉における日本語学習者の副詞の使用実態 -I-JASを用いて中国・韓国語話者を中心に-
発表者:島崎英香(専修大学)
副詞は文体によって使い分けが求められる品詞であり学習者にとっては選択の困難な品詞であることが考えられる。本発表ではI-JASを用いて中国語を母語とする日本語学習者(以下、中国語話者)と韓国語を母語とする日本語学習者(以下、韓国語話者)の書き言葉における副詞の使用実態を調査し、学習者にとっての困難さがどこにあるのかを探る。具体的には、I-JASを用いて、定量的な観点から、以下の3点について分析する。 ① 中韓学習者の副詞の使用状況を習熟度別に調査し、その使用傾向を分析する。 ② 中韓学習者の副詞の使用状況をタスク別に調査し、その使用傾向を分析する。 ③ 中韓学習者(海外)と国内教室環境の学習者の「書き言葉」における使用状況を 比較、分析する。 (1)から(3)の分析結果から、それぞれの過剰使用・過少使用の副詞を特定し、それらの副詞が具体的な文脈においてどのように使用されているのか(あるいは使用されていないのか)という点について、質的に分析する。
9月13日(月)音声言語スペシャルセッション 13:00~15:20 (zoom)
o1-1:リアルタイムMRI動画データベースプロジェクトの概要と調音音声学への応用
発表者:前川喜久雄(国立国語研究所)
発表者らは2017年以来、リアルタイムMRI動画撮像技術を用いた日本語調音運動のデータベースを構築してきており、本年4月にその一部(標準語話者10名分)を試験公開した。本発表ではスペシャルセッションへの導入を兼ねて、まずプロジェクトの紹介をおこなった後に、リアルタイムMRI動画が調音音声学研究にもたらす革新の可能性を論じ、次いで標準語について、これまでに得られた分析結果を示す。①日本語の発話末撥音は従来多くの教科書類に口蓋垂音と記載されてきたが、実際には直前の母音によって口蓋全体にわたって大幅に移動していること、②日本語ワ行子音には二重調音が行われている痕跡は確認できず、調音位置は両唇にあると考えられること、③日本語の「ヒ」と「シ」の子音は、正中断面に関する限りほぼ同一の調音位置を保ちながら、冠状面の特徴を変化させ、同時に流量を制御することによって、調音しわけることができること、④その他
o1-2:リアルタイム MRI 調音動画データの閲覧および解析環境の開発
発表者:浅井拓也(早稲田大学) 菊池英明(早稲田大学) 前川喜久雄(国立国語研究所)
近年の MRI 装置の性能向上および高度なサンプリング技術の適用によって , 音声発話時の調音運動をリアルタイムで撮像することが可能になった . リアルタイム MRI ( 以下 rtMRI) データは , 声道の正中矢状面全体の情報が含まれ , 調音音声学の再構築を促す可能性を秘めている . しかし , 収集されたデータに対する転記方法や分析方法は整備されているとは言いづらく , 単にデータを公開するだけでは rtMRI データに基づいた調音音声学研究は普及しにくいと予想される . そのため, 我われは過去に rtMRI データ閲覧ツールとして MRI Vuewer の設計と開発を行った . 上記ツールは rtMRI データの音声的 , 時間的側面の転記機能を有するものであったが , 画像的 , 空間的側面の転記機能に不足があった .そのため , 本研究では近年行われた rtMRI データを用いた研究から画像的 , 空間的側面の転記に必要な機能を整理し, rtMRI データ解析ツールとして MRI Vuewer の再設計と再実装した結果を報告する .
o1-3:リアルタイムMRI動画から抽出した声道の輪郭に基づく平均声道の基礎的検討
発表者:竹本浩典(千葉工業大学) 天野沢海(千葉工業大学)
われわれはリアルタイムMRI動画による日本語調音運動データベースの構築に取り組んできた。動画のフレームにおける調音器官の輪郭はあいまいであるため,調音器官各部の運動速度や運動タイミングなどを定量的に分析するためには,動画の各フレームから声道の輪郭を点群として抽出する必要がある。そこで,まず,18名の話者(男性12名,女性6名)を選択し,調音器官の5つの部位ごとに概形をクラスタリングした。次に,その結果に基づき,手動で輪郭をトレースする話者と動画フレームを決定して,トレースしたデータから調音器官の輪郭を自動抽出する学習器を生成した。そして,この学習器を用いて,全ての話者の動画データから輪郭を抽出し,抽出精度を定量的・定性的に評価した。その結果,学習器に含まれていない話者であっても,それどころか概形のクラスタリングに含まれていない2名の話者であっても,学習器に含まれている話者と同程度の精度で輪郭を抽出することが可能であることが明らかになった。また,すべての話者の各調音器官の輪郭は,解剖学的に相同な始点と終点の間を等しい点数の点群で抽出されているので,点群を等間隔に変換し,座標系を統一することで平均声道を求め,声道形状の形態の変異を分析することができると考えられる。そこで,まず,18名の話者の安静呼吸時(発話直前の状態)の動画フレームにおける調音器官の輪郭を構成する点群を等間隔に変換した。次に,前鼻棘が原点となるように平行移動した後,前鼻棘と後鼻棘が水平になるように回転移動した。そして,全ての話者の対応する点の幾何重心を計算することによって平均声道を求め,主成分を分析した。その結果,第1主成分は寄与率40%で声道の大きさを表し,第2主成分は25%で頭蓋骨と頸椎の角度の個人差を表し,第3主成分は9%で頸椎や下顎の前後位置の個人差を表すことが明らかになった。
o1-4:口蓋3次元データの作成とWAVEでの発話計測実験への応用
発表者:能田由紀子(国立国語研究所) 北村達也(甲南大学)
EMA(electromagnetic articulography)は、発話時の舌や唇上のセンサの位置を、rtMRIと比較して高い時間分解能で計測可能である。われわれは,EMA の 1 種である WAVE(Wave speech research system)を使って調音運動を計測してきた。しかしWAVEではMRIと異なり直接発話器官の形態の計測を行うことができないため,データの解析には咬合面や口蓋の正中矢状断面のなどの形状を採取する必要がある。WAVEでは従来,目視でプローブを用いた正中矢状面の計測が行われていたが,より恣意性の少ない、安全性の高い方法が必要とされている。そこで我々は歯列の印象を採取しその位置情報をWAVEのセンサで取得しておき,3D スキャナで計測した印象から抽出した口蓋の形状などを剛体変換により WAVE の座標系に移動させることで,より精度の高い計測を安全に行う手法を開発したので報告する。
o1-5:転置畳み込みニューラルネットワークを用いたrtMRIデータからの調音-音響変換
発表者:丹治涼(東京理科大学) 大村英史(東京理科大学) 澤田隼(東京理科大学) 桂田浩一(東京理科大学)
本発表では,rtMRIデータから音響特徴量を生成するための深層学習モデルを提案する.調音器官全体を高解像度で記録できるrtMRIは,調音データから音響特徴量を生成するための元データとして有用であると考えられるが,フレームレートが比較的低いという問題がある.そこで我々は,転置畳み込みニューラルネットワークを用いて時間軸方向に超解像処理を行う方法を提案する.標準的な畳み込みニューラルネットワークが畳み込みによって主に画像の近隣情報を圧縮するのに対して,転地畳み込みニューラルネットワークではこの逆の操作を行うことにより,画像の解像度を向上させる.本手法ではこの超解像処理をrtMRIデータの時間方向に適用することによって,rtMRIデータの時間解像度を向上させる. メルケプストラム歪みとPESQを評価尺度とする実験の結果,転置畳み込みニューラルネットワークは正確な音響特徴量の生成に有効であることがわかった.また,超解像の倍率を上げることで,音声の自然性を表すPESQのスコアが向上することも確認した.
9月13日(月)ポスターセッション2 15:40~17:00 (slack/zoom ブレイクアウト ルーム)
p2-1:クックパッドの料理名におけるオノマトペと記号の基礎分析-ABAB型オノマトペと顔文字の使用に着目して-
発表者:岩崎拓也(国立国語研究所) 福留奈美(東京聖栄大学) 伊尾木将之(クックパッド株式会社(慶應義塾大学))
本発表では、料理レシピの料理名に着目し、オノマトペと顔文字、記号がどのような関係にあるかを明らかにするにあたって、その基礎的な分析を行うことを目的とした。 分析方法としては、まず、2002年から2017年までの16年間にクックパッドに投稿されたレシピから、45種類のABAB型の畳語(オノマトペ)が使用されているレシピ名を抽出し、形態素解析にかけた。なお、形態素解析するさいには、自作の顔文字辞書を使用し、各記号に分割されやすい顔文字を網羅的かつ解析漏れがないように工夫した。 その後、このデータを用いて、レシピ名で使用されやすい記号と顔文字の種類、その多寡についてまとめ、特徴を明らかにした。さらに、オノマトペと顔文字の使用の関連性について分析し、オノマトペごとに使用されやすい顔文字の特徴を明らかにした。
p2-2:『現代日本語書き言葉均衡コーパス』新聞記事情報を用いたジャンル別語彙分布
発表者:加藤祥(目白大学) 森山奈々美(なし) 浅原正幸(国立国語研究所)
コーパスに付与されたジャンル情報を用いることにより,ジャンル毎の語彙分布の傾向が確認される。しかし,レジスタによる文体差の影響や,ジャンルの分類基準の問題が考えられる。そこで,本稿は,文章内容情報が付与された文体的な影響の少ないコーパスを用い,品詞分布・語彙分布・語義分布に内容別の傾向が見られることを確認する。具体的には,『現代日本語書き言葉均衡コーパス』の新聞サブコーパス(PN,1,473サンプル)に含まれるサンプルを記事単位(5,585記事)に分割し,記事ごとの内容情報や種別情報を付与した(加藤ほか 2020)データを用いる。分類語彙表番号の付与されたBCCWJ-WLSP(加藤ほか 2019)と重ね合わせることにより語義分布も調査する。
p2-3:子どもの発話順番取得のストラテジーに関する予備的考察 ―園児の話し合い活動の事例分析から―
発表者:居關友里子(国立国語研究所) 小磯花絵(国立国語研究所)
話し合い場面では、述べ合った意見を合意に向けて調整することが行われるが、議論が白熱している場合には、意見を述べる機会を得ること自体が参加者にとって一つの関心事となり得る。幼い子ども同士が話し合いに取り組む場合には、この発話の機会の取得はより一層の課題となっている。本研究では、幼稚園で収録した園児同士の話し合い場面のデータを観察し、園児たちが発話順番を取得・維持することや、産出する発話を他の参与者に聞いてもらうことに向けて、どのように振る舞っているのかについて記述することを通して、子どもの発話順番取得のストラテジーについて考える。 データからは、園児たちが順番取得と同時に意見を述べるのではなく、一旦順番を取得し「あと一個あるんだよ」などの予告を行ったり、「これはどう?」など、具体的な内容を代名詞要素で埋めた提案を行ったうえで、改めて意見を述べる様子が観察された。これは大人も用いていることが指摘されている、発話の機会を確保するための合理的なストラテジーである。子どもたちの実際のやり取りにおいて、これらのストラテジーは必ずしも功を奏しているわけではなかったが、園児たちはこのような実践を通して相互行為上のストラテジーとそれらへの対応について学んでいると考えられる。
p2-4:医学書テキストのたとえる表現―「ような」、接尾辞「様(ヨウ)」の特徴
発表者:三枝令子(専修大学) 本多由美子(一橋大学、国立国語研究所)
医学の分野では、医師が患者の状態を把握する際「頭が割れるように痛い」といった「たとえる表現」が少なからず用いられるという。本発表では、「医学書」に現れる「たとえる表現」のうち、特に頻度の高い「ような」と、語源が同じ接尾辞「様(ヨウ)」を取り上げ、用法、特徴を分析した。調査には医学書3冊のテキスト(延べ約305万語)を用いた。分析の結果、①「ような」には、指示、比喩、例示用法等が認められるが、比喩用法は、被修飾名詞が痛み、動きなどの感情・感覚名詞の時に現れること、②「用言+ような」「のような」「様」と前接表現の叙述性が薄れるにつれ、後接の表現が固定化していき、一語性が強まることが明らかになった。
p2-5:明治初期の口語体書き言葉における一人称代名詞
発表者:近藤明日子(人間文化研究機構 / 国立国語研究所)
明治・大正期、論説文・報道文等の実用的な書き言葉において文語体から口語体へ文体が転換するに伴い、そこで使用される一人称代名詞の語群にも通時的変化が見られる。その変化の初期の姿を明らかにするため、『日本語歴史コーパス 明治・大正編Ⅲ明治初期口語資料』を資料とし、口語体書き言葉の萌芽とされる明治初期の文章における一人称代名詞の使用実態を考察した。その結果、資料ごとに使用される一人称代名詞に偏りがあり、そこから雑多な形式が混在する当時の口語体書き言葉の様相が明らかになった。
p2-6:「は」と「が」の使い分けのあり方を定量的に確認する試み
発表者:庵功雄(一橋大学)
「は」と「が」の使い分けは日本語学習者が最も難しいと考える文法項目である。これについては、庵(2018)でフローチャートが提案されているが、その定量的妥当性は検討されていない。本発表では、CSJ-RDB ver.2.0を用いて、「が」「は」で始まる節の「が」「は」で始まる文節の係り先を考察した。係り先の違いを、文末に相当する絶対境界、南(1974)のC類に相当する強境界、同じくB類に相当する弱境界に関して、「が」と「は」で3×2のカイ二乗検定を行って検討した結果、カイ二乗値は有意で、残差分析の結果、絶対境界の「が」と弱境界の「は」が有意に少なく、絶対境界の「は」と弱境界の「が」が有意に多かった。この結果は、庵のフローチャートの妥当性を定量的に裏付けるものである。 引用文献 庵功雄(2018)『一歩進んだ日本語文法の教え方2』くろしお出版/南不二男(1974)『現代日本語の構造』大修館書店
p2-7:テキストにおける同音異義語の分布
発表者:山崎誠(国立国語研究所)
日本語には漢語を中心に同音異義語が多いと言われる。国立国語研究所(1961)『同音語の研究』は同音異義語に関する総合的な研究であるが,実際の個々の文脈において同音語がどのくらい出現するかという調査は管見の限り見当たらない。本研究では『現代日本語書き言葉均衡コーパス』を利用して,1サンプル中に漢語の同音異義語がどの程度現れるかを調査したものである。調査単位は短単位である。結果は,調査した図書館書籍(LB)の10551サンプルのうち,95.4%のサンプルに同音異義語の組が少なくとも1つ現れていた。同音異義語の組み合わせで多かったもの(頻度10以上)1082組を見ると,7割弱は「方・法」や「社・者」のような一字漢語が多く,「以上・異常」「自信・自身」のような二字漢語同士の組み合わせは約3割であった。またテキストに出現する同じ読みを持つ二字漢語の組み合わせを調べると,少なくとも約6割のサンプルに同音二字漢語の同音異義語が現れていることがわかった。
p2-8:『日本語日常会話コーパス』で観察される日常会話音声のF0の多様性
発表者:石本祐一(国立国語研究所)
パラ言語情報や感情の影響により音声のF0が様々に変動することが知られているが、日常生活の多様な状況を網羅するような音声データはこれまで存在せず、日常話されている音声のF0がどのようなものであるか大規模な分析を行うことが困難だった。国立国語研究所で構築を進めている『日本語日常会話コーパス』は多様な種類の日常会話をバランス良く収録した大規模コーパスであり、このコーパスを活用することで日常会話音声の様々な面を観察することが可能となる。本稿では、『日本語日常会話コーパス』モニター版(2018年度版・2020年度版)とこれまで日本語自発音声の大規模コーパスとして幅広い分野で活用されてきた『日本語話し言葉コーパス』のそれぞれの音声の分析を通して、日常会話音声において観察されるF0の多様性を示す。分析の結果、『日本語日常会話コーパス』に収録されている音声は『日本語話し言葉コーパス』よりも発話の平均F0が幅広く分布していることがわかった。
9月14日(火)Cradle講習会 9:30~10:15 (zoom)
t1-1:Cradle 講習会
こちらをご参照ください。
9月14日(火)ポスターセッション3 10:40~12:00 (slack/zoom ブレイクアウト ルーム)
p3-1:『現代日本語書き言葉均衡コーパス』出版書籍サンプルのNDC別語彙分布
発表者:加藤祥(目白大学) 浅原正幸(国立国語研究所)
『現代日本語書き言葉均衡コーパス』の書籍サンプルにはNDC情報が付与されており,構築当時に情報のなかった書籍などへの増補も行われた(加藤ほか 2021)。また,コーパスに付与されたNDCを利用することで,ジャンル別の特徴語の抽出などが試みられてきた(内田・藤井 2015)。しかし,一般動詞など,多義的あるいは補助的に使用される語は,語義情報なしでは語彙としての分布傾向が見られにくく,ジャンル横断的な分布となる。そこで,本稿は,増補したNDC(加藤ほか 前掲)を用いてジャンルの語彙分布を再確認するとともに,分類語彙表番号の付与されたBCCWJ-WLSP(加藤ほか 2019)と重ね合わせることにより,語義分布に内容別の傾向が見られることを確認する。
p3-2:『日本語日常会話コーパス』での形態素解析:誤解析箇所の分析
発表者:渡邊友香(国立国語研究所) 西川賢哉(国立国語研究所)
『日本語日常会話コーパス』(CEJC) の短単位情報付与作業では、次の4段階の作業工程、(i) 転記をMeCab(解析器)+ UniDic(解析辞書)で自動解析、(ii) 音声を聴取しながら、付加情報の一つである「発音形」のみを人手修正、(iii) 人手修正された発音形を尊重しつつ再び自動解析、(iv) 短単位情報(境界情報、発音形以外の付加情報)を人手修正、を踏んでいる。今後の(iv) 人手修正作業の参考とするため、人手修正済みデータを対象に、複数の版の現代話し言葉UniDic(Ver2.2.0, 2.3.0, 3.0.1, 3.1.0) を用いて(i)-(iii)を自動で実施し、その出力と人手修正結果とを比較した。その結果、UniDicの版が新しくなるにつれて誤解析の頻度が低下し、向上が見られたものの、誤りやすい個所がなお残っていることがわかった。特に、品詞が「記号」「代名詞」「接続詞」「名詞-助動詞語幹」「名詞-固有名詞-人名-一般」「名詞-固有名詞-一般」となるべき語は、UniDicの版が新しくなっても別の品詞として解析される、短単位境界を誤るなど、誤解析が起こりやすい。
p3-3:日本語日常会話における非並列用法の「とか」による引用の分析
発表者:臼田泰如(国立国語研究所)
本研究では,日本語による自然会話において,「とか」が物語の要素としての発話引用を構造的に配置する方法として用いられていることを論じる.「とか」について,「銅メダルとかとっちゃって」のような並列ではない用法は比較的近年において用いられ始めたとされ,研究はまだ多くない.とりわけ実際になされた会話に基づき,会話の中でのふるまいを経験的に分析した研究は管見の限りなされていない.本研究ではそのため,国立国語研究所において構築中の『日本語日常会話コーパス (CEJC)』モニター版をデータとし,会話分析の手法を用いて,具体的にどのように物語の中で「とか」が用いられるかを分析する.なお,ここでの物語とは,あるひとまとまりの出来事が時系列的に語られている発話連鎖を指す.また,本研究では発話者自身や第三者の可能な発話を引用するための標識として「とか」を用いている例に絞って分析する.
p3-4:発表取消
p3-5:現代日本語における漢語「正直」の副詞用法
発表者:東泉裕子(明治大学他) 髙橋圭子(東洋大学他)
本発表では、現代日本語の各種コーパスを用いて、漢語「正直」の副詞用法の使用実態を調査し、その結果を報告した。「正直」は、「正直、驚いた」のように、単独で副詞として使われ(以下、「正直φ」と呼ぶ)、話者の本心や本音を述べる際の前触れとして用いられることがある(森本1994、野田2011、飛田・浅田2018など)。また、「正直(ニ)イッテ」「正直ナ話」などの表現も、「正直φ」と同様の働きをしていると考えられる。以上をまとめて、漢語「正直」の副詞用法と呼び、使用実態を調査した。その結果、調査対象のコーパスにおいては、「正直」の副詞用法は書き言葉でも話し言葉でも広く使用されていること、「正直」の副詞用法が「正直」の全用例中、半数以上を占めること、「正直」の副詞用法のうち、「正直φ」と「正直イッテ」が8割近くを占めることがわかった。
p3-6:児童・生徒の作文で使用されている自称詞について
発表者:加藤恵梨(大手前大学)
小学1年生から中学3年生までの児童・生徒の作文を収集し、電子化した100万語規模のコーパスである『児童・生徒作文コーパス』を用い、児童・生徒がどのような自称詞を用いて作文を書いているのかを調査・分析した。その結果、女子児童・生徒は小学1年生から中学3年生まで「わたし・私」のみを使用していた。それに対し、男子児童・生徒は小学1年生から小学6年生までは「ぼく・僕」のみを使用しているが、中学1年生以降は「ぼく・僕」だけではなく「私」も使いはじめ、その他に「俺」「われ」「我々」なども使っていた。また、内容によってそれらの自称詞を使い分けている作文も見られた。さらに、小学校・中学校国語科教科書での自称詞の扱われ方が、作文における児童・生徒の自称詞の使い方に影響を与えていると考えられることも指摘する。
p3-7:マルチアクティビティにおける作業の優先と会話の補填:共同調理場面・他者化粧場面を例に
発表者:天谷晴香(国立国語研究所) 田中弥生(国立国語研究所)
日常会話は共同作業を行いながら成されることが多い。日常生活における共同作業は作業活動と会話活動のマルチアクティビティとして捉えることができる。参加者たちは相手の行動・発話とタイミングを調整しながら自らの行動・発話を行い、協力的に作業と会話を進捗させていく。作業の目的とは別に、会話には社会的関係を良好に保つ目的がある。良好な人間関係は作業の達成に間接的に寄与するが、直接的には会話の進行が作業の進行を妨げることがある。作業の見通しを誤ってある参加者がエピソードを話しはじめ作業の進捗を妨げる場合、別の参加者はエピソードへの反応が期待される位置で沈黙を保ったのち作業の指示発話を行い相手に作業への復帰を促す。作業再開後エピソードトークを遮った参加者が適宜先程のエピソードに言及するなどして会話活動の補填が成される。二者による料理場面、化粧場面から事例分析を行う。また発話はCloranの修辞ユニット分析を用いて分析し、特に脱文脈度の低い「行動」を示す発話を作業活動の指示発話の指標とする。
9月14日(火)招待講演 13:00~14:30 (zoom)
i-1:非同期分散マイクロフォンを活用する音響信号処理
発表者:小野順貴(東京都立大学)
さまざまな音が混ざりあう実環境において、混合音から目的音声を分離・強調したり、その位置や方向を推定したりするためには、複数のマイクロフォンを用い、得られた多チャンネル信号を処理する、マイクロフォンアレイと呼ばれる技術が有効である。近年では多くのスマートフォンや、Amazon Echo、Google Homeなどの最新のスマートスピーカーでも用いられている。一方、我々の身の回りには、スマートフォン、タブレット型モバイル機器、ノートPC、ビデオカメラなど、録音機能をもつ電子機器が多数存在する。こうした複数の異なる機器による録音は通常、同期していないため、従来はマイクロフォンアレイとして用いることができなかった。本講演ではこのような、同期しておらず、場合によっては位置も不明のマイクロフォンで録音された信号を、信号処理の工夫によって活用する、近年の新しいマイクロフォンアレイ信号処理を、応用例を交えながら紹介する。
i-2:日常会話の韻律への挑戦: 深層学習による話者混在音声の韻律の分析
発表者:森大毅(宇都宮大学)
音声のfo(基本周波数)推定は韻律研究の基本的方法である。とりわけ会話音声のfo推定は、音調音声学、パラ言語学、対話音声合成、音声からの感情の認識など、言語学・社会学・心理学・音声情報処理を含む広範な分野で重要な役割を果たしている。一方、日本語日常会話コーパスのように、収録場面を人工的に設定するのではなく、自然に生じた会話を収録する場合には、各話者の音声が音響的に分離されておらず、複数話者のfoが混じってしまう。本講演では、このような話者混在音声からfoを話者ごとに分離する技術を紹介する。この技術は、スペクトルおよびfo軌跡の話者性を表す「埋め込み」ベクトルをキーに、スペクトログラムに現れる音声の周期性から、fo軌跡らしい時間パターンを、各話者に対して抽出する。本講演では、この技術を元にした日常会話の韻律の分析に向けた展望を述べる。
9月14日(火)ポスターセッション4 14:40~16:00 (slack/zoom ブレイクアウト ルーム)
p4-1:フィッシュボウル方式のディスカッション練習における学習者のビデオアノテー ション結果の分析
発表者:山口昌也(国立国語研究所) 栁田直美(一橋大学)
我々はこれまでディスカッション練習などの教育活動の観察とふりかえりを支援するために,モバイル型の観察支援システムFishWatchr Mini(以後,FWM)を開発し,大学の授業におけるディスカッション練習に導入してきた。この練習ではフィッシュボウル方式を採用し,自らのグループのディスカッションと他のグループのディスカッションをFWMで観察する。そして,観察結果はビデオアノテーションとして記録され,自らのグループ,および,他のグループとの合同でのふりかえりで活用される。本発表では,学習者のビデオアノテーションをふりかえり活動の支援に活用することを目的として,ビデオアノテーション結果の分析を行う。分析は,観察の八つの観点(「意見の多様さ」「対等な関係性」など)と評価(「いいね」「うーん…」)の点から,(a)自グループ内での各メンバーの特徴,(b)グループ間での特徴を可視化することにより行う。本稿では,これまでの実践で得られている2グループのアノテーション結果を可視化し,グループのメンバー間,および,グループ間の相違点,類似点を示すとともに,ふりかえり時に参照するのに適したシーンを抽出する。
p4-2:「つまり」による換言に及ぼす文脈の影響
発表者:櫻井芽衣子(日本工業大学)
換言の接続表現「つまり」は、先行部を具体的に説明したり、要点をまとめたり、分かりやすく言い換えたりすることを示す。「つまり」による換言の様相を『現代日本語書き言葉均衡コーパス』で見ると、先行部と後続部の結びつきが百科事典的知識に基づいているため文脈から切り離しても換言が成立するものと、文脈から独立させると換言が成立しているかどうか判断できないものとがある。先行部と後続部の結びつき自体に文脈の影響があるといえる。また、文脈より換言の内容に関わる情報を得ることもあれば、換言の観点に関わる情報を得ることもある。異なるレベルで文脈が関与しており、特に、読み手の理解を促す換言のための情報提示という文脈の影響は、文章の一貫性を分析する上で重要な観点となると考えられる。
p4-3:日中バイリンガル児の中国語の発達に関する事例研究 —物の受け渡しにおける「谢谢(ありがとう)」に着目して—
発表者:滕越(東京大学 / 国立国語研究所) 小磯花絵(国立国語研究所)
本研究では、日中バイリンガル家庭で育つ幼児の中国語の発達について検討する。バイリンガル児の言語発達については、音韻や語彙、統語面からの分析があるが、養育者とのコミュニケーションの中でどのように言語発達が進むかについての研究は不十分である。本研究では、一事例として、日本語母語話者の母親と中国語母語話者の父親の間に育つ女児1名(1歳7か月から2歳0か月)の「谢谢(ありがとう)」の使用を分析した。その結果、(1) 相互行為上、「谢谢」は主に養育者から物を受け取った後に使用されるが、物を渡した後や受け取る前にも産出されることがある、(2) 構文の面では、成人の典型的な用例以外にも、「谢谢+物を受け取った側」、「物を渡した側+谢谢+物を受け取った側」など、多くのバリエーションがある、(3) 養育者は中国語能力にかかわらず女児の「谢谢」使用に対し肯定的であるが、中国語能力に応じて異なる役割を担っていることが明らかになった。
p4-4:応答発話に用いられる「私は」と「私」
発表者:金青華(筑波大学)
一人称代名詞は非明示するのが一般的であるが、すべての一人称代名詞が現れないわけではない。実際の日本語母語話者の自然会話をみても、述語や談話の場面性により一人称代名詞が推測される状況でも明示される場合がしばしばみられる。Ono and Thompson(2003)は、明示的な一人称代名詞は話し手を明示的に指示するためだけでなく、談話の語用論的または相互作用的な機能を果たすためにも用いられると指摘している。本研究は相互行為上の一人称代名詞の役割を明らかにすることを目的とし、日本語母語話者が一人称代名詞を用いて、応答発話を組立てる現象を、会話分析の手法を用いて分析する。本研究では、主にいわゆるトピックマーカーである「は」が付いている「私は」と助詞が付いてない「私」が用いられる応答発話を調べることにより、「私は」と「私」が相互行為上、異なる役割を果たしていることを記述する。
p4-5:発表取消
p4-6:「みんなの意見」から物語を生成できるか ーソーシャルリスニングによる物語生成の可能性ー
発表者:春木良且(フェリス女学院大学) 伊藤玲美(上智大学)
SNS上の投稿を、人々がその対象に対して抱く感情的な側面(サイコグラフィック変数)の表出と考え、それらを収集、分析するソーシャルリスニング手法は、マーケティング調査の重要な手段である。本研究では、ソーシャルリスニングを通した、特定のサービスや商品などに関する、物語性を持ったコンテンツ生成の可能性を検証する。 物語を用いた情報伝達には、受け手側の認知や共感を高めるといった効果がある。しかし対象からどういう物語を生成、記述するかといったことに関しては、人間の感性、創造性に依存する部分があり、自動化、一般化することは難しい。そのため物語生成は、AI研究の応用としても、研究がなされている。 本研究では、特定の対象に関する、SNS(Twitter)での表現に着目する。人々のサイコグラフィック変数を集約、分析することで、多くの人々による、対象に纏わる物語性が出現するのではないだろうか。こうした仮説に基づき、特定の対象についての、Twitter上での発信の語彙分析を行い、物語記述のための静的構造(時間、場所、行動主体、行動客体)の抽出と、物語を生成する可能性について、試行し検証する。
p4-7:児童作文における係り受け距離と階層距離
発表者:今田水穂(筑波大学)
係り受けの距離と深さを用いて、文の複雑さを定量的に評価する方法を検討し、児童作文における文の複雑さの発達を分析する。文節数nのとき、係り受け距離平均mddの最大値はn/2、最小値は1なので、平均値は(n/2)^aで表現できると予想される。また、文節数n、係り受け距離平均mddの文の構造パターン数F(n,mdd)を計算したところ、その分布は対数正規分布に従うようである。実際のデータでは全ての構造が等しい確率で生起するわけではないが、その分布もまた対数正規分布に従うことが予想される。階層距離(係り受けの深さ)の平均mhdも同様である。そこで、実際のデータにおけるmddとnの関係をlog(mdd)=a log(n/2)と仮定し、これに学年、個体などの変量効果を加えたLMMを行うことで、mddおよびmhdの言語発達研究における有用性を検討する。