言語資源ワークショップ2022:プログラム
参加に際しては、参加登録が必要です(参加費無料)
発表番号の末尾に「s」のついている発表は「言語資源ワークショップ:優秀発表賞」の対象となっています。
口頭発表の時間は1件あたり30分(発表20分+質疑応答10分)です。
タイトルおよび発表者の情報は申込時のものをそのまま使っています。
1日目:8月30日(火)
8月30日(火)オープニング
時間:9:30~9:50 場所:Zoom
8月30日(火)口頭発表セッション1(Oral Day1 AM)
時間:10:00~12:00 場所:Zoom
o1-1s:源氏物語における評価の形容詞
発表者:小原みと希(中央大学文学研究科国文学専攻)
本発表は源氏物語における評価の形容詞に着目し、登場人物がどのような評価基準を持っているのか、どのような認識を持っているのかを考察する。量的調査を踏まえたうえで、質的調査を行うことで、源氏物語の形容詞表現の特徴を紐解いていきたい。
o1-2s:「日本語日常会話コーパス」に見るABAB型基本オノマトペの音韻パタン:日本語教育の視点から
発表者:廉沢奇(神戸大学国際文化研究科)
本研究は、日本語日常会話において頻出する基本的なABAB型オノマトペ(例:どんどん、そろそろ)の音韻パタンの解明を目指したものである。調査では、まず、AとBの位置ごとに典型的な音韻(行・段・音)を特定した。その後、個別の音韻とコーパスジャンルをアイテムとする頻度表に対して対応分析を行い、ABAB型オノマトペの典型的な音の組み合わせを調べた。さらに、共起語調査によって、それらの意味傾向を考察した。最後に、清音語と濁音語にわけて共起語を比較・分析した。これらより、ABAB型オノマトペのA位置ではタ行イ段、B位置ではラ行ア段が多いこと、全体は4つのグループに大別され、共起語は「動作系」と「状態系」に分かれること、などが明らかになった。これらの知見は日本語教育にも一定の有用性を持つと考えられる。
o1-3:ユーザの特性情報付きチャットボットとの雑談対話コーパスの概要
発表者:伊藤紀子(同志社大学),岩下 志乃(東京工科大学),杉本 徹(芝浦工業大学), 林 篤司(東京工科大学), 卜 秋予(同志社大学大学院文化情報学研究科)
本発表では、構築中のチャットボットとの雑談対話コーパスについて紹介する。本コーパスは、参加者がチャットアプリを通してチャットボットと雑談したデータに対して「対話行為」のタグ、チャットボットの発言に対して「対話破綻」のタグを付与したものである。また、各雑談データに参加者の対話に関する印象・満足度、性格特性・社会的スキルの数値を付与している点で特色のあるコーパスとなっている。雑談データの概要を説明したのち、付与された2種類のタグと参加者の性別、性格特性、社会的スキルとの関連について予備的分析を行った結果を報告する。
o1-4:疑問・非疑問発話の韻律典型性を捉える試み-日本語母語話者と学習者の比較-
発表者:波多野博顕(筑波大学),王可心(神戸大院),陳凱僑(神戸大院),林良子(神戸大)
学習者による韻律の動態や母語話者との異同を客観的に捉え、その典型性を理解することは、より実態に即した音声教育を考える上で重要である。本発表では、複数の日本語母語話者および非母語話者(学習者)による疑問・非疑問発話を対象として、母語ごとにそれらの韻律を平均化することで定量的な比較を行なった結果を報告する。本発表で用いる言語資源は、科研「三重データコーパスを用いた日本語韻律の習得・評価に関する多面的研究」によって構築中の音声コーパス「KANI-J(Kobe Archive of Nonnative Intonation in Japanese)」である。発話の各音素区間に設定した参照点の位置を時間・foともに母語別に平均し、それらをスプライン補間することによって典型的な韻律外形を得た。比較の結果、母語話者と学習者では発話末における疑問上昇のみならず、上昇に至るまでのアクセント実現等にも違いが見られた。また、参照点の位置情報からクラスター分析を行ない、韻律の類型化を試みた結果も報告する。
8月30日(火)招待講演1
開かれた音声情報処理のためのコーパス
時間:13:00~14:00
場所:Zoom
発表者:高道 慎之介(東京大学)
8月30日(火)ポスターセッション1(Poster Day1 PM)
時間:14:10~15:40
(p1コアタイム:14:10〜14:55、p2コアタイム:14:55〜15:40)
場所:Zoom/ブレイクアウトルーム
p1-1s:日本語学習者による用例を通時的観点で分析可能とするコーパス開発の意義とその可能性
発表者:上出 大河(國學院大學大学院文学研究科)
日本語学習者による用例を対象としたコーパスとしては、「多言語母語の日本語学習者横断コーパス(I-JAS)」や「中国語・韓国語母語の日本語学習者縦断発話コーパス(C-JAS)」、「学習者作文コーパス なたね」等が整備されている。しかし、これらはいずれも共時的な誤用分析、中間言語分析を行う際には有効であるが、通時的な分析を加えようとする際にはその採録対象の時期的な偏りのためにある種の困難がつきまとうこととなる。そこで本発表では、学習者の用例の質的な変遷の有無等を通時的な視点で分析することの重要性並びに『御大礼記念児童文集』(1929年)や『全国小学児童綴方展覧会』(1936)等の資料から非母語話者の用例を採録したコーパス開発を行うことの可能性及び制約について簡略的に提示することとする。また、未だ問題点が多いが、発表者が現在構築中である日本語教育黎明期の作文資料を対象としたテキストコーパスも提示したい。
p1-2:「急性」を含む病名の語構成
発表者:相良かおる(西南女学院大学),西嶋佑太郎,東条佳奈,高崎智子,山崎誠
病名には、「急性骨髄性白血病」など「~性」が複数含まれるものが多い。これらには、「性」が無くても意味が変わらないものがある。今回、『現代日本語書き言葉均衡コーパス』(BCCWJ)に出現した病名の内、「~性」を二つ以上含みその内の一つが「急性」である病名28語についてBCCWJ、医師経過記録、多職種共有の経過記録での出現頻度を求め、分析を行った。
その結果、①「急性」は語頭に多く出現すること、②医療現場では使われない病名があること、③医療現場では「急性」無しの病名が多く使われていること、④「急性」とその他の「~性」の語順を変えた同義語が存在することが分かった。
p1-3:史的文字連携システムAPIの利用:東京大学史料編纂所が公開する仮名漢字字形を検索するツールの開発
発表者:劉冠偉(東京大学史料編纂所),中村覚(東京大学史料編纂所),山田太造(東京大学史料編纂所)
東京大学史料編纂所と奈良文化財研究所は2009年より字形データを横断検索するシステムを構築・公開した。2020年より国文学研究資料館・国立国語研究所・京都大学人文科学研究所・中央研究院歴史語言研究所/数位文化中心(台湾)を加え、蓄積した字形画像を検索できる新たなポータルサイト「史的文字データベース連携検索システム」として公開している。本ポータルサイトでは、検索手段として単文字検索のみのサポートであること、検索結果をカスタマイズできないことから、難読字形の確認といった目的での使用には課題がある。
本発表では、本ポータルサイトにて史料編纂所が提供している合計5,731字種、約33万件の字形画像を対象に、上記のAPIを利用して、字種リストからの字形閲覧、異体字の変換、漢字部品での検索といった機能を供する検索ツールについて報告する。また、モバイル端末での利用を考慮するなど、教育・研究の場で利活用しうるツールを目指している。
p1-4:『日本語話題別会話コーパス:J-TOCC語彙表』の公開と日本語教育むけ情報サイトにむけた指標の検討
発表者:中俣尚己(大阪大学),麻子軒(関西大学)
『日本語会話話題別コーパス:J-TOCC』の語彙表を公開する。表は2種類で、15ある話題間での特徴度を比較するための粗頻度ならびにLLRの表と、各話題ごとに、240名の調査協力者がそれぞれ何度その語を使用したかというデータを収めた表である。前者の表はどの話題に特徴的かという偏りを表し、後者の表は、ある話題を与えられた時に母語話者の何%がその語を使用するかという「使用者割合」を取り出せる。本プロジェクトの最終目標は日本語教育に役立つ「話題―語彙情報サイト」の構築であるが、現場に役立つ形で情報を整理するにはこの2種類の情報が必要であることを主張する。語の使用者の幅を見る指標としてはtf-idfなども存在するが、検討の結果、本データでは使用総頻度の影響が大きすぎることがわかった。一方で、LLRは語の特徴語を効率よく抽出できるが、多義語など、他の話題の影響で値が低くなることもある。使用者割合はその点をカバーすることができる。
p1-5:『現代日本語書き言葉均衡コーパス』書籍サブコーパスの小説サンプルに対するジャンル情報付与
発表者:加藤祥(目白大学),浅原正幸(国語研)
『現代日本語書き言葉均衡コーパス』の書籍サブコーパス(PB,LB,OB)に含まれる小説サンプル(NDCの9X3番台)5,071サンプルに対し,手作業でジャンル情報を付与している。作業者複数名が,各サンプルの書籍に対し,出版社や書店による分類を確認して付与したほか,実際の書籍やあらすじから書籍内容を表すと考えた語句を付与した。これらの結果から,形式(掌編,アンソロジー等),分野(SF,推理,歴史等),主要要素(恋愛,冒険,人生等)等をはじめとする分類ラベルとして整理と統一を行った。ジャンルによる集計情報や語彙特徴を報告する。
p1-6:科学技術論文における「問題」の周辺文の問題内容の抽出
発表者:平林照雄(東京農工大学 生物システム応用科学府),古宮嘉那子(東京農工大学),浅原正幸(国立国語研究所)
科学論文では、しばしば「問題内容」と「解決法」が主題となる。我々は、日本語論文において「問題内容」と「解決法」のペアを効率的に取得するシステムの作成を目指している。Heffernanら(2018)は、”problem”及びその類義語に注目し、パターン抽出を用いて英語の科学論文における「問題内容」提起箇所の抽出を行った。しかし、日本語は英語とは異なり、決まったパターンがないことから、単純なパターン抽出では「問題内容」を抽出することができない。そのため、本論文では、「問題」という語を含む文とそれらの前後文を少量用意し、それらに「問題内容」が含まれているかどうかのアノテーションを行う。また、それらのアノテーションデータを用いて機械学習を行い、大量のデータに適用することで「問題内容」の有無のタグを付与し、付与されたタグの精度を調査した。
p1-7:対のある自他動詞と文法を組み合わせた項目を用いたオンライン学習の解答傾向 ―5週間のオンライン学習で用いた項目の分析を中心に―
発表者:沖本与子(東京外国語大学)
本発表は、2021年10月~2022年1月に実施した5週間のオンライン学習調査から得たデータの中から、対のある自他動詞と文法項目を組み合わせた項目についての分析を発表する。用意した1250項目中、対のある自他動詞と文法と組み合わせた項目は100項目あり、20名の参加者から2,000件の解答を取得した。文法と組み合わせた項目は5週間の間に4週目と5週目に出題し、その結果を分析し推移を確認したところ、対のある自他動詞のみを用いた項目とは異なり、伸びが見えずむしろ参加者のばらつきが広がっていることが確認された。本発表では、対のある自他動詞のみを用いた項目と、対のある自他動詞と文法を組み合わせた項目の平均点推移の違いを中心に、その理由の解明を目指すことを目的とする。
p1-8s:NINJALデータベースを活用した言語研究の実施について
発表者:鈴木成典(国際基督教大学大学院アーツ・サイエンス研究科),五十嵐陽介(国立国語研究所), 李勝勲(国際基督教大学, ヴェンダ大学)
本発表では、国立国語研究所の共同利用型共同研究(登録型)で利用可能な豊富なデータベースを用いたデータ処理方法について紹介する。今回利用したデータベースでは多くのデータへのアクセスが可能な反面、実験全体の録音ファイルのみが利用可能であったため、初めに実験の録音音声をもとに刺激のメタデータを構築し、単語や実験内でのセクション、話者、繰り返しの有無をもとに研究後にも識別可能な刺激のアーカイブIDを作成した。次に、Praatスクリプトを用いて録音全体における刺激間の境界の配置や各刺激へのIDの付与、録音音声全体の個別刺激ファイルへの分割を行うことで、分析対象に対するアノテーションの保存を半自動的に可能とした。本研究手順により、録音データベースを用いたより効率的な研究が可能となるだろう。また、処理したデータをアーカイブすることで将来の様々な研究に役立てることができるだろう。
p1-9:『名大会話コーパス』中納言版・ひまわり版公開データの形態論情報の修正
発表者:柏野和佳子(国立国語研究所),西川賢哉(国立国語研究所),渡邊友香,小磯花絵(国立国語研究所)
『名大会話コーパス』は、科学研究費基盤研究(B)(2)「日本語学習辞書編纂に向けた電子化コーパス利用によるコロケーション研究」(研究代表者:大曾美恵子、平成13年度~15年度)の一環として作成された、120会話、合計約100時間の日本語母語話者同士の雑談を文字化したコーパスである。国立国語研究所に移管後、形態素解析用辞書『UniDic』と形態素解析器『MeCab』を用いて形態論情報を自動付与後、人手による修正を経て、オンライン検索システム『中納言』、及び、全文検索システム『ひまわり』にて2016年12月より一般公開している。しかしながら、当時の形態素解析は話し言葉に対しての精度が低く、人手修正がしきれていない解析誤りを多く残していた。現在、『日本語日常会話コーパス』の構築を経て、解析の精度を上げることができている。そこで、『名大会話コーパス』を再解析したうえで、人手による追加の修正を行った。本発表では、改善された点を報告する。
p2-1:文化的・言語的相違による「ハミング・鼻歌」の初発語彙使用 ー日・中・英・米語のコーパスによる分析ー
発表者:浅野恵子(順天堂大学医学部),陳森(東京福祉大学 社会福祉学部)
同じ音声的及び音響的特徴をもちながら、文化や気候風土によって変化する音声行動があり、無意識に行われているものが少なくない。その一つとして、/m,n/などの有声鼻音の音声特徴は自然発話としては一般的であり、それをさらに上咽頭に響かせる音の「ハミング」がある。日本語では「鼻歌」と呼ばれている。他言語が理解できなくても音声行動としては個別言語の域を超えて普遍的に発せられる声音である。日常の発声時行動様式が文化的・言語別にどのように呼ばれているか、またいつから使われているかを日・中・英・米語の各言語のコーパスによって比較し、初めて使用された時期や当時の意味などから推移を分析する。
p2-2s:「女(ひと)」のような二重表記が検索できる歌詞コーパスの設計と構築
発表者:胡佳芮(一橋大学大学院言語社会研究科)
日本語は、音声言語(=発音形)と文字言語(=書字形)が常に一対一に対応しているとは限らないため、一つの語が複数の書字形を持つことが可能である。多様な表記が存在する中、「時間(とき)」や「女(ひと)」のような「二重表記」という表記形式がある。本発表は、1960 年代から 2010 年代までの日本流行歌の歌詞における二重表記が検索できる歌詞コーパスの作成を目指す。具体的には、1960年代から開始した音楽ヒットチャート「オリコン」CDシングル年間売上ランキングを参照し、歌詞が日本語で書かれた全1131曲のうち、計207曲の歌詞に二重表記が使用されていることを確認し、延べ427例、異なり231例の二重表記を収集した。さらに、二重表記の使用実態を分析し、出現要因を考察するため、二重表記の形態論的情報、音韻論的情報、意味論的情報と楽曲情報なども付加する。
p2-3:作文評価における日本語教師の評価ポリシーの多様性―ホリスティック評価の観点から―
発表者:安芝恩(なし)
本研究は、日本語教師が日本語学習者の作文をどのように評価しているのかという評価者の評価ポリシーを明らかにすることを目的とするものである。特に、評価者一人ひとりにおける評価ポリシーは存在するのか、作文評価において評価ポリシーは一貫性が保たれているのかに注目した。日本語学習者13名による作文(4コマイラストの描写ストーリー文)を対象とし、日本語教師12名にGoogleフォームを用いた作文評価をしてもらった。評価方法については、全体的・総合的に評価してもらうため、ホリスティック評価を採用し調査を行った。その結果、日本語教師は、明示的な認識があるとは言えないものの日本語学習者の作文に対して各自の評価ポリシーを持っており日本語学習者の作文によってその評価ポリシーは個人の中でも変動することが明らかになった。評価者個人が持っている評価ポリシーの多様性を認めつつ、安定した評価への必要性があることが示唆された。
p2-4:『子ども版日本語日常会話コーパス』の構築
発表者:小磯花絵(国立国語研究所),天谷晴香(国語研究所),居關友里子(国語研究所),臼田泰如(国語研究所),柏野和佳子(国語研究所),川端良子(国語研究所),田中弥生(国語研究所),滕越(国語研究所),西川賢哉(国語研究所)
2022年3月に公開した『日本語日常会話コーパス』(CEJC)は、成人中心のコーパスであり、未成年者、とくに10歳未満の子どもの会話はあまり含まれていないという問題がある。そこで国立国語研究所共同研究プロジェクト「多世代会話コーパスに基づく話し言葉の総合的研究」(2022〜2027年度)では、子どもを中心とする多様な場面・相手との会話を含む映像付きコーパスを新たに開発し、成人中心のCEJCと接続させることにより、コミュニケーションを含む言語の発達・変化の過程を、子どもから高齢者まで多世代に渡り実証的に研究できる基盤を構築することを目指している。発表では、新たに構築する『子ども日常会話コーパス』(仮)の設計や構築状況について報告する。
p2-5:日本語教師養成のための音読観察実習における多段階の振り返りを考慮したビデオアノテーション共有手法
発表者:山口昌也(国立国語研究所),森 篤嗣(京都外国語大学外国語学部)
本発表では,日本語教師養成向けの授業で行われる音読観察実習にビデオアノテーションを導入し,グループでの多段階の振り返りで共有・活用する方法を示す。この実習では,まず,観察用に収録した音読ビデオを学生が個別に観察し,その後,小グループ→クラス全体で振り返りを行う。このように,観察・振り返りを多段階で行う場合,前段階までに得られた結果を共有できることが望ましい。そこで,教育活動観察用に開発しているビデオアノテーションシステムFishWatchrに対して,複数のFishWatchr間でのデータ共有機能を実現し,実習に適用した。本発表では,(a) FishWatchrを用いた音読観察実習の流れ,(b) 観察用ビデオ,観察・振り返り結果(アノテーション結果)の受け渡し方法,(c) 観察時・グループでの振り返り時のアノテーション方法,(d) アノテーション結果の活用方法を示す。
p2-6:実践医療用語_語構成要素語彙試案表 Ver.2.0の構築
発表者:東条佳奈(大阪大学),黒田航(杏林大学),相良かおる(西南女学院大学),高崎智子(西南女学院大学),西嶋佑太郎(医師),麻子軒(関西大学),山崎誠(国立国語研究所)
本発表では、2022年3月に公開した『実践医療用語_語構成要素語彙試案表 Ver.2.0』について紹介する。この試案表は、実践医療用語辞書ComeJisyoSjis-2 の合成語7,087を対象としたもので、それらの合成語を構成する語構成要素6,633と、語構成要素に付与した意味ラベル41を収録している。語構成要素および意味ラベルに着目した理由は、医療記録データには、表記の揺れ、誤字、標準的でない用語などが多く含まれ、自然言語処理を行うのにそれらを個別に解決していくのは効率的でないと考えられるためである。そこで、合成語の構造を明らかにすることで、医療記録データからの合成語の抽出、整理の効率化を試みた。具体的には、「甲状腺(身体部位)」「良性(状態)」「腫瘍(疾患)」のように合成語を構成する「語構成要素」とその「意味ラベル」を示し、また、「リンパ節[良性[腫瘍]]」のように係り受け情報の付与を行った。
p2-7s:テ形従属節の用法分類に向けたアノテーションガイドラインの構築
発表者:野口咲帆(お茶の水女子大学人間文化創成科学研究科),田中リベカ(お茶大), 戸次大介(お茶大)
テ形従属節は日本語表現に頻出する重要な表現であり、森田や仁田が論じたように、複数の意味が存在する。日本語学における先行研究ではさまざまなテ形従属節の用法分類がされてきた。しかしそれらの分類で説明された用法ごとの特徴をそのまま用いてアノテーションガイドラインの作成を試みると、非専門家である作業者にとって判断が難しかったり、複数の用法がアノテーションされてしまったりするという問題点がある。本研究ではテ形従属節の用法を8分類し、言語学的テストを用いたアノテーションガイドラインの設計を行う。言語学的テストとは、対象表現を別の表現に置き換え可能かなどを作業者が言語直観に従って判定するものである。作業者は各用法に対応する言語学的テストを指定された順番で適用し、最初に通過した用法をアノテーションする。この手法によって、適切で曖昧性のないテ形従属節のアノテーションを目指す。
p2-8:TextGrid不要のPraatアノテーション管理
発表者:西川賢哉(国立国語研究所)
話し言葉に対するアノテーションツールとして現在Praatが広く使われている。しかし、Praatのアノテーション形式であるTextGridはかなり特殊であり、単体のファイルとしてPraat外で扱うには不向きな形式となっている。さらに、修正前と修正後の差分が分かりにくく、Git等のバージョン管理システムとは相性が悪い。現在構築中の「こども日常会話コーパス」の転記作業では、TextGridファイルに加え、それと等価な情報を持つtsv(タブ区切り形式)ファイルでも転記情報を保持することとしており、後者を用いることで、差分などの問題は解消される。しかし、今度は、どのファイルが最新かがわからなくなるという別の(重大な)問題が発生する。以上の問題を解決するため、Praatで直接tsvファイルを読み書きする環境を構築した。この環境下で作業することで、TextGridをファイルとして保持する必要はなくなる。
p2-9:テレビゲームコーパスの構築とその利活用
発表者:麻 子軒(関西大学)
コーパス言語学の普及に伴い、これまでは書籍・雑誌・新聞・小説・漫画など、さまざまな媒体によるコーパスが構築されてきたが、テレビゲームを対象に作成されたものはまだない。本発表では、キャラクターの台詞が多く含まれるロールプレイングゲームを例に取り、テレビゲームコーパスを構築する方法論を述べた上で、その利活用の例を示し、同コーパスが言語資源としての価値があることを主張する。具体的に、役割語や日本語教育といった分野における研究例が挙げられる。また、ロールプレイングゲームには、ナレーションによる状況描写が少ないことや、一部会話のやり取りがプレイヤーの想像で補完しなければならないことなどの特徴がある。このことから、本発表で作成したテレビゲームコーパスを用いれば、同じ「作られた話し言葉」として代表される小説・漫画では観察できない言語的特徴を見出すことができると考えられる。
8月30日(火)口頭発表セッション2 (Oral Day1 PM)
時間:15:50~17:20 場所:Zoom
o2-1:日本語の動詞とその結合価
発表者:青山文啓(桜美林大学大学院)
単語はその用法しか記述対象にできない。英語の五文型は構成要素単位で動詞の記述を試みるが,ここでは単語を記述の中心に据え,日本語の動詞を例に取りあげる。動詞は語幹と語尾に分割され,語幹の結合価と,語尾の担う三種の従属関係とは相互に関連し,従属関係は結合価の増減にもかかわる。結合価の記述例として,ペアをなす動詞のうち他動詞/自動詞に焦点をあてる。ヲ格/ガ格に体言〈能格〉が共有されるペアに着目すれば,体言が結合価の決定に大きくあずかることが分かる。結合価は(a)動詞がいくつ体言を取り,(b)どのような体言が,(c)どのような助詞に仲介されるかを記述する。どの言語も体言は最大のメンバーを誇り,(b)の一様な記述はできない。すべての単語が一度は体言であり,固有名詞,外来語,複合名詞,短縮語,略語,メタファーすべてを扱える記述モデルは虹の向こうにある。どのように体言を囲いこむかその対処法を検討する。
o2-2s:英語学習用活用語彙リストの提案 ― CEFR-J Wordlistのコロケーション・データセットの試み
発表者:福田航平(東京外国語大学 大学院総合国際学研究科 世界言語社会専攻),投野由紀夫(東京外国語大学)
外国語学習において、語彙を運用する力を学習者が身につけるためには語彙リストで単語を個別に記憶するだけでなく、使用頻度の高いフレーズで提示するのが重要である。近年、コーパス準拠英語語彙・フレーズリストが発表されているが、対象学習者レベル、受容・産出語彙の区別は明確ではない。本研究では、CEFR準拠英語学習語彙表CEFR-J Wordlistの活用度を上げるためのコロケーションデータセットを整備する。1億語のイギリス英語均衡コーパスであるBritish National CorpusからUniversal Dependenciesに基づいた構文解析を行い、共起フレーム別(例:動詞+名詞、形容詞+名詞)に共起語セットを抽出した。教育的に有用なコロケーションを教師や学習者が選定するための情報源として、単純共起頻度以外に検索語-共起語ペアについて、各語のCEFR-J Wordlistに基づいたCEFRレベル情報、共起統計(MI, MI2, MI3, Tスコア, Zスコア, logDice, log-likelihood, chi-squared)と散布度指標(DP)の情報を付与した。PythonコードとデータセットはCEFR-J Wordlistの補足資料として公開(CC BY-SA 4.0)予定である。
o2-3s:スロベニア人初級・中級・上級日本語学習者コーパスの構築と文法的誤用分析
発表者:パウロヴイチ・ミハ(リューブリャーナ大学文学部アジア研究学科)
『スロベニア人初級・中級・上級日本語学習者コーパスの構築と文法的誤用分析』を発表する。本研究では、スロベニア人日本語学習者が書いた作文データを収集して言語能力によって初級、中級、上級に分けた。集めたデータをGoogle Formsで作成した枠組みに書き写し、誤りを記し、メータデータを加え、前例がなかったスロベニア人日本語学習者コーパスを構築した。それから、記した誤りの中から文法的誤りを複数のカテゴリーに分別し、最も誤用の多いカテゴリー、誤用原因等を分析した。以上の過程は初級・中級・上級、各段階ごとに行った。その後、レベル別の分析結果を比較することで、日本語知識が増えるにつれて、学習者の誤用にどのような傾向が見られるか調査した。また、最も誤用の多い助詞について、誤用と実用の割合を計算し、より詳しく分析した。本発表では、上記のコーパス作成過程と分析の結果を紹介する。
2日目:8月31日(水)
8月31日(水)口頭発表セッション3 (Oral Day2 AM)
時間:9:20~10:50 場所:Zoom
o3-1:現代日本語の名づけにおける「文の包摂」
発表者:泉大輔(東京外国語大学)
本発表で取り上げるのは、「振り込め詐欺」「早く帰れオーラ」「マイルをもらおう!キャンペーン」「いいねボタン」「かまってちゃん」「朝はパンだ派」など、合成語の前項に「文相当の要素」が生起する言語現象(以下、「文の包摂」)である。一般に日本語の語形成規則では、語(小さい言語単位)の中に文(大きい言語単位)は入り得ない(*明日行こう店)。しかし、「振り込め詐欺」という表現は、「〇〇詐欺」という複合語の中に「振り込め」という命令文相当の要素が含まれている点で逸脱的な表現と言える。このような特異な現象である「文の包摂」はその使用が口語体で広く観察されているにもかかわらず、従来は研究の対象として詳細に記述・考察されてこず、その実態は明らかにされていない。本発表は逸脱表現の形成過程を解明する研究の一環として「文の包摂」を取り上げ、その使用実態について会話やウェブ上のテキストから採取した実例に基づき記述する。その上で、「文の包摂」の命名機能を中心に、その語彙的特徴について考察を行う。
o3-2:「のだ」の〈言い換え〉用法に接続詞が前置する条件の一考察―新書テキストを素材として―
発表者:石原 佳弥子(なし)
庵(2018:67)は日本語教育の観点から平叙文の「のだ」の主な用法として〈言い換え〉〈理由〉〈状況に対する解釈〉の3つを挙げている。この中の〈言い換え〉用法は、前の文(脈)の内容を繰り返し、別の表現で言い換えた文に後置する「のだ」の用法を指すものだが、この用法の文頭には「つまり」「すなわち」「要するに」といった言い換えの接続詞が前置する文と、前置しない文とが見られる。そこで本研究では新書作品のコーパスを作成して、接続詞が前置する「のだ」文を抽出し、接続詞が前置する条件を考察した。その結果、「のだ」文の「は」に前置する名詞句が、言い換えられた文の主題と同一であることがわかりにくいテキスト的事情にあるとき、言い換えの接続詞が見られる傾向にあることがわかった。
〈参考文献〉庵功雄(2018)『一歩進んだ日本語文法の教え方2』くろしお出版.
o3-3s:Twitterにみられる特徴的な慣用表現「名前をつけたい」に関する考察
発表者:星野靖子(放送大学文化科学研究科)
本稿では、Twitterにみられる一種の慣用表現「名前をつけたい」のコミュニケーション論的特徴を明らかにすることを目的とする。従来は「子供には季節を感じる名前をつけたい」「ファイルに別の名前をつけたい」等の人やモノを対象とする命名表現だが、Twitterでは「試験前に部屋を片付けたくなる現象に名前をつけたい」などの個人的な出来事や感情を述べる特徴がみられ、対象の抽象名詞とは対照的に名詞修飾節の内容が個別具体的である点から、「名前」から想起される一般性の高さに反して認知意味論的なミスマッチが生じている。そこで、Twitterの用例を収集・分類し、国語研現代日本語書き言葉均衡コーパスの用例を比較した結果、①当該表現は2007年以来Twitterで頻出し、その大半は命名目的でないこと②前部の抽象名詞に通時的変化がみられ、頻出語「現象」とあわせて慣用表現化していることが明らかになり、③「名前をつけたい人生だった」等のメディア特有の変異形が確認された。
8月31日(水)口頭発表セッション4 (Oral Day2 AM)
時間:11:00~12:00 場所:Zoom
o4-1s:書き言葉・話し言葉コーパスデータに基づく高頻度漢語動名詞の品詞性の再考:日本語教育の視点から
発表者:陳迪(神戸大学)
漢語動名詞は名詞(例:勉強は大事だ)としても動詞(例:勉強する)としても使用できるが、個々の漢語動名詞が主としていずれの品詞で使われるかは明確でない。本研究では、「現代日本語書き言葉均衡コーパス」と「日本語日常会話コーパス」のデータを用い、動詞性判定テストと名詞性判定テストによって、重要漢語動名詞200種(陳、2022)の品詞別頻度調査を行った。その結果、漢語動名詞は、動詞的動詞・名詞的動詞・動詞的名詞・名詞的名詞の4種に区分でき、それぞれ、異なる意味特性と語構成上の特性を有することが示された。得られた知見は日本語教育にも応用が可能であると思われる。
o4-2:上級日本語学習者の文体把握に関するケーススタディ―「BCCWJ図書館サブコーパス文体情報」を用いた読解調査―
発表者:小西円(東京学芸大学)
日本語学習者が日本語の類義表現等を使い分けるためには、それぞれの表現をいつ使うかに関する情報が必要である。これまでは「レポート・論文」のような文章の種類や「話しことば」「書きことば」といった用語を用いてそれらを記述することが多かったが、十分とは言えず、文体的特徴を用いた記述も有効だと思われる。しかし、学習者が日本語の文章の文体をどのように把握しているか、十分な研究が行われているとは言えない。そこで本発表では、母語話者が文章の文体(「専門度」「客観度」「硬度」「くだけ度」「語りかけ度」)をアノテートした「図書館サブコーパス文体情報」を用いて、上級日本語学習者12名に文章の文体理解に関する読解調査を行った。その結果、文体を把握する要素として「ですます体」の有無、カタカナ語・オノマトペの有無、終助詞の有無等があり、このうち「ですます体」に対して複数の異なる評価がみられた。
8月31日(水)招待講演2
芥川賞作品コーパスの構築のために
時間:13:00~14:00
場所:Zoom
発表者:菅野 倫匡(筑波大学)
8月31日(水)ポスターセッション2(Poster Day2 PM)
時間:14:10~15:40
(p3コアタイム:14:10〜14:55、p4コアタイム:14:55〜15:40)
場所:Zoom/ブレイクアウトルーム
p3-1:エンタメ小説における会話文の発話意図分析
発表者:夏目 和子(名古屋大学),佐藤 理史(名古屋大学)
小説の会話文を自動生成するためのツールとして、発話文表現文型辞書を編纂し改訂を重ねている。本辞書は「発話意図」と「表現文型」と「話し方の特徴」で構成されているが、今回は特に発話意図の不足問題について、エンタメ小説を題材にして解決を図る。具体的には、エンタメ小説の会話文に発話意図を付与し、現在の辞書の発話意図(60種類)で対応できない発話文はどれか、追加すべき発話意図は何か、既存の発話意図の細分化や統廃合についても検討する。将来的には、実際の小説の会話のやり取りにおける発話意図の連鎖情報を収集することで、発話意図の自動付与への一助としたい 。
p3-2:Eテレの児童向け教育番組における単語出現頻度
発表者:北村達也(甲南大学知能情報学部),川村よし子(東京国際大学)
日本語教育が必要な児童,特に低学年の教材作成に関する基礎データを提供するため,テレビの教育番組の話し言葉にて用いられる語とその出現頻度を調査した.NHK for Schoolにて公開されている小学校低学年向け教育番組53時間の音声を書き起こし,形態素解析により語を抽出した.フィラー,記号,数詞,固有名詞以外の異なり語数が12,398語,延べ語数が244,848語のデータを得て,各番組の放送時間の差異を考慮した出現頻度に基づいてランキングを行った.
p3-3s:wav2vecモデルによる方言音声資料のテキスト化
発表者:峯尾海成(静岡理工科大学大学院),LI XIAORAN(静岡理工科大学大学院 理工学研究科), 谷口ジョイ(静岡理工科大学), 高野敏明(静岡理工科大学)
本発表は, 旧時に収録された音声データの自動書き起こしに係るものである. ここで扱う言語資源は, 方言学者である故・山口幸洋氏の遺した約2,000点の音声資料である. その多くは1950年以降に録音された自然談話資料であり, 記録媒体はオープンリール, DAT、カセットテープ、MD等、さまざまである. このような言語資源は, 当時の方言を知る上で非常に貴重なものであり, 既に消失された言語的な特徴を知るのに有用である. 一方で, その活用には, 音源のデジタル化, 及び音声の文字化が必須であるが, データ量が膨大である上, 音質が劣悪であることが多く, 書き起こしには多くの時間, 労力を要する. そこで,本研究では,音声認識技術を用いて,談話資料からテキストへの自動書き起こしを試みる. 具体的には,SepFormeモデルに基づき,話者を分離した上で,wav2vecモデルによる音声認識を行う.今回は試験的に, 1955年及び1965年に録音された静岡井川方言のデータを用いる.
p3-4:幼児と保護者によるごっこ遊びの相互行為:日常場面に関する知識の利用に着目して
発表者:居關友里子(国立国語研究所),小磯花絵(国立国語研究所)
本研究では、国立国語研究所で現在構築中の『子ども日常会話コーパス(仮)』に格納予定である3歳児と保護者の会話データを使用し、ここで行われていたごっこ遊びのやり取りについて記述を行った。着目したのは、模倣される場面に関する知識がどのようにごっこ遊びのやり取りの中に出現し、利用されているのかについてである。会話データからは当該場面や特定の役割に紐付いた挨拶表現や定形表現が遊びの開始や場面の切り替え、文脈や役割の交渉に際しての足場となっている様子が観察された。子どもが現実の中で「当該場面らしさ」を見出しているこれらの表現・振る舞いに頼りつつ、即興的な振る舞いを織り交ぜることを通して、幼児と保護者はごっこ遊びを維持・展開していることがわかった。
p3-5:唐話資料「三字話」系列の継承と展開
発表者:岩本真理(大阪公立大学非常勤講師 大阪市立大学名誉教授)
この発表はキャンセルになりました。
武藤長平(1926)『西南文運史論』の記述によると、唐通事の初級段階の教材として「好得緊、不暁得、吃茶去」から始まる「三字話」が用いられてきた。近年「三字話」系列とみられる写本の発見が相継いだ。『改正唐韻三字話』(関西大学長澤文庫蔵)、『三字唐話』(九州大学石崎文庫蔵/国文学研究資料館蔵)がそれである。前者は既存の刊本資料『南山俗語考』との共通性について奥村佳代子(2014)の指摘がある。また森島中良が唐通事より直接学んだ際の覚書にも「三字話」の一部が含まれており、刊本『遊焉社常談』にも「三字話」のまとまった収録がある。刊本・写本のいずれにも「三字話」の影響がみられており、「三字話」は通事家系内に限定された閉じられた教材ではなく、継承者側で、語釈や発音表記に多くの異なりをもたせながら、語彙の増補や取捨選択、配列においても独自の展開をみせつつ展開してきたことが看取できる。
p3-6:「一周回って」の意味・用法をめぐって ―Twitterの投稿データを言語資源として―
発表者:朴秀娟(神戸大学),于一楽(滋賀大学)
ある言語表現が本来の意味・用法から離れて別の意味・用法をもつことは、しばしば観察される言語事実である。本発表では、「一周回って」におけるそのような言語事実について考察を行う。本来、「一周回って」は、「くるりと一周回って衣装を見せてくれた」のように、一周回るという動作を表す。しかし、近年では、「ポテトチップスは一周回ってやっぱりうす塩味が一番」「疲れすぎて一周回って眠くない」「ネガティブが一周回ってポジティブ」「凄すぎて一周回って凄いとしか言えない」のように、本来の意味・用法として用いられていない例が散見される。このような「一周回って」の多様な使われ方に注目し、「一周回って」にみられる意味・用法、ならびに、それらの意味・用法の間における関連性を明らかにする。なお、本発表で用いるデータはTwitterの投稿データから収集したものであり、言語資源としてのTwitterの有用性についても触れる。
p3-7:医療記録における縮約表現の量的構造―医療用語との比較―
発表者:山崎誠(国立国語研究所),黒田航(杏林大学),東条佳奈(大阪大学),西嶋佑太郎(医師),麻子軒(関西大学),相良かおる(西南女学院大学)
本発表では、「実践医療用語辞書ComeJisyoUtf8-3」(2021年3月公開)から作成された2つのデータ、「実践医療用語_語構成要素語彙試案表 Ver.2.0」(2022年3月、言語資源協会より公開。以下、「試案表」)と「医療縮約表現」(5690語)の語彙を量的に比較したものである。具体的には、医療縮約表現の個々の見出し語を分割して得られた語構成要素が試案表に収録されているかどうかを調べたところ、試案表にある語構成要素を含む見出し語が全体の約7割であること、また、医療縮約表現の構成要素数が多くなると、試案表に含まれる語が現れる割合が高くなることが確認された。試案表の意味ラベルを使った分析では、「身体部位」「体内物質・体外物質」は見出し語の語頭に偏って出現し、「状態」「経過」「医療行為」「行為」は語末に偏って出現することが分かった。
p3-8:様々な対話場面におけるspeech-laughの発生タイミングの分析
発表者:有本泰子(千葉工業大学),真弓花(千葉工業大学)
Speech-laughとは,発話中に肺からの突発的な呼気流により生じるしゃべりながらの笑い声のことで,声道を調音器官として使って言語情報を形成すると同時にその声道から笑い声を生成するという音声的にも音響的にも複雑な構造をもっている。これまでの音声工学・音声科学の研究では,その複雑な構造のためにspeech-laughを対象とした研究はあまり行われず,いつ・どこからspeech-laughが発声されるのかは不明なままである。本研究では,さまざまな日常場面における対話音声に対し分節音ラベリングを行なって,発話中である話者がどのような声道形状で調音をした際にspeech-laughが発生しやすいのかを分析する。
p3-9:近現代語における「もちろん」の用法
発表者:東泉裕子(東洋大学),髙橋圭子(東洋大学)
漢語「勿論」は、中世では文末での名詞述語用法が中心であったが、近世になると文法的接辞を伴わない「勿論」単独の形式での副詞用法や感動詞的用法も出現することが指摘されている。本発表では、各種コーパスを利用し、近現代語における「勿論」の用法を調査した結果を報告する。調査の結果、明らかになったのは、 (1)19世紀末から20世紀初頭にかけて、名詞述語用法の割合が減少し、「勿論」単独の副詞用法が増加したこと、(2)現代の会話では「勿論」単独の形式や畳語の形式での感動詞的用法が観察されること、(3)近現代には「〜は勿論(のこと)…まで(も)/も」や「勿論〜、しかし…」などの定型化した表現が定着すること、の3点である
p3-10:医学書テキストのたとえる表現(2) ―接尾辞「―状」の特徴
発表者:本多由美子(一橋大学・国立国語研究所),三枝令子(元一橋大学)
本研究では医学書テキストにおける「たとえる表現」の一端を明らかにする目的で接尾辞「状」に注目し、用法を分析した。調査には医学書5冊(約450万語)のデータを用いた。分析の結果、前接する語には「S、線」など形そのものを表すもの、「粥、海綿」など質的な様子も表す語、「嚢胞、結節」などの病態が多く、後接する語には「血管、結腸」などの体の部位や「陰影、硬化」など症状を表す語が多かった。「状」の後は名詞が最も多いが、3割程度は「の」を介した名詞修飾や「に、と」などを介した動詞修飾用法であった。『現代日本語書き言葉均衡コーパス』の書籍に付与されたNDC情報を用いて比べたところ、「状」は医学において多用される語であることが示唆された。また、同じ「たとえる表現」の接尾辞「様(ヨウ)」と比較した結果、「様」の前には病名のような状態全体を表す語が見られ、用法の違いが観察された。
p3-11:日本語日常会話における他称表現の使用傾向について
発表者:川端良子(国立国語研究所)
日本語において人を指す表現には、「私・僕・あなた・君」などの人称名詞、「山田さん・美紀ちゃん」などの固有名詞、「課長・先生・叔父さん」などの定記述がある。それぞれの表現の使用方法については、話し手を指す場合(自称)、聞き手を指す場合(対称)、話し手と聞き手以外を指す場合(他称)に分けて研究が行なわれることが多い。自然な会話データを用いた研究では、自称、対称を対象とすることが多く、他称に関する研究は多くない。本研究では、『日本語日常会話コーパス』を用いて、会話に参加していない第3者がどのような表現を用いて指示されるのかについて定量的な調査を行う。特に、同じ対象が複数回指示される場合に、どのような指示表現が用いられるかに注目し、指示対象と指示表現の関係について検討する。
p4-1:打ち合わせにおける談話構造の修辞機能からの分析
発表者:田中弥生(国立国語研究所)
本研究は修辞機能分析の分類法による日常会話分析の一環として、意思決定の談話の談話構造および修辞機能と脱文脈化の様相を検討する。修辞機能とは、発話機能の下位分類で、発話が表現する様態を分類し概念化したものである。脱文脈化の観点は、コミュニケーションが行われている時空とその発話内容との、時間的・空間的距離の程度をさす。書店での選書打ち合わせ談話の分析では選書の採否によって修辞機能の特徴が異なることがうかがえたが、本発表では、『日本語日常会話コーパス』に収録されている地域活動ボランティアによる打ち合わせ談話を対象に、イベント企画にかかわる意思決定の段階における特徴を確認する。会場、日程、コースなどの検討の段階のそれぞれの談話構造を明らかにし、発話の修辞機能の特徴を脱文脈化の観点を含め、考察する。
p4-2:日常会話における「状況づけられた語り」
発表者:臼田泰如(国立国語研究所)
日常生活において,目の前で起こった出来事と結びつける形で,過去に自分が経験した事柄について語るということがなされる.本研究ではこの種の語りを「状況づけられた語りsituated telling」と呼ぶこととし,以下の2点について検討する.1. この種の語りによって何がなされているのか.2. 具体的にどのような方法によって,語られる経験と目の前の出来事とが結びつけられているのか.この問題を検討するため,『日本語日常会話コーパス』を利用し,いくつかの会話断片を分析する.1. について,状況づけられた語りは,目の前で起こった出来事と類似の経験を有していることを示す.このことは,目の前で起こった一回限りの出来事を,何らかのパターンに基づいて「繰り返し起こること」として再編し,理解可能にしていると言える.また2について,状況の類似性,およびその状況での出来事の蓋然性が示される.
p4-3:コーパスからの複合動詞の自動抽出の試みー近現代作家の文学作品からの用例抽出を例にー
発表者:ニハル・チャクマク ビルギル(アンカラ大学/麗澤大学),千葉庄寿(麗澤大学)
発表者はこれまで谷崎潤一郎作品に出現する複合動詞をマニュアルにて抽出し、データベース化してきた。今後、さらに多くの谷崎作品から複合動詞を網羅的に取得するにあたり、検索作業の自動化を試みた。本発表では、既存の複合動詞データベース3件(野田2013, 山口2013, 国立国語研究所2015)のデータを統合して検索・処理に使用し、谷崎作品に応用した結果に基づいて評価をおこなう。また、複合動詞と単純動詞を区別せず、一般動詞の語彙素として認定しているUniDicの解析データを拡張して、複合動詞の候補のラベルづけをおこなう手法、さらに、既存の複合動詞データベースに含まれない「新しい」複合動詞の候補を効率よく発見するための工夫についても紹介する。
p4-4:日本語学習者のコーパスツールの使用実態―作文での産出に着目して―
発表者:寺嶋弘道(立命館アジア太平洋大学),板井芳江(立命館アジア太平洋大学)
日本語学習者(以下:学習者)がライティングにおいて活用できるコーパスツールが公開されているものの、その実践に関する報告は限られている。本発表では、コーパスツールワークショップに参加した学習者が作文において、どのようにコーパスツールを用いたか、どのような産出をしたかを明らかにする。分析対象としたのは、ワークショップ参加者17名(中級レベル2名、中上級レベル15名)のデータである。分析の結果、作文においてコーパスツールが用いられた回数の中央値は5回(最大値:14回、最小値:2回)であった。また、最も産出されたのは「名詞+助詞+動詞」のパターンで、中級前半レベルと中級後半レベルの実質語で構成されたコロケーションであった。さらに、その適切さを分析したところ、コロケーション、あるいはコロケーションと共に使用された文法項目が原因で誤用と判断されたもの、コロケーションが使用された節において誤用と判断されたものがあった。
p4-5:医療記録における縮約表現の分析
発表者:東条佳奈(大阪大学),黒田航(杏林大学),相良かおる(西南女学院大学),西嶋佑太郎(医師),麻子軒(関西大学),山崎誠(国立国語研究所)
本発表は、医療従事者が医療記録を残す際に用いた圧縮的な表現を「医療縮約表現」と呼び、それらの特徴を分析したものである。医療縮約表現の抽出にあたり、本研究では実践医療用語辞書ComeJisyoUtf8-3の見出し語より、医療記録文に1回以上出現した、語末の要素がサ変語幹・形容動詞語幹・副詞可能名詞である複合名詞より選定した5,690種の語を調査に用いた。本発表では抽出した医療縮約表現のうち、主に語末を対象とし、語構成要素の頻度や、どのような前要素と結合しているかなどの点に注目して分析を行った。また、これらの縮約表現がいわゆる「臨時一語」とどのように異なるのかについても検討した。
p4-6:児童作文における書き出しと結びの分析
発表者:加藤恵梨(愛知教育大学)
児童作文における書き出しと結びに注目し、学齢が上がるにつれて表現にどのような変化が見られるのかを分析する。調査対象とするのは、2019年度の「清流環境作文コンクール」応募作品を電子化した『清流環境作文コーパス』の中の、「イタイイタイ病」に関して書かれた、小2(10編)、小4(74編)、小6(386編)の児童作文である。調査の結果、低・中学年では、書き出しにイタイイタイ病資料館に行ったことなどが書かれ、結びにはイタイイタイ病を知ってどう感じたかが述べられているものが多いのに対し、高学年では、書き出しにイタイイタイ病に対する考えとその理由が述べられ、結びには環境に対して私たちが取るべき行動が書かれているものが見られた。このように、学齢が上がるにつれ、ある問題に対する主張から文章を始め、より広い問題へと話を移し、自分を含めた人々が何をすべきかを述べて文章を終えている作文が見られることが分かった。
p4-7:「つまり」による換言が促す理解の範囲について
発表者:櫻井芽衣子(日本工業大学)
日本語記述文法研究会(2009)『現代日本語文法7』によると、「つまり」は先行部を具体的に説明したり要点をまとめたりするものである。「つまり」による換言の様相を『現代日本語書き言葉均衡コーパス』で見ると、先行部の理解を深めるものと、後続文脈の理解を深めるものとが存在する。いずれも換言したことで先行部の情報が増えた結果であると考えられるが、理解を促す範囲が先行部だけでなく後続文脈にまで及ぶのは、テキストの一貫性によるものである可能性を述べる。またこの二つの換言は、石黒圭(2001)「換言を表す接続語について――『すなわち』『つまり』『要するに』を中心に――」『日本語教育110号』で指摘される換言の二つの目的に沿うものであることも確認する。
p4-8s:自発対話音声に対する叫び声アノテーション
発表者:白鳥恵大(千葉工業大学情報工学部),大久保港(千葉工業大学),松田匠翔(千葉工業大学),有本泰子(千葉工業大学)
叫び声は突発的な感情表現を示す音声現象の一つである.先行研究では,自発対話音声に含まれる叫び声を感情表出系感動詞と区別して定義していた.しかし,先行研究の定義を基に叫び声と感情表出系感動詞のアノテーションを行っても,言語表現が似ている音声現象を音響的特性のみで区別する必要があるため,この二つの音声現象を区別することは困難であった.そこで,叫び声と感情表出系感動詞を区別するために改めて叫び声(scream)の定義を行った.また,発話の特徴と叫び声の特徴を併せ持った音声を発話と叫びの共起(shout)として区別した.これらの定義を基に自発対話音声に含まれる音声を収録した音声資料に対して叫び声アノテーションを行った.複数人でアノテーションした際の一致率算出や音響分析を行って新たな定義と先行研究の定義との比較を行う.さらに,叫び声の事例をいくつか示し,自発的な叫び声がどのような音声言語現象として発せられているかについて考察する.
p4-9:学術論文と論説文における「だから」の使用の比較
発表者:向坂卓也(外交学院(中国))
日本語文章表現の教材には「だから」は話し言葉であり、書き言葉文では使用されないとしているものと、書き言葉であり、書き言葉文では使用されるとしているものがある。一口に「硬い文章」といってもジャンルや分野によって特徴があると考えられる。そこで本研究ではJ-stageの15学会誌の学術論文と朝日新聞社言論サイトwebronzaの5分野の論説文における「だから」を含む順接接続詞の使用件数を調査し、分野別の10万字当りの使用件数を算出した。理系学術論文では「だから」の使用が稀だが、文系学術論文では使用され、論説文では各分野で使用されていることがわかった。「だから」は主観的な結論づけを表す接続詞であり、著者の主観的結論づけが行われる場合に「だから」が使用される。「だから」が使用されないジャンルや分野では、話し言葉であるため使用されないのではなく、結論づけの際に客観性が要求されるため使用されないのである。
p4-10:関東・東北方言における動詞ラ行音節の撥音化と促音化-COJADSデータより-
発表者:佐藤久美子(国立国語研究所)
ラ行音が後続する子音の影響を受けて撥音化・促音化する現象が日本語諸方言に広く観察される。例えば、ワカンナイ(分からない)、ミット(見ると)などである。このような現象は関東地域においても盛んであり、地理的な分布状況と、地域ごとの実態の概要が報告されている(大橋 1974)。しかし、二つの現象が関東からどのように広がっているのか、また、撥音化が生じる環境と促音化が生じる環境の地域差、及び二つの現象の関係性がどのようなものであるかは明らかでない。本発表ではこれらの課題について関東と東北地域の方言を対象とし、日本語諸方言コーパス (COJADS)から得られたデータに基づいて、予備的な考察を行う。動詞に助詞・助動詞が後続するデータを観察し、(i)撥音化・促音化は東北東部から関東東部と栃木に偏って見られる (ii)これらの現象が生じる環境は千葉・神奈川が他と大きく異なっている(ii)撥音化と促音化の起こりやすさには相関関係があることを示す。
p4-11:リサーチデザインにおける言語資源の役割―QAサイトコーパス(知恵袋データ)の場合―
発表者:中渡瀬秀一(国立情報学研究所)
本研究は研究における言語資源の利用可能性を実証的に明らかにすることを目的とする。そのために同一言語資源を利用した複数の分野にわたる研究を対象として、それらのリサーチデザインにおける資源の役割についての調査を行う。今回、対象言語資源にはQAサイトコーパス、対象研究群には当該コーパスの利用契約者から報告された研究成果(文献)を用いて分野別の資源役割の特徴や比較を行った。
8月31日(水)口頭発表セッション5 (Oral Day2 PM)
時間:15:50~16:50 場所:Zoom
o5-1:少数言語のデジタルアーカイブ:PhoPhoNOとBantuDArc
発表者:李勝勲(国際基督教大学),倉部慶太(AA-研), 品川大輔(AA-研)
大言語を対象とした様々なデジタルアーカイブに基づく研究が進んでいる一方で、少数言語を対象としたデジタルアーカイブの構築とその利活用はまだ充分に進んでいるとはいいがたい。この発表では少数言語を中心に発表者らが構築したデジタルアーカイブを紹介し、少数言語を対象としたアーカイブ化に関して議論する。一つ目はチベット・ビルマ系言語の五つの言語資料を公開するアーカイブサイト 'PhoPhoNO'、もう一つは六つのバントゥ系言語の資料をアーカイブ化したサイト 'Bantu Language Digital Archive (BantuDArc)' である。各言語のページは言語に関するメタデータ、地図と言語資源から構成される。音声資料を含む個別のデータ項目には固有のIDが付与され、アクセスを希望する場合は、ダウンロードの申請を行うことができる。
o5-2:「小中高大生による日本語絵描写ストーリーライティングコーパス」(JASWRIC)の構築:L1/L2日本語研究の新しい資料として
発表者:石川慎一郎(神戸大学),友永達也(神戸大学附属小学校),大西遼平,岡本利昭,勝部尚樹,川嶋久予,岸本達也,村中礼子(神戸大学附属中等教育学校)
「多言語母語の日本語学習者横断コーパス」(I-JAS)には、海外の日本語学習者の産出だけでなく、日本語母語話者50名の産出が含まれており、L1/L2の対照研究に有益である。しかし、近年の学習者コーパス研究のトレンドをふまえれば、母語話者についても、その多様性をふまえたデータの拡充が必要となろう(Gilquin, 2022)。こうした観点から、筆頭著者は、I-JASのストーリー産出タスクのプロンプトを用い、小学校1年生から大学1年生までの13学年、合計685名の児童・生徒・学生による絵描写作文を体系的に収集した。本コーパスは、I-JASを用いたL1/L2対照研究の信頼性を高めるだけでなく、L2日本語の習得過程とL1日本語の発達過程の比較を可能にするものでもある。なお、I-JASのプロンプト使用については開発者の迫田久美子氏より許諾をいただいた。また、本コーパス開発の着想のもととなったのは、I-JASプロンプトを用いてJSL児童の産出を収集・分析した松隈杏梨氏の論考(2021)である。二氏に深く感謝申し上げる。
8月31日(水)クロージング 16:50〜17:30
時間:16:50~17:30 場所:Zoom