6. 予備的分析の結果
『日本語話し言葉コーパス』の構築はまだ完全には終了していませんので、コーパス全体の分析はまだ実施できていません。以下では予備的な分析結果を示しますが、現段階でも従来は知られていなかった自発音声の特徴がいくつも明らかになっています。最初に6-1と6-2でコーパス全体の特徴について分析した後、6-3から6-9では、いわゆる言語変異の現象を分析します。音声、音韻、形態論、そして韻律(イントネーション)の各レベルにおける変異現象が『日本語話し言葉コーパス』にどのように記録されているか、その分析によってどのような新知見が得られるかについて報告します。
6-1. 発話速度
この図は朗読音声データベースとして有名な『ATR音声研究用データベース』と『日本語話し言葉コーパス』の模擬講演の発話速度を比較しています(単位はモーラ/秒)。『日本語話し言葉コーパス』は平均値も高いのですが(ATRの7.11に対して8.01)、それよりも標準偏差の大きさが顕著な特徴となっています(ATRの0.96に対して2.07)。

次の図は、『ATR音声研究用データベース』の朗読音声、『日本語話し言葉コーパス』の模擬講演、学会講演(人文系と工学系)を比較しています。平均値はこの順に上昇しており、学会講演では人文系よりも工学系の発表の方が早口になっています。これは、おそらく、工学系の方が人文系よりも発表時間が短いことに起因しているものと思われます。

  • CSJ speech is faster than read speech(ATR-DB).
  • It also shows greater standard deviation.
  • APS is faster than SPS.
  • Engineering talk is faster than humanity talk.

Mean speaking rate is computed from 30 transcription units at the beginning, middle, and end of speech files.

最後にこの図は講演内部での位置による発話速度の違いを比較しています。個々の講演の冒頭、中央、末尾に位置する各30発話の平均発話速度をもとめ、さらにカテゴリごとに複数の講演を平均しています。学会講演の発話速度は冒頭から中央にむけて上昇し、さらに末尾にむけて再度上昇しています。一方、模擬講演では、冒頭から中央にかけては上昇していますが、その後は上昇していません。この差はおそらく模擬講演の収録では学会講演のように講演時間を厳密には制限していないことによる差だと思われます。模擬講演話者に対しては、15分以内のスピーチを準備するように要請していますが、15分を超えて話し続けても講演を止めることはしていません。

6-2. 言い淀み
言い淀み(disfluency)は自発音声の最も顕著な特徴と言えます。『日本語話し言葉コーパス』の書き起こしテキストに埋め込まれたタグには、言い淀みに関係するものが3種類ありました。(D)は語断片(より正確には短単位の断片)を、(W)は言い誤りや不正確な発音を、そして(F)はフィラー(filled pause)を表示しています。

この図は講演に含まれる短単位の総数に対する上記3種類のタグの比率を示しており、講演のタイプ(学会講演か模擬講演か)および話者の性別によって分類されています。講演のタイプに関わらず、男性話者は女性話者よりも言い淀みの率が高いことがわかります。また(D)と(W)に関しては、模擬講演の方が学会講演よりも言い淀みの率が高くなっています。フィラーは最も出現頻度の高い言い淀み現象ですが、面白いことにその振る舞いは(D)や(W)と異なっており、学会講演の方が模擬講演よりも(F)の頻度が高くなっています。この事実は、フィラーを発話の自発性のよい標識とはなっていないことを示唆しています。普通には(また『日本語話し言葉コーパス』の分析からも)学会講演の方が模擬講演よりも自発性が低いと考えられるからです。

この図は(D), (W), (F)の比率と発話の自発性に関する印象評定値の相関を調べたものです。横軸が自発性の評定値で、1から5にかけて自発性が上昇します。どのタグも評定値と正の相関を示しますが、ここでも(F)のふるまいが異なっています。つまり、(D)や(W)の比率が1から5にかけて徐々に増加してゆくのに対して、(F)の比率(図では右側の縦軸)だけは、1と2の間で大きく上昇し、その後はあまり変化しません。(F)は、対象とする発話が朗読的であるかそうでないかという二分的な分類の指標としては有効ですが、自発性の程度の指標としては有効でないことがわかります。

6-3. 母音の無声化
ここからは言語変異現象の分析に入ります。最初に母音の無声化をとりあげますが、この現象は音声レベルの変異、つまり、語の意味に影響をおよぼすことのない変異現象です。

日本語の狭母音(/i/と/u/)は前後を無声子音に囲まれると無声化する傾向があります。この傾向は共通語の母体となった東京方言では特に顕著に現れます。そのため東京語に関する音韻分析では、無声母音を通常の有声母音の条件異音と見なす分析もおこなわれていますが、このような分析は過度に単純化されたものと言わなければなりません。何故ならば狭母音の無声化率は環境によって大幅に上下するからです。

以下の表は狭母音に隣接する無声子音の調音様式が無声化率におよぼす影響を示しています。コアのうち2002年夏の時点で分節音ラベルが付与されていた427,973個の母音(五母音全体、狭母音だけならば約20万個)を分析対象に用いました。

狭母音に摩擦音が後続すると無声化率が顕著に低下していることがわかります。これはおそらく、この環境で母音が無声化すると、音声学的には無声摩擦音の連続が生じるため、モーラ境界の知覚が非常に困難になるためかと思われます。

母音 先行子音の調音様式 後続子音の調音様式
破擦音 摩擦音 破裂音
/i/ 破擦音 81.1 33.3 89.4
摩擦音 96.3 38.1 98.4
破裂音 80.2 51.5 89.3
/u/ 破擦音 77.2 48.1 94.5
摩擦音 95.1 61.2 97.5
破裂音 80.8 74.0 80.1

無声化率を低下させるもうひとつの要因に無声化の連鎖があります。つまり連続するふたつ以上のモーラ中の母音がすべて前後を無声子音に囲まれている環境です。以下の図はふたつのモーラが無声化連鎖環境におかれた場合の無声化率を検討したものです。横軸は対象とする狭母音を挟む子音の調音様式の組み合わせを示しています。記号F, A, Sはそれぞれ摩擦音、破擦音、破裂音を意味します。

ここでもまた、調音様式の組み合わせが重要な役割を果たしています。最初のモーラに含まれる母音の無声化率に注目すると、無声化率が高く保たれるのは、後続する子音が破裂ノイズで始まるタイプ(つまり破裂音か破擦音)の場合です。反対に後続子音が摩擦音であると第1母音の無声化率は低下し、代わりに第2母音の無声化率が上昇します。

次の図は、無声化率に対する発話速度の影響を示しています。この図の横軸に示された発話速度は個人毎に正規化されています。ひとりの話者に対して転記基本単位ごとに発話速度を計算してヒストグラムを作成し、下位から25%毎に1,2,3,4に分類しました。発話速度は明らかに無声化率に強く影響しています。

最後に、この図は非狭母音の無声化率にも発話速度が影響することを示しています。ただし/e/に対しては統計的に有意な効果が認められませんでした。

6-4以降へ