5. 研究用情報の付与
5-1. 転記テキストとタグ
収録された音声は、200ms(0.2秒)以上のポーズが生じている位置、あるいは文法的な文末形式に続いて50ms(0.05秒)以上のポーズが生じている位置で転記用の単位に分割されます。この単位を転記基本単位と呼びます。

転記基本単位は、基本形および発音形と呼ばれる二通りの方法で書き起こされます。基本形はテキスト検索に利用することを想定した転記テキストで、通常の日本語テキスト同様、漢字と仮名が使われています。しかし、漢字と仮名のつかいわけが厳密な規定されており、表記のゆれは存在しません。例えば「話し合い」は常に「話し合い」と表記され、「話合い」「話しあい」「話合」「はなしあい」等の表記は使われていません。

一方、発音形は音声そのものを検索するために片仮名だけで書き起こされています。発音形は基本形中の漢字に複数の読みがある場合にそれを確定するために利用できます。また、自発音声の音声学的ないし音韻論的な変異の研究にも利用できます。

以下の表は転記テキスト中に埋め込まれるタグを示しています(完全な一覧表にはなっていません)。

タイプ1 : 文字範囲を指定し、その範囲の特徴を表現するタグ
記号 用法
(D), (D2)* 断片化した語 (D こ) これ
これ(D2 は)が
(W) 言い間違い、転訛、発音の弱化 (Wミダリ; ヒダリ)**
(?) 聞き取り、語彙同定、漢字表記に自身が無い
・ 複数の候補がある場合
・ 全くわからない場合
(? タオングー)
(? あのー、あんのー)
(?)
(F) フィラー、感情表出系感動詞 (F あの), (F うわ)
(M) 音や言葉に関する引用(メタ表現) (M わ) は (M は) と表記する
(O) 外国語や古語、方言など (O ザッツファイン)
(A) 基本形に漢字、仮名以外の文字を使う場合 (A イーユー; EU)
(K) 何らかの理由で漢字表ができなくなった場合 (K たち(F んー) ばな;橘)
(S) 転記用辞書に未登録の口語表現が出現した場合転記用辞書に未登録の口語表現が出現した場合 (S ほりゃ)
(笑)
(泣)
(咳)
(あくび)
非言語音との共起。喋りながら笑う、泣くなど。 (笑 ナニソレ)
(L) ささやき声や独り言などの小さな声 (L アノコレナンダッケ)
タイプ2 : 音や非言語的イベントを表現するタグ
<H> 母音の非語彙的延長 ソレデ<H>
<Q> 子音の非語彙的延長 カイ<Q>セキ
<FV> 母音不確定音 ソレデ<FV>
<息>
<笑>
<泣>
<咳>
呼吸音
笑い (同時に喋ってはいない)
泣き声 (同上)
咳 (同上)
アルワケデ<息>

* (D2)は1モーラの助詞が言い直された場合のみに使用する。

** セミコロンの左が言い間違いと判断された形、右は正しいと判断された形

5-2. 品詞情報
転記テキストには、短単位および長単位という二種類の異なる長さの言語単位に基づく二種類の品詞情報が付与されます。短単位は通常の国語辞典の見出し語に近い長さの単位で、多くの場合、一個もしくは二個の最小単位から構成されています。最小単位とは形態素にほぼ該当する単位ですが漢字1字からなる造語要素もこれに含めます。

一方、長単位は1個以上の短単位が結合して構成される単位であり、複合語を表現するためのものです。「国立国語研究所」は短単位としては「国立」「国語」「研究」「所」に分割されますが、長単位としては1単位です。多くの長単位は上例のように複数の名詞短単位が結合した複合名詞か、「食べ飽きる」のように複数の動詞短単位が結合した複合動詞ですが、なかには複数の助詞短単位がひとつの助詞長単位を構成する場合や(「て」+「は」=「では」)、助詞+動詞+助詞という短単位の列がひとつの助詞長単位を構成する場合もあります(「に」+「拠る」+「て」=「によって」)。

現在までに約100万短単位(=80万長単位)に対する手作業での品詞情報付与が終了しています。作業精度は、短単位が約99.9%、長単位が99.7%であると推定されています。残る約600万短単位に対する品詞情報付与作業は、計算機によって自動的に実施する予定です。詳しくは以下の文献を参照してください。

品詞情報の自動付与に関する論文をダウンロード

5-3. 印象評定データ
印象評定データとは、学会講演および模擬講演の収録時に収録スタッフ中の1名が、講演が与える印象を種々の観点から主観的に評定したものです。このようなデータが必要とされるのは、学会講演と模擬講演という講演タイプの間だけでなく、例えば同じ学会講演というタイプの内部でも、発話スタイルや講演の自発性などには大幅な相違があると予想されるからです。

印象評定は、5段階評価尺度を用いて以下の特性について実施しました。1)講演の自発性、2)難関な専門語の多寡、3) (知覚される)発話速度、4)発音の明瞭さ、5)語彙および分節特徴に関する方言的特徴の有無(標準語らしさ)、6)発話スタイル。

5段階評定に加えて、評価語のリストから、その講演に該当すると思われた評価語に丸をつける方式での評価も実施しました。リストに含まれていたのは「流暢な」「流暢でない」「単調な」「表情豊かな」「リラックスした」「緊張した」のような語群です。評価語のなかには対語をなしていないものもあります。

5-4. 分節音ラベル
『日本語話し言葉コーパス』のコアには分節音ラベルが付与されます。我々が用いたラベルは、基本的に音素ラベルですが、音声変異の研究資料とするために音声レベルの現象も一部ラベリングの対象としています。

ラベリングに際してはまず転記テキストの発音形から自動的に音素ラベルを生成します。次に、音声認識で利用されている隠れマルコフモデルに基づく音響モデルを用いて、音素ラベルの位置を自動的に決定します。そして最後にエキスパートが人手でラベル位置を修正しています。人手作業のなかでは、ラベル位置だけでなく、ラベルの種類を変更したり追加したりもしています。


ラベリング手法の詳細と結果の評価に関する詳細(英文)
5-5. イントネーションラベル
『日本語話し言葉コーパス』のコアにはイントネーションのラベルも付与されています。トーンの連鎖としてイントネーションを記述する方法を採用しています。しかし、自発音声のイントネーションは従来研究されてきた朗読音声とは大幅に異なりますので、従来のJ_ToBIを拡張したX-JToBIという新しい体系を定義して用いています。X-JToBIでは自発音声のパラ言語的側面に対処するために、トーンの面でもBI(break index)の面でも大幅にインベントリが増加しています。以下に主要な拡張について説明します
  • 句末境界音調(boundary tone)の拡張: 句末におけるピッチ変動のカテゴリとして、L%LH%とL%HLH%の二種類を追加しました。従来のL%H%, L%HL%とあわせて全体で4カテゴリを認定しています。

  • 複合境界音調(二つ以上のトーンから構成される境界音調)の時間情報の分離: 複合境界音調はその構成要素に分離され、各要素に時間情報が付与されます。例えばL%HL%は、L%, pH, HL%の3要素に分離されます。ここでpHはHL%に含まれるFoのピーク位置に付与されるラベルで「ポインター」と呼んでいます。同様にしてL%LH%は、L%, pL, LH%に分離されます。PLはLH%の上昇開始点に与えられるポインターです。ちなみに従来のJ_ToBIではHL%ラベルはその全体が句末のBI位置に与えられていました。そのため、Foのピーク位置を知ることができませんでした。

  • BIインベントリの拡張: BI拡張の第1の目的は、フィラー、語の断片化、語中のポーズなど種々の言い淀みによって生じる韻律的境界を処理することです。あわせて第2の目標として、従来認定されてきた韻律境界の中間値も許容することにしました。例えば従来の2と3の中間値としては2+b、2+p、2+bpを定義しています。ここでプラス記号に後続するアルファベット文字は、対象となる境界が何故中間値と判断されたかの根拠を示しています。2+bを例にとれば、アクセント句末に句末音調(boundary pitch movement)が存在し、句の直後にはポーズが存在しておらず、後続するアクセント句との間にピッチレンジのリセットが観察されないケースに適用されます。同様にして2+bpは、アクセント句末に句末音調が存在し、句の直後にポーズが存在するが、ピッチレンジのリセットは観察されないケースに適用されます。

X-JToBIについての解説論文をダウンロード
5-6. その他の研究用情報
ここまで説明してきた研究用情報はすべて『日本語話し言葉コーパス』の設計段階に想定していたものです。幸いなことにコーパスの構築作業が予定よりも順調に進捗しましたので、さらに数種類の研究用情報を追加することにしました。現在、1)談話セグメント境界、2)文境界、3)係り受け構造についての情報付与作業が進行中です。これらの作業は主として通信総合研究所で実施されています。付与される情報の詳細については以下の文献に説明されています。

談話セグメント境界についての論文をダウンロード
文境界についての論文をダウンロード