言語資源開発センター -Center for Language Resource Development-
English 国立国語研究所
 

音声ラベルのエラー修正(第3刷)

第3刷における音声ラベルエラー修正の詳細を以下に記します。

基準の変更とその対応

BI層・トーン層:韻律的語断片に関する基準の変更

いわゆる言いよどみのうち、韻律的に語断片と認定される箇所には、BI層に"<D", "D"が付与される。このうち"D"の認定基準を次に示す通り修正した。

第2刷までの基準では、韻律的語断片を、当該要素の前側境界あるいは後側境界のいずれか一方、あるいは両方に韻律的不連続性が知覚される場合の要素として認定した。ここで前側境界に韻律的不連続性が認められる場合とは、具体的には当該要素に句頭境界音調"%L"が見られない事例に相当し、その境界(実質的には前の要素のBI値)に"<D"が付与される。また後側境界に韻律的不連続が感じられる場合とは、当該要素に句末境界音調"L%"が見られない事例に相当し、その境界に"D"が付与される。よって、韻律的語断片には原則として次の三つのケースが見られることになる。(ここではアクセント句を、BI=2以上あるいはD, Fのいずれかで分割される単位と仮定した上で、アクセント句の情報をあわせて記す)

(1) 前側境界にのみ韻律的不連続性が見られる場合

                                      %L の欠落
                                       ↓
     トーン層        %L  H-    L%   H%    H%
     単語層         | 部分  | (D2 ガ) | の |
     BI層                   1        <D    3
                    +----------------------+
     アクセント句             AP1

(2) 後側境界にのみ韻律的不連続性が見られる場合

                                           L% の欠落
                                            ↓
     トーン層        %LA      L% %L H-        %L  H-       L%
     単語層         | 変化 | の | (D ヒキワ) | 聞き分け | に |
     BI層                  1    2            D          1    2+b
                    +-----------+ - - - - - -+---------------+
     アクセント句        AP1       (AP2)         AP3

(3) 両方の境界に韻律的不連続性が見られる場合

                                      %L, L% の欠落
                                      ↓     ↓
     トーン層        %L H-    A    L%          %L    A        L%
     単語層         | その | 時 | の | (D シ) | 検査 | 音 | の |
     BI層                  1    1   2<D       D      1    1    3
                    +----------------+ - - - -+----------------+
     アクセント句           AP1       (AP2)         AP3

このうち(1)は、例にあるように、助詞を言い直すケースに典型的に見られるものである。<付属マニュアル(intonation.pdf,8.2節)>にも記したように、転記テキストでは先に出現し言い直されたとみなせる機能語(例では「が」)に対して(D2) タグを付与しているが、韻律的にはむしろ転記テキストで(D2) タグを付与された機能語とそれに後続する機能語(「の」)との間に不連続性 が生じることが多い。そこで第三刷では、後続要素(「の」)を語断片候補とし、次のようにBI値を付与することとした。

(1') 前側境界にのみ韻律的不連続性が見られる場合  <修正版>

                                       %L の欠落
                                       ↓
     トーン層        %L  H-    L%   H%    H%
     単語層         | 部分  | (D2 ガ) | の |
     BI層                   1        3<D   D
                    +-----------------+ - -+
     アクセント句            AP1       (AP2)

この修正は、"D"の付与基準を、「後側境界に韻律的不連続が感じられる場合に付与」から「全ての韻律的語断片の終端に付与」に変更することに相当する。

後述の通り、"D", "<D"ラベルには数多くのエラーが見られたため、全ての"D", "<D" を対象に音声を聞いた上で適宜修正を加えた。この作業の過程で、上記基準の変更に伴う修正もあわせて実施した。

単語層・分節音層・BI層:"<FV>", "(?)"音の追加

転記テキストでは、ボーカルフライ等で母音が同定できない場合にタグ"<FV>" が、それ以外で音の聞き取りが一切できない場合に用いられるタグ"(?)"が記されている。第二刷まではこれらの音を音声ラベリングの対象外とし、XML文書においても非言語音として扱ってきたが、第三刷では言語音の扱いとすることとした。この基準変更に伴い、次の修正を実施した。

  • ■ 単語層: 出現位置に"<FV>"、"(?)"を追加
  • ■ 分節音層:"<FV>","(?)"に該当する音が存在しない場合は、適宜追加
  • ■ BI層:原則として "D" (韻律的語断片)を付与

"<FV>"、"(?)"追加に伴い、必要に応じてその前後の音声ラベルを変更した。

なお、"<FV>","(?)" に相当する言語音が存在しない場合(単なるノイズの場合など)や、極めて音が小さく聞き取りが難しい場合などは、転記、形態論情報、XML文書から本タグを削除し、上記追加作業も行わなかった。削除対象となった"<FV>","(?)"の情報については以下を参照のこと。

  参照 : タグ"<FV>", "(?)" 削除リスト(第3刷)

全層:タグ"(R)"に関わる韻律ラベルの削除

講演者の名前や発表タイトルなど話者が特定できる情報や差別語は、転記テキストにおいて、

    ------------------------------------------
    0001 00000.287-00001.526 L:
    日本女子大学
    0002 00001.792-00004.270 L:
    大学院の
 ⇒ (R ××××)と
    申します
    ------------------------------------------

のようにタグ"(R)"を付け「×」記号で伏せ字化した上で、伏せ字化された範囲を含む転記基本単位全体(上記例では「大学院」~「申します」の範囲)の音声をホワイトノイズで置換するという操作をしている。つまり転記の伏せ字化の範囲と音声のホワイトノイズ処理の範囲は必ずしも一致せず、後者の方が範囲が広いということである。

 第二刷までは、転記において伏せ字化されたタグ"(R)"の範囲を対象に、音声ラベル関係の全ての層のラベルを削除して公開していたが、第三刷では、ホワイトノイズ処理の施された音声範囲のラベルを削除することとした。これは、音声の存在しない範囲のラベルが提供されても、音声を聞くことができないためデータの妥当性を検証できず、また分析時にも支障をきたすことがあるためである。

第二刷に見られる不具合の修正

分節音層:欠損ラベルの復元

第二刷までの分節音層のデータでは、一部のラベルが欠落するというエラーが生じていたが、第三刷では、単語層、XML文書、転記テキストなど各種データとの整合性の検証を経て、全ての欠損ラベルを復元した。

なお上記問題の大半は、一語(一短単位)の内部に200ミリ秒以上の長いポーズが生じているケースにおいて、その単語中の長いポーズから当該転記基本単位末までのラベルが欠落する、という問題であった。これはデータ操作上の誤りによって分節音層のデータにのみ生じたものであり、XML文書には正確な情報が記されていた。

単語層:"(F VN)" の追加

対話の転記テキストでは、応答表現「うん」等の発音において、鼻音が混ざる・母音カテゴリーが曖昧等の理由で音の認定が困難な場合、発音形をタグ"<VN>" で記している。この"<VN>"で表現される音は音声ラベリングの対象であるが、第二刷までのデータでは、単語層からこのラベルが全て欠落するという問題が生じていた。そこで第三刷では、単語層において欠落していた"<VN>"を全て復元した。具体的には、転記で感動詞等をマークするタグ"(F)" と共に "(F VN)"と表現している。

なおこの問題は単語層にのみ生じていたもので、分節音層やBI 層などその他の層、および、XML文書や転記テキスト、形態論情報データでは、データの欠損は生じていなかった。

単語層・トーン層:アクセント核の修正

単語層においてアクセント核の存在とその位置を示すアポストロフィー(')、および、トーン層においてアクセント核の存在・位置を示すラベル"A"を対象に、次の修正を行った。

■  一つのアクセント句に含まれるアクセント核の数が単語層とトーン層で異なる場合(典型的には、一方がアクセント核一つで、もう一方が無核の場合)には、音声を聞き直し、両者が一致するように修正した。

■  一つのアクセント句に二つ以上のアクセント核が存在していた場合、音声を聞き直し、不要なアクセント核を削除するか、アクセント句を二つ以上に分割することによって、規定通り一アクセント句に含まれるアクセント核が一つ以下になるように修正した。なお、次に記す"HR"がプロミネンス層に付与される場合、単語層においてアクセント核が二つ存在することがあるが、それはエラーとはみなさなかった。また一つの単語内部において複数のアクセント核が生じる場合(BI層に"W"が付与される場合に相当)もエラーとはみなさなかった。

■ プロミネンス層にラベル"HR"が付与されている場合、句末の単語「デス」「マス」に対し、単語層にはアポストロフィーを付与するが、トーン層には"A"を付与しない。この制約に違反する事例を適宜修正した。

BI層:"<F" の有無の修正

韻律的にフィラーと認定された区間の終端にはラベル"F"を、始端には(前の区間のBI値に加える形で)ラベル"<F"を付与している。つまりラベル"<F"と"F"はこの順に共起する関係にある。この制約に違反する事例について、過剰な"<F"の削除あるいは欠落している"<F"の追加を行った。

BI層:対話における不要なラベル"p"の削除

第二刷までのBI層のデータには、語中のポーズを示すラベル"P"が、ポーズの存在しない位置にも過剰に付与されるというエラーが、データ作成上の事情により対話データに限って生じていたが、第三刷ではこの過剰に付与されたラベル"P"を全て削除した。

BI層:ラベル"W","P"の位置の微修正

BI層におけるラベル"W","P"は、規定により分節音層に記される分節音の境界と完全に一致している必要があるが、第二刷までのデータでは、時間が微妙にずれているラベルが存在した。また、ラベル"P"については、生起するポーズの開始位置に付与すべきところ、終了位置に付与されている事例も見られた。第三刷ではこれらのラベルの位置を全て修正した。

BI層:"+p" BI値にポーズの存在を示す

"+p"が付与されているにも関わらず、分節音層にポーズに相当するラベル("<pz>"、"#")がない場合、逆に、分節音層にポーズ相当ラベルが存在するにも関わらず、BI層に"+p"が付与されていない場合を対象に、音声を聞いた上で適宜修正した。

BI層・トーン層:"+b" の有無の修正

BI値にアクセント句境界でのBPMの存在を示す"+b" が付与されているにも関わらず、トーン層にBPMが存在しない場合、逆に、トーン層にBPMが存在するにも関わらずBI値が"2"でかつ"+b"が付与されていない場合を対象に、音声を聞いた上で、BI値あるいはトーンラベルを適宜修正した。

BI層・トーン層:BI値とトーンラベル間の不整合箇所の修正

BI値とトーンラベルの間には次の制約があることから(次項も参照)、不整合箇所を検出の上、BI値あるいはトーンラベルを適宜修正した。

  • ■ BI=2以上の場合、トーン層は"%L"で開始し"L%"(+BPM)で終るトーンの連鎖
  • ■ BI=F の場合、トーン層は"FL"あるいは"FH"
  • ■ BI=F2 の場合、トーン層は空
  • ■ BI=D の場合、トーン層は、(1)空、(2)上記BI=2以上の場合のトーン連鎖の
  •   句頭境界音調%Lから始まる部分連鎖、(3)L% のみ、(4)BPM、のいずれか。

BI層・プロミネンス層:"EUAP"の確認

プロミネンス層のラベル"EUAP"については、BI値が2(2, 2+b, 2+p, 2+bp)であるという制約が存在するため、BI値がそれ以外(多くは3の場合)を対象に、音声を聞いた上でプロミネンス層あるいはBI層の値を適宜修正した。

トーン層:トーン層のラベル間の不整合箇所の修正

語断片やフィラー以外の通常のアクセント句の場合、つまりBI値が2以上の場合、トーン層のラベルは次に示す連鎖のいずれかに相当する(カッコ内のトーンラベルは省略可能であることを示す)。この連鎖に違反する事例を抽出し、音声を聞いた上で適宜トーンラベルを修正した。

   %L ─ ( H- ) ─ ( A ) ─ L% ┬ ( H% )
                               ├ ( pH  HL% )
                               ├ ( pL  LH% )  
                               └ ( pH pL HLH% )
                                 ~~~~~~~~~~~~~~~~
                                      BPM

トーン層:補助記号 "x","?", "!" の修正

補助記号 "x","?", "!" は、各トーンラベルとの共起の有無や、補助記号間の制約関係が定められている。この制約に違反する事例について適宜修正した。

トーン層・プロミネンス層:プロミネンス層とトーン層の不整合箇所の修正

プロミネンス層に出現するラベルとトーン層に出現するラベルとの間に存在する次の制約を用いて整合性の検証を行い、違反する場合には音声を聞いた上でプロミネンス層あるいはトーン層のラベルを適宜修正した。

  •   ラベル"PNLP":トーン層の句末境界音調"HL%"と共起
  •   ラベル"FR": トーン層の句末境界音調"H%"あるいは"HL%"と共起
  •   ラベル"HR": トーン層の句末境界音調"H%"と共起

トーン層・注釈層:層間の不整合箇所の修正

注釈層に出現する以下のラベルと、トーン層のラベルとの間に存在する次の制約を用いて整合性の検証を行い、違反する場合には音声を聞いた上で、注釈層あるいはトーン層のラベルを適宜修正した。

  •   ラベル"HBP":トーン層の句頭境界音調"(H%)%L"と共起
  •   ラベル"QQ": トーン層の句末境界音調"H%"あるいは"LH%"と共起

プロミネンス層:"HR"と"FR"の確認

ラベル"HR"は、アクセント句末の単語層の単語が「デス」あるいは「マス」の場合に限られる。句末が「デス」「マス」以外の場合、"HR"ではなく"FR" の可能性が高い。逆に句末が「デス」「マス」であるにも関わらず"FR"が付いているものは"HR"の可能性が高い。よってこれらのケースについては音声を聞いた上で適宜修正した。

プロミネンス層・その他の層:"PNLP"とアクセント核のユレの修正

アクセント句の最後から二番目のモーラ(以下「次末モーラ」)に非語彙的なプロミネンスが置かれた場合、プロミネンス層に"PNLP"を付与するが、音声学的には同じイントネーション形状を持つ発話でも、次末モーラにアクセント核が存在する場合には、独立したアクセント句として解釈する。しかし、特に末尾が二モーラから構成される助詞(「から」「の+で」など)の場合、上記の区別にユレが見られたため、音声を聞いた上で適宜修正した。

プロミネンス層・注釈層:ラベル位置の微修正

プロミネンス層における全てのラベル("PNLP", "FR", "HR", "EUAP")及び注釈層におけるラベル"QQ"は、アクセント句末のBIの位置に完全に一致している必要があるが、時間が微妙にずれているものが存在したため、第三刷ではこれらのラベルの位置を全て修正した。

注釈層におけるラベル"HBP"は、BI=1以上の語境界と完全に一致している必要があるが、同様に時間がずれているものがあったので、ラベルの位置を修正した。

注釈層におけるラベル"AYOR"は、問題事象の生じた発話(あるいはアクセント句)の最後のBI位置に付与することになっているが、実際には問題事象(引用の「と/って」など)の生起位置にBI=1の語境界と合わせる形で付与されている事例が少なからずある。しかし現状の位置の方が問題となる現象が容易に同定できることから、これらはエラーとはみなさず、上述のラベル"HBP" と同様、語境界に完全に一致させる形での修正に留めた。

注釈層:対話における不要なラベル"AYOR"の削除

第二刷までの注釈層のデータには、該当する事象の存在しない位置にラベル"AYOR"が付与されるというエラーが、データ作成上の事情により対話データに限って生じていたが、第三刷ではこの過剰に付与されたラベルを全て削除した。

BI層・トーン層: BI=<D に関する修正

"D","<D"ラベルには数多くのエラーが見られたため、全ての"D", "<D" を対象に音声を聞いた上で適宜修正を加えた。この作業の過程で、「BI層・トーン層:韻律的語断片に関する基準の変更」に記した修正もあわせて実施した。ここでは、"<D"に関する典型的なエラーとその修正方針を以下に示す。

なお、"<D" が付与されていた箇所は全て確認したが、"<D"が欠落している箇所(本来"<D"を付けるべき箇所)の網羅的修正は実施しなかった。これは、候補となる事例数が膨大である上に、修正作業の段階では欠落箇所の検出・しぼり込みが容易ではなかったためである。また、"<D"の有無の誤り自体は研究上さほど重要ではないと判断したことも理由の一つである。

■ 典型的エラー1

"<D"は前側境界に韻律的不連続性が見られる場合、つまり句頭境界音調"%L"が存在しない場合に付与されるが、特に単独で出現する"<D"にはこの基準に該当しない事例が数多く見られた。原則としてトーン層の情報を信用した上で、それに合わせる形でBI値を修正した。ただし明らかにトーン層の情報が間違っていると判断される場合には、トーン層の情報を(も)修正した。

        %L A     L% %L H-             %L  H-      L%
       | 変化 | の | (D ヒキワケン) | 聞き分け | に |
              1   <D                D          1    2+b   … (誤)
              1    2                D          1    2+b   … (正)

■ 典型的エラー2

断片要素が連続して出現する場合、仕様書には "D%lt;D" ではな"<D"とするよう記されているが、実際には次の例にあるように、このいずれでもなく、"<D" と記されているケースが多数見られた。音声を聞いた上で、BI値を適宜修正した。

                          %L H-     A         L%
       | (D ス) | (D ソ) | 総 | 刺激 | 数 | は |
               <D        D    1      1    1    3    … (誤)
                D        D    1      1    1    3    … (正)


■ 典型的エラー3

フィラーに後続して誤断片が生じる場合、フィラー先行要素にまとめて"<F<D"が付与されるケースが多数見られた。規定に従いBI値を次の通り修正した。

        %L  H-   A L%      FL             %L H-    L%
       | 行き | ます |  (Fえー) | (D コ) | これ | は |
              1  3<F<D         F         D      1    3    … (誤)
              1    3<F         F<D       D      1    3    … (正)

BI層・トーン層: BI=D に関する修正

"D"は、当該要素の前側境界あるいは後側境界のいずれか一方あるいは両方に韻律的不連続性が見られる場合、つまり、少なくとも句頭境界音調か句末境界音調のいずれか一方が欠けている場合に付与される。しかし、両音調が揃っているにも関わらず、語断片と認定され"D"が付与されている事例が見られた。これらについては、音声を聞いた上で、BI層あるいはトーン層のいずれか(場合によっては両方)を適宜修正した。

なお、上記以外にも"D"に関する個別エラーが散見されたため、全ての"D"を対象に一通り確認作業を実施した。

BI層: BI=1<F, 1+p<F に関する修正

次の例のように、本来 "D<F" と付与すべきところ、"1<F" あるいは "1+p<F" と付与されている事例が多数見られた。そこで、"1<F"、"1+p<F"と付与されている箇所を対象に、音声を聞いた上でBI値を適宜修正した。

                      FL      %L H-   A     L%
       | (D カ) | (F あのー) | 回答 | 数 | を |
               1<F           F      1    1    2      … (誤)
               D<F           F      1    1    2      … (正)

 

リンク Links