4. 音声の種類と分量
4.1 学会講演と模擬講演
以下の表は、『日本語話し言葉コーパス』に格納された音声の種類を分類し、その分量を示したものです。(赤字部分をクリックするとサンプル音声が再生されます)

音声の種類 話者数 ファイル数 独話/対話の別 自発/朗読の別 時間数
学会講演 838 1007 独話 自発音声 299.5
模擬講演 580 1699 独話 自発音声 324.1
朗読音声 *(244) 491 独話 朗読音声 14.1
インタビュー話者による模擬講演 *(16) 16 独話 自発音声 3.4
学会講演に関するインタビュー *(10) 10 対話 自発音声 2.1
模擬講演に関するインタビュー *(16) 16 対話 自発音声 3.4
課題志向対話 *(16) 16 対話 自発音声 3.1
自由対話 *(16) 16 対話 自発音声 3.6
再朗読 *(16) 16 独話 朗読音声 5.5
総時間数 658.8

* ( )話者は学会講演ないし模擬講演話者と重複

学会講演(Academic Presentation Speech; APS)とは、1999年から2001年にかけて国内のいろいろな学会でライブ録音された研究発表の音声です。収録に協力していただいた学会には、工学ないし自然科学系が3学会、621ファイル、人文科学系が4学会、187ファイル、社会科学系が2学会、169ファイルでした。発表の大部分は12分から25分程度の長さですが、なかには1時間を越える招待講演の類も含まれています。

模擬講演(Simulated Public Speaking; SPS)は、人材派遣会社によって選定された一般話者による日常的話題についての「スピーチ」で、大部分は国立国語研究所の音声スタジオで収録されています。聴衆は3~5名程度で、全般としてかなりリラックスした雰囲気でのスピーチが収録されています。模擬講演の話者は、性別と年代がほぼ均等に分布しています。収録では50名の話者(20代から60代まで五つの年代ごとに男女5名ずつ)を1単位として、テーマを設定しています。話者は三つの大雑把なテーマを与えられ、それぞれについて平均12分程度のスピーチをおこないます

以下の表は、模擬講演の話者に与えられたテーマを示しています。話者には収録の48時間前に三つのテーマを与え、それぞれについてスピーチを準備してもらいました。朗読用の原稿を作成することは禁止しましたが、簡潔なアウトラインを作成することは推奨しました。模擬講演の大部分は、このようにして収録しましたが、最初に収録した約100名分については、テーマを指定しておらず、話者はひとつ乃至はふたつのテーマを自由に選んで喋っています。

番号 テーマ ファイル数
0 (指定なし) 222
1 今までの人生を振り返って、あなたがうれしかった・楽しかった出来事 137
2 今までの人生を振り返って、あなたが悲しかった・つらかった出来事 134
3 あなたの住んでいる町や地域についてあなたの住んでいる町や地域について 134
4 あなたがよく知っていること、興味・関心のあることの客観的説明 151
5 今までの人生を振り返って印象に残っていること 167
6 現在から過去数年の間に、新聞・雑誌などで扱われたニュース 152
7 無人島に持っていくもの3つ無人島に持っていくもの3つ無人島に持っていくもの3つ 101
8 ~のやり方、作り方 151
9 ~の歴史 100
10 自分にとっていちばん大事なもの・人 100
11 21世紀に残したいもの・残したくないもの 150

模擬講演の大部分は国立国語研究所の音声スタジオで学会講演と同じ録音装置を用いて収録されています。ただし、最初に収録した約50名の講演だけは都心にある普通の商業用ビルの一室で収録されています。録音装置は同一ですが部屋の音響状況が異なっているので注意が必要です。

4.2 その他の音声
『日本語話し言葉コーパス』の大部分は学会講演と模擬講演ですが、その他にいろいろな種類の音声も収録しており、その一部は対話(インタビュー)音声です。

上の表で「インタビュー話者による模擬講演」とはインタビューの受け手として参加した話者全員(16名)がおこなった模擬講演(モノローグ)です。

「朗読音声」と呼んでいるのは、自然科学に関する普及書から抜き出された短いふたつの文章の朗読です。これを模擬講演話者のうち487名が朗読しており、朗読時間は3~4分です。

「学会講演に関するインタビュー」は、既に収録されている学会講演の内容についてのインタビューです。「模擬講演に関するインタビュー」は模擬講演の内容についてのインタビューです。これらのインタビューはいずれも10~15分程度です。

これらのインタビュー収録に参加した人達はインタビュー時と同じ組み合わせて「課題志向対話」と「自由対話」の収録にも参加しています。とりあげた課題はTVに登場するタレント8名のギャラを推定して高い順に並べるというものです。

最後に「再朗読」とは、書き起こされた学会講演の書き起こしテキストを同一話者が朗読した音声のことです。フィラー等の言い淀み現象も朗読の対象に含めています。