現代日本語書き言葉均衡コーパスは、次の2種類の言語単位に分割され、品詞などの情報が付与されています。
この短単位・長単位は、いずれも『日本語話し言葉コーパス』(CSJ)で採用した言語単位です。また、短単位は国立国語研究所が行った現代雑誌九十種調査のβ単位を、長単位はテレビ放送の語彙調査の長い単位を基に設計したものです。CSJとの互換性の保持と、国立国語研究所の持つ語彙調査の知見の活用の両立を図っています。
短単位は、言語の形態的側面に着目して規定した言語単位です。短単位の認定に当たっては、まず現代語において意味を持つ最小の単位(以下、最小単位と呼びます)を規定します。
その上で、最小単位を文節の範囲内で短単位の認定規定に基づいて結合させる(又は結合させない)ことにより、短単位を認定します。短単位は、基準が分かりやすく、作業上のゆれが少ないという特徴があります。
最小単位は、現代語において意味を持つ最小の単位であり、和語・漢語・外来語・記号・人名・地名の種類ごとに、次のように認定します。 / は、最小単位の分割位置を表します。
上記のように認定した最小単位を短単位認定の必要上、下表のように分類します。
分 類 | 例 | |
---|---|---|
一 般 | 和 語: 豊か 大 雨 ... 漢 語: 国 語 研 究 所 ... 外来語: コール センター オレンジ ... |
|
数 | 一 二 十 百 千 ... | |
そ の 他 |
付属要素 | 接頭的要素: 相 御 各 ... 接尾的要素: 兼ねる がたい 的 ... |
助詞・助動詞 | う だ ます か から て の ... | |
人名・地名 | 星野 仙一 大阪 六甲 ... | |
記 号 | A B ω イ ロ ア JR ... |
短単位の認定規定は、上の表の分類ごとに定められています。その規定に基づいて最小単位を結合させる(又は結合させない)ことによって、短単位を認定します。
以下、「一般」・「数」・その他に分けて、短単位認定規定の概略を示します。
省略された外来語の最小単位は、和語・漢語の最小単位と同様に扱う。
省略された外来語の最小単位と省略されていない外来語の最小単位との1次結合体は1短単位とする。
最小単位が3個以上並列した場合の各最小単位。
類概念を表す部分と名を表す部分とが結合してできた固有名詞のうち、類概念を表す部分と名を表す部分とが共に1最小単位の場合の、それぞれの最小単位。
3個以上の最小単位からなる組織名等の略称。
切る位置が明確でないもの、あるいは切った場合と一まとめにした場合とで意味にずれがあるもの。
「数」以外の最小単位と結合させない。「数」どうしの結合は、一・十・百・千のとなえを取る桁ごとに1短単位とする。
「万」「億」「兆」などの最小単位は、それだけで1短単位とする。小数部分は1最小単位を1短単位とする。
1最小単位を1短単位とする。
短単位には、代表形、代表表記、品詞、活用型、活用形を与えます。代表形は、国語辞典の見出しに、代表表記はその見出しに与えた漢字等の表記に相当するものです。
短単位への分割及び情報付与を大量に行うためには、自動解析システムが必須のものとなります。現代日本語書き言葉均衡コーパスでは、千葉大学と共同開発したUniDicという解析用辞書を使用しています。UniDicへの見出し語の追加など整備拡充を行い、解析精度の向上を図っています。最新版のUniDic は、以下のURLで公開されています。 UniDic ウェブページ
長単位は文節を基にした単位です。長単位の認定は、文節の認定を行った上で、各文節の内部を規則に従って自立語部分と付属語部分に分割していくという手順で行います。
長単位では、複合語を構成要素に分割することなく全体で一つとして扱います。このような長単位を使うことによって、各分野の特徴的な語を把握することができます。
文節は、一般に付属語又は付属語連続の後ろに境界があります。
BCCWJでは、日本語教育等での活用を想定し、複合辞も付属語として認めました。文節を認定する上で問題となることの一つに、固有名、動植物名、連語の扱いがあります。これらについては、内部にある助詞・助動詞の後ろで文節を切らないこととしました。 | は、分割位置を表します。
長単位は、上記の文節を規定に基づいて分割する(又は分割しない)ことによって長単位を認定します。文節を超えることはありません。
以下、長単位認定規定の概略を示します。 | は、分割位置を表します。
付属語(複合辞を含む。)は1長単位とする。
体言及び副詞に形式的な意味の「する」「できる」「なさる」「いたす」が直接続く場合、体言及び副詞と「する」「できる」「なさる」「いたす」とを切り離さない。
並列の関係にある語は切り離さない。
また並列の関係にある体言連続のうち、並列された体言全体を受ける、又はそれら全体に係る体言的な形式や接辞がある場合及び形式的な意味の「する」「できる」「なさる」「いたす」がある場合も¥切らない。
同格の関係にある体言連続は切り離さない。