言語資源開発センター -Center for Language Resource Development-
English 国立国語研究所
 

書誌情報データベース Bibliography

BCCWJ 有償版で提供される書誌情報データベースは、以下のデータ群から構成されます。

  • 書誌情報データ(Bibliography.txt)
    サンプルを取得した原本に関する情報。
  • サンプル情報データ(Sample_info.txt)
    サンプルのID や取得状況に関する情報。
  • 人名録データ(Directory.txt)
    サンプルの著者や著作権者などに関する情報。
  • 記事情報データ(Article.txt)
    記事に含まれる文章の著者および初出に関する情報。
  • サンプルIDベース書誌情報データ(Joined_info.txt)
    『中納言』で出力されるサンプルIDベースの書誌情報

以下、各データの構成について概略を示します。

※参照:丸山岳彦・山崎誠・柏野和佳子ほか(2011).『『現代日本語書き言葉均衡コーパス』におけるサンプリングの原理と運用』, 特定領域研究「日本語コーパス」平成22年度研究成果報告書(JC-D-10-01)

「書誌情報データ」(Bibliography.txt)

 書誌情報データ(Bibliography.txt)では、サンプルが抽出された出典元(原本)に関する書誌情報が、表8-1に示す15列によって表現されている。

「書誌情報データ」の構成

1 書誌ID(Bib_ID) サンプルを抽出した原本に対して付されたID。
2 タイトル(Title) 原本のタイトル。
3 副題(Subtitle) 原本の副題(サブタイトル)。
4 巻号(Number) 原本の巻号。
5 責任表示(Bib_author) 原本の責任表示(著者、編者、監修者など)。
6 出版者(Publisher) 原本の出版者(出版社)。
7 出版年(Year) 原本の出版年。
8 ISBN(ISBN) 原本に付されたISBN(国際標準図書番号)。
9 判型(Size) 原本のサイズ。
10 ページ数(Pages) 原本のページ数。
11 ジャンル(1) (Genre_1) 原本のジャンルに関する情報(1)。
12 ジャンル(2) (Genre_2) 原本のジャンルに関する情報(2)。
13 ジャンル(3) (Genre_3) 原本のジャンルに関する情報(3)。
14 ジャンル(4) (Genre_4) 原本のジャンルに関する情報(4)。
15 責任表示ID (Bib_author_ID) 原本の責任表示に対応するID。

 書誌情報データの例を、以下の表に示す。実際には15列のタブ区切りテキストだが、ここでは折り返して表示している。「|」が表示されている列は、そのメディアには情報が付与されないことを示す。

「書誌情報データ」の例

「サンプル情報データ」(Sample_info.txt)

 サンプル情報データ(Sample_info.txt)では、BCCWJに収録された各サンプルのIDや抽出状況に関する情報が、表8-3に示す5列によって表現されている。

「サンプル情報データ」の構成

1 サンプルID(Sample_ID) サンプルに対して一意に付されたID。
2 書誌ID(Bib_ID) サンプルを抽出した原本に対して付されたID。
3 サンプル抽出基準点ページ(Sampling_page) サンプル抽出基準点を取得したページ。
4 サンプル抽出基準点座標(Sampling_point) サンプル抽出基準点を取得した交点。

 サンプル情報データの例を、表8-4に示す。

「サンプル情報データ」の例

メディア Sample_ID Bib_ID Sampling _page Sampling_point
出版・書籍 PB10_00047 BK_20205918 163 5D
雑誌 PM11_00053 PM_10550109 76 9F
新聞 PN1a_00013 PN_01010225 4 6C
図書館・書籍 LBa1_00004 BK_86049602 230 2H
白書 OW6X_00009 WR_00000066 285 4C
教科書 OT01_00008 TB_01000002 31 8A
広報紙 OP00_00001 PR_01103001 - -
ベストセラー OB0X_00001 BK_75079014 358 4D
Yahoo!知恵袋 OC01_00001 YC_00297514 - -
Yahoo!ブログ OY01_00005 YB_00010571 - -
韻文 OV0X_00001 VE_00010001 - -
法律 OL3X_00072 LA_H01HO058 - -
国会会議録 OM11_00001 MD_80010001 - -

「人名録データ」(Directory.txt)

 人名録データ(Directory.txt)では、書誌データ(Bibliography.txt)の「責任表示(Bib_author)」列に記載されている人名や組織名(著者、編者、監修者など)や、各サンプルに含まれる記事を実際に執筆した著者名などの情報が、以下の表に示す4列によって表現されている。

「人名録データ」の構成

1 人名ID(Directory_ID) 人物や組織に対して一意に付されたID。
2 人名(Name) 人物の氏名、または組織名。
3 性別(Sex) 性別。
4 生年代(BirthYear) 生年(10年単位)。

 人名録データの例を、次の表に示す。

「人名録データ」の例

Directory_ID Name Sex BirthYear
634 会田 雄次 1910
98948 アントニオ猪木 1940
153494 群 ようこ 1950
840303 厚生労働省労働基準局

258003 講談社

2502212 NHK「プロジェクトX」制作班

記事情報データ(Article.txt)

 記事情報データ(Article.txt)では、各サンプルに含まれる「記事」を対象として、「実著者」および「初出」に関する情報が、以下の表に示す6列によって表現されている。

1 サンプルID(Sample_ID) 各サンプルに対して一意に付されたID。
2 記事ID(Article_ID) 各記事に対して一意に付されたID。
3 人名ID(Directory_ID) 各記事を実際に執筆した著者に対して一意に付されたID。
4 役割(Role) 著者の役割(実著者、原著者、翻訳者の別)。
5 初出情報(First_appearance) 各記事の初出に関する情報。
6 初刊情報(First_published) 各記事の初刊に関する情報。

 記事情報データの例を、次の表に示す。

「記事情報データ」の例

Sample_ID Article_ID Directory_ID Role First_appearance First_published
LBa0_00002 LBa0_00002_V001 59986 実著者 1984 1986
LBq1_00026 LBq1_00026_F003 262756 実著者 2000-2001 2002
LBa1_00006 LBa1_00006_V001 459606 原著者 1986  
LBa1_00006 LBa1_00006_V001 108831 翻訳者 1986  
PB12_00059 PB12_00059_V001 189710 実著者 n.d.-n.d. 2001
PM11_00289 PM11_00289_F002 0 実著者 2001  
PN1a_00004 PN1a_00004_V003 256908 実著者 2001  

なお、記事情報データは、「書籍」「雑誌」「新聞」に対してのみ提供される。

 
 

リンク Links