Skip to content

nict-astrec-att/jhpt

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

9 Commits
 
 
 
 
 
 
 
 

Repository files navigation

歴史的日本語資料対訳データセット Version 2.0 (JHPT: Japanese Historical Paralell Text Dataset)

歴史的日本語資料の原文テキストと,現代語訳(参照訳)テキストをセグメント単位で対応付けた対訳データセットです.詳細は論文を参照ください.

ディレクトリ構成

jhpt
|-- README.md
|-- README_en.md
|-- data01/
|   `-- doc_list.tsv
`-- data02/
    |-- doc_list.tsv
    |-- bitext/
    |   |-- domains/
    |   `-- sources/
    `-- scripts/
        |-- build_domains.sh
        `-- compute_data_stats.py
  • 各文書のjsonlファイルは,data*/bitext/sources/ 以下に,データソースに対応する各ディレクトリ内に配置されています.
  • data* 直下で bash scripts/build_domains.sh を実行すると,data*/bitext/domains/*/ 以下に,ドメインに対応する各フォルダ内に各文書のファイルが配置されます(data*/bitext/sources/*/*.jsonl へのシンボリックリンクが作成されます).
  • 全文書のリストは data*/doc_list.tsv に記載されています.

データ概要

data01

論文[1]で構築し実験に用いたデータのうち,権利上の理由からデータ本体を非公開とした「千葉県史」(千葉県の歴史・資料編 近世1)収録の近世資料.資料リストのみ公開.

data02

論文[1]で構築したデータのうち公開可能分(歴博中世文書,福井県文書,信州地域史料)および論文[2]で追加したデータ(江戸料理レシピ)からなるデータセット.概ね次の工程により作成しました.

  1. 各データソースから原文テキスト,現代語訳テキストを取得・抽出した.
  2. 原文テキスト,現代語訳テキストを文に近い意味的なまとまり(セグメント)単位に区切り,原文セグメントと現代語訳テキストを対応付けた.
  3. 原文・現代語訳セグメントのテキストに対する改行・空白の編集,ルビの分離や,現代語訳中の注釈的内容の分離,一部現代語訳の原文に忠実な訳への加工(論文[2]の2節)などを行った.
  4. 「データ仕様」に示すようなJSONL形式に整形した.

注:論文[1]および[2]で使用した「千葉県史」に由来するデータは,本データセットに含まれていません.

データソース #文書数 #セグメント数 #原文文字数 #参照訳文字数
歴博中世文書 12 84 1,828 2,846
福井県文書 7 29 776 1,062
信州地域史料 10 374 17,199 20,515
江戸料理レシピ 1 56 2,941 2,797
合計 30 543 22,744 27,220

上記のデータサイズは,data*/scripts/compute_data_stats.py を用いて以下のようなコマンドでも表示できます(「《》」で囲まれたルビテキスト,「()」で囲まれた参照訳中の補足的情報は削除して計測しています).
なお,実験等でjsonlファイルをロードする際は,compute_data_stats.load_jsonlを参考にしてください.

$ cd data02
$ python scripts/compute_data_stats.py -i bitext/sources/Rekihaku,bitext/sources/Fukui,bitext/sources/SRHCA,bitext/sources/Edo_Cooking

Data stats: #Docs=30. Sents=543. #OrigChars=22744. #RefChars=27220.

データ仕様

各文書のjsonlファイルは,1行1セグメントで次のようになっています.

{"id": "Rekihaku:001:title", "src_text": "官宣旨(弁官下文)", "ref_text": "", "commentary": null, "ignore": true}
{"id": "Rekihaku:001:001", "src_text": "左弁官下紀伊国", "ref_text": "左弁官が紀伊国に下達します。", "commentary": null, "ignore": false}
...

フィールドの説明:

  • id: セグメントID.末尾が「title」のものは文書タイトルを表す.
  • src_text: 原文テキスト.
  • ref_text: 現代語訳テキスト(参照訳).翻訳評価対象外のセグメントの場合は空文字列.
  • commentary: 注釈テキスト.情報がない場合は null
  • ignore: 翻訳評価対象外のセグメントの場合は true

LLM性能評価実験の手順

TBW

著作権

本データセット(データベース著作物)の著作権は国立研究開発法人情報通信研究機構(NICT)が有しています.
本データセットが含んでいる現代語訳テキストの著作権は各著作権者が有しています.原文については著作権権保護期間が満了していると考えられますが,翻刻・校訂の過程で著作権が発生している可能性も考えられます.

ライセンス

なお,各出典サイトから取得したデータには,「データ概要」に示す改変を施しています.

謝辞

本データセットの構築にあたり,福井県文書館「学校向けアーカイブズガイド」の資料,信州地域史料アーカイブの資料(CC BYの資料のみ),江戸料理レシピデータセットを利用しました.
国立歴史民俗博物館より,同館所蔵の「日本の中世文書WEB」公開資料・関連データをご提供いただき,再配布を許可いただきました.

論文情報・引用

本データセットを用いて得られた研究成果を公表する場合,以下のいずれかの論文を引用ください.

[1] 東山翔平,大内啓樹,橋本雄太.中世・近世日本語資料の現代語機械翻訳における自動評価指標の検証.人文科学とコンピュータシンポジウム じんもんこん2025論文集,pp. 315-322,2025年12月.[著者公開版の論文リンク]

@article{higashiyama-etal-2025,
    author  = "東山翔平 and 大内啓樹 and 橋本雄太",
    title   = "中世・近世日本語資料の現代語機械翻訳における自動評価指標の検証",
    journal = "人文科学とコンピュータシンポジウム じんもんこん2025論文集",
    volume  = "2025",
    pages   = "315--322",   
    year    = "2025",
    month   = "dec",
    url     = "https://ipsj.ixsq.nii.ac.jp/records/2006218",
}

[2] 東山 翔平,大内 啓樹,橋本雄太,藤田篤.中世・近世日本語資料の現代語機械翻訳:評価用対訳データセットの構築とLLMの性能評価.言語処理学会第32回年次大会 (NLP2026),2026年3月.

@inproceedings{higashiyama-etal-2026,
    author  = "東山翔平 and 大内啓樹 and 橋本雄太 and 藤田篤",
    title   = "中世・近世日本語資料の現代語機械翻訳:評価用対訳データセットの構築とLLMの性能評価",
    booktitle = "言語処理学会第32回年次大会",
    year    = "2026",
    month   = "mar",
}

更新履歴

  • 2026/02/09 ディレクトリ構成・README 更新
  • 2026/02/06 Version 2.0 公開

連絡先

ご質問等は論文第1著者にご連絡ください.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors