NDL onlineからダウンロードしたPDFの結合と整理をします
PDFをダウンロードするフォルダと、結合したPDFを保存するフォルダを用意してください
source_path = 'PDFをダウンロードするフォルダのパス'
library_path = '結合したPDFを保存するフォルダのパス'
ダウンロード先は当然source_pathに指定したフォルダ
metadataがちゃんと保存されるように(そして負荷をかけないために)、「PDFファイルを開く」を右クリックして「名前をつけてリンク先を保存」からダウンロード
「印刷」からPDFをダウンロードする
1-50,51-100,101-150のように、50コマずつ指定してダウンロードする必要がある
「印刷」か、下部にある「ダウンロード」からPDFを選択し、すべてのコマをダウンロードする
欲しい資料をダウンロードし終えたら、NDL-onlinePDFMerger.pyを実行する
資料についている永続的識別子ndl_idに基づいて各資料を結合します
「名前をつけてリンク先を保存」を選択時に自動で付与された括弧つきの連番を利用してソートし、結合します
最初に保存されたPDFファイル(括弧つきの連番がついてないPDFファイル)につけられているmetadataを、結合後のPDFファイルに付与します
ダウンロード時のファイル名とあまり変わらないように、
merged_file_name = 'digidepo_' + ndl_id + '_merged.pdf'
で保存します
metadataのうち、/Keywordsを利用してPDFファイルを振り分けます
library_pathの下に、二つのフォルダを作成します
/Keywordsに含まれる、著者とタイトルKeywords_title_author、出版社Keywords_publisher、出版年Keywords_yearのデータを利用して、
folder_name = Keywords_publisher + '_' + Keywords_year + '_' + ndl_id + '_' + Keywords_title_author
library_output_path = os.path.join(library_path, Keywords_publisher, folder_name)
os.makedirs(library_output_path, exist_ok=True)
と、「出版社の階層」の下に、「出版社_出版年_ndl_id_著者とタイトルの階層」を作ります
すなわち、D://hogehoge/中央公論社/中央公論社_昭和10_1234567_矢田插雲 著『太閤記』第9巻のような形式です