Skripte, um Web-Inhalte in pywb zu importieren.
Autor: I. Kuss
Erstanlagedatum : 29.Januar 2020
Änderung / Grund : 13.10.2023 / Erstindexierung auf tardis-01
$ ssh wayback@tardis-01
$ cd /opt/pywb
$ git clone https://github.com/hbz/pywb.bin.git bin Neuaufbau der pywb-Sammlung "Lesesaal"
ssh wayback@wayback
Löschen der Sammlung "Lesesaal"
cd /opt/pywb
. Python3/bin/activate
cd bin
./ks.remove_collection.sh lesesaal
Neuanlage der Sammlung "Lesesaal"
cd /opt/pywb
wb-manager init lesesaal
Aufteilung auf multiple Indizes in der Sammlung "lesesaal"
Die Verzeichnisse
/opt/toscience/wpull-data, /opt/toscience/heritrix-data, /opt/toscience/cdn-data und /opt/toscience/public-data
müssen auf dem wayback-Server eingerichtet sein, jeweils als symbolische Verknüpfungen zu
/data2/wpull-data, /data2/heritrix-data , /data2/cdn-data bzw. /data2/public-data,
weil die Skripte so konfiguriert sind ($data_basedir in ks.auto_add.sh, $dataverz in ks.index_*-data.sh).
1.+2. zusammenfassen und häppchenweise ausführen ! (z.Zt. 7 * 10 GB groß!):
Index: index.cdxj enthält: wpull-data, heritrix-data, cdn-data
Neuerzeugung des Index:
cd /opt/pywb/bin
nohup ./ks.reindex_haeppchenweise.sh >> /opt/pywb/logs/ks.auto_add_cron.log &
# läuft seit Freitag, 13.Oktober, 18:35 Uhr.
# Muss sieben Indexe index01.cdjx, ..., index07.cdjx erzeugen und einen aktuellen Index index.cdxj.
# fertig Dienstag, 17. Oktober, 23:05 Uhr.
3. Index: index_wget.cdxj enthält: wget-data
Neuerzeugung des Index:
./ks.index_wget-data.sh lesesaal >> /opt/pywb/logs/ks.index_wget-data.log
Neuaufbau der pywb-Sammlung "Weltweit"
ssh wayback@tardis-01
Löschen der Sammlung "Weltweit"
cd /opt/pywb/bin/
./ks.remove_collection.sh weltweit
Neuanlage der Sammlung "Weltweit"
cd /opt/pywb
wb-manager init weltweit
Ein Index: index.cdxj enthält: public-data, cdn-data
ACHTUNG !! Die Verzeichnisse
/opt/regal/wpull-data, /opt/regal/heritrix-data und /opt/regal/wget-data
müssen auf dem wayback-Server eingerichtet sein, jeweils als symbolische Verknüpfungen zu
/data2/wpull-data, /data2/heritrix-data bzw. /data2/wget-data ,
weil die Links in /data2/public-data darauf verweisen !
Neuerzeugung des Index:
cd /opt/pywb/bin
./ks.index_public-data.sh weltweit >> /opt/pywb/logs/ks.index_public-data.log # läuft seit Mittwoch, 18.Oktober, 18:13 Uhr. # fertig Sonntag, 22. Oktober, 04:10 Uhr.
ii.) Automatischer Update des Index und der Sammlung der Archivdateien für neu hinzugekommene oder aktualisierte Crawl-Vorgänge
Achtung: Funktioniert nicht für gelöschte Crawl-Archive !
ks.auto_add.sh >> /opt/pywb/logs/ks.auto_add_cron.log
Das als cronjob einstellen:
0 * * * * /opt/pywb/bin/ks.auto_add.sh >> /opt/pywb/logs/ks.auto_add_cron.log
Dieser Schritt braucht nicht mehr gemacht zu werden, da es seit Mai 2020 in ks.auto_add.sh integriert ist !!!
Die Indexe der pywb sollen nicht größer als 10GB werden. Dieses Skipt wird von monit aufgerufen
und schickt eine Mail, sobald der Indexe die kritische Größe erreicht.
Das Skript erwartet die Angabe der maximalen Größe in MB.
Aufruf:
$ check_pywb_indexsize.sh <maximale Größe>
Aufruf in monit Konfiguration mit absoluten Pfaden
$ /opt/pywb/bin/check_pywb_indexsize.sh /opt/pywb/collections/weltweit/indexes/index.cdxj 10000