pywb-scripts

Skripte, um Web-Inhalte in pywb zu importieren. Autor: I. Kuss
Erstanlagedatum : 29.Januar 2020
Änderung / Grund : 13.10.2023 / Erstindexierung auf tardis-01

Einrichtung

$ ssh wayback@tardis-01
$ cd /opt/pywb
$ git clone https://github.com/hbz/pywb.bin.git bin

i.) Erstmaliges Hinzufügen von Webinhalten zu Python-Wayback Index & Archiv

Gesamtindexierung des vorhandenen Bestandes

I. Lesesaal-Sammlung

Neuaufbau der pywb-Sammlung "Lesesaal"
ssh wayback@wayback
Löschen der Sammlung "Lesesaal"
cd /opt/pywb . Python3/bin/activate cd bin ./ks.remove_collection.sh lesesaal
Neuanlage der Sammlung "Lesesaal"
cd /opt/pywb
wb-manager init lesesaal

Aufteilung auf multiple Indizes in der Sammlung "lesesaal"
Die Verzeichnisse /opt/toscience/wpull-data, /opt/toscience/heritrix-data, /opt/toscience/cdn-data und /opt/toscience/public-data müssen auf dem wayback-Server eingerichtet sein, jeweils als symbolische Verknüpfungen zu /data2/wpull-data, /data2/heritrix-data , /data2/cdn-data bzw. /data2/public-data, weil die Skripte so konfiguriert sind ($data_basedir in ks.auto_add.sh, $dataverz in ks.index_*-data.sh).

1. Index: index.cdxj enthält: wpull-data, cdn-data

Neuerzeugung des Index:

cd /opt/pywb/bin

./ks.index_wpull-data.sh lesesaal >> /opt/pywb/logs/ks.index_wpull-data.log

2. Index: index_htrx.cdxj enthält: heritrix-data

Neuerzeugung des Index:

./ks.index_heritrix-data.sh lesesaal >> /opt/pywb/logs/ks.index_heritrix-data.log

1.+2. zusammenfassen und häppchenweise ausführen ! (z.Zt. 7 * 10 GB groß!): Index: index.cdxj enthält: wpull-data, heritrix-data, cdn-data Neuerzeugung des Index:
cd /opt/pywb/bin nohup ./ks.reindex_haeppchenweise.sh >> /opt/pywb/logs/ks.auto_add_cron.log & # läuft seit Freitag, 13.Oktober, 18:35 Uhr. # Muss sieben Indexe index01.cdjx, ..., index07.cdjx erzeugen und einen aktuellen Index index.cdxj. # fertig Dienstag, 17. Oktober, 23:05 Uhr. 3. Index: index_wget.cdxj enthält: wget-data
Neuerzeugung des Index:
./ks.index_wget-data.sh lesesaal >> /opt/pywb/logs/ks.index_wget-data.log

II. Weltweit-Sammlung

Neuaufbau der pywb-Sammlung "Weltweit"
ssh wayback@tardis-01
Löschen der Sammlung "Weltweit"
cd /opt/pywb/bin/
./ks.remove_collection.sh weltweit
Neuanlage der Sammlung "Weltweit"
cd /opt/pywb
wb-manager init weltweit

Ein Index: index.cdxj enthält: public-data, cdn-data
ACHTUNG !! Die Verzeichnisse
/opt/regal/wpull-data, /opt/regal/heritrix-data und /opt/regal/wget-data müssen auf dem wayback-Server eingerichtet sein, jeweils als symbolische Verknüpfungen zu
/data2/wpull-data, /data2/heritrix-data bzw. /data2/wget-data , weil die Links in /data2/public-data darauf verweisen ! Neuerzeugung des Index:
cd /opt/pywb/bin

Das muss eigentlich auch noch häppchenweise geschehen !! Z.Zt. 20,6 GB groß

./ks.index_public-data.sh weltweit >> /opt/pywb/logs/ks.index_public-data.log # läuft seit Mittwoch, 18.Oktober, 18:13 Uhr. # fertig Sonntag, 22. Oktober, 04:10 Uhr.

ii.) Automatischer Update des Index und der Sammlung der Archivdateien für neu hinzugekommene oder aktualisierte Crawl-Vorgänge

Achtung: Funktioniert nicht für gelöschte Crawl-Archive !
ks.auto_add.sh >> /opt/pywb/logs/ks.auto_add_cron.log
Das als cronjob einstellen:

m h dom mon dow Befehl

Indexierung neu geharvesteter Webschnitte (Python-Wayback) (seit 22.05.2020)

0 * * * * /opt/pywb/bin/ks.auto_add.sh >> /opt/pywb/logs/ks.auto_add_cron.log

iii.) Überwachung, dass die Indizes nicht zu groß werden

Dieser Schritt braucht nicht mehr gemacht zu werden, da es seit Mai 2020 in ks.auto_add.sh integriert ist !!!

Monitoring der pywb Indexe

Die Indexe der pywb sollen nicht größer als 10GB werden. Dieses Skipt wird von monit aufgerufen
und schickt eine Mail, sobald der Indexe die kritische Größe erreicht.
Das Skript erwartet die Angabe der maximalen Größe in MB.

Aufruf:
$ check_pywb_indexsize.sh <maximale Größe>
Aufruf in monit Konfiguration mit absoluten Pfaden
$ /opt/pywb/bin/check_pywb_indexsize.sh /opt/pywb/collections/weltweit/indexes/index.cdxj 10000

Name		Name	Last commit message	Last commit date
Latest commit History 34 Commits
.gitignore		.gitignore
README.md		README.md
check_pywb_indexsize.sh		check_pywb_indexsize.sh
ks.add_warc.sh		ks.add_warc.sh
ks.auto_add.sh		ks.auto_add.sh
ks.index_heritrix-data.sh		ks.index_heritrix-data.sh
ks.index_public-data.sh		ks.index_public-data.sh
ks.index_warc.sh		ks.index_warc.sh
ks.index_wget-data.sh		ks.index_wget-data.sh
ks.index_wpull-data.sh		ks.index_wpull-data.sh
ks.re-add_warc-data.sh		ks.re-add_warc-data.sh
ks.reindex.sh		ks.reindex.sh
ks.reindex_haeppchenweise.sh		ks.reindex_haeppchenweise.sh
ks.remove_collection.sh		ks.remove_collection.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

pywb-scripts

Einrichtung

i.) Erstmaliges Hinzufügen von Webinhalten zu Python-Wayback Index & Archiv

Gesamtindexierung des vorhandenen Bestandes

I. Lesesaal-Sammlung

1. Index: index.cdxj enthält: wpull-data, cdn-data

Neuerzeugung des Index:

cd /opt/pywb/bin

./ks.index_wpull-data.sh lesesaal >> /opt/pywb/logs/ks.index_wpull-data.log

2. Index: index_htrx.cdxj enthält: heritrix-data

Neuerzeugung des Index:

./ks.index_heritrix-data.sh lesesaal >> /opt/pywb/logs/ks.index_heritrix-data.log

II. Weltweit-Sammlung

Das muss eigentlich auch noch häppchenweise geschehen !! Z.Zt. 20,6 GB groß

ii.) Automatischer Update des Index und der Sammlung der Archivdateien für neu hinzugekommene oder aktualisierte Crawl-Vorgänge

m h dom mon dow Befehl

Indexierung neu geharvesteter Webschnitte (Python-Wayback) (seit 22.05.2020)

iii.) Überwachung, dass die Indizes nicht zu groß werden

Dieser Schritt braucht nicht mehr gemacht zu werden, da es seit Mai 2020 in ks.auto_add.sh integriert ist !!!

Monitoring der pywb Indexe

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

pywb-scripts

Einrichtung

i.) Erstmaliges Hinzufügen von Webinhalten zu Python-Wayback Index & Archiv

Gesamtindexierung des vorhandenen Bestandes

I. Lesesaal-Sammlung

1. Index: index.cdxj enthält: wpull-data, cdn-data

Neuerzeugung des Index:

cd /opt/pywb/bin

./ks.index_wpull-data.sh lesesaal >> /opt/pywb/logs/ks.index_wpull-data.log

2. Index: index_htrx.cdxj enthält: heritrix-data

Neuerzeugung des Index:

./ks.index_heritrix-data.sh lesesaal >> /opt/pywb/logs/ks.index_heritrix-data.log

II. Weltweit-Sammlung

Das muss eigentlich auch noch häppchenweise geschehen !! Z.Zt. 20,6 GB groß

ii.) Automatischer Update des Index und der Sammlung der Archivdateien für neu hinzugekommene oder aktualisierte Crawl-Vorgänge

m h dom mon dow Befehl

Indexierung neu geharvesteter Webschnitte (Python-Wayback) (seit 22.05.2020)

iii.) Überwachung, dass die Indizes nicht zu groß werden

Dieser Schritt braucht nicht mehr gemacht zu werden, da es seit Mai 2020 in ks.auto_add.sh integriert ist !!!

Monitoring der pywb Indexe

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages