-
Notifications
You must be signed in to change notification settings - Fork 0
Expand file tree
/
Copy pathks.re-add_warc-data.sh
More file actions
executable file
·44 lines (42 loc) · 2.01 KB
/
ks.re-add_warc-data.sh
File metadata and controls
executable file
·44 lines (42 loc) · 2.01 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
#!/bin/bash
# ***************************************************************************
# Fügt Archive (aus /data2/wpull-data, /data2/heritrix-data oder /data2/public-data) hinzu,
# die schon vor dem letzen Update (ks.auto_add.sh)
# im Index gewesen waren (Meldungen "Archivfile existiert" + "Archivfile ist neuer. Nichts zu tun."),
# aber die aus dem Index verschwunden sind (weil dieser gelöscht wurde).
# Dazu wird eine Liste durchgegangen, die zuvor aus ks.auto_add.log gewonnen wurde.
# Sie enthält alle zu indexierenden WARC-Archive mit vollem Pfadnamen ("$dataverz/$warcfile")
# Autor: Kuss, 17.09.2019
# KS 13.10.2025:
# Um einen Teilindex indexMN.cdxj (wieder) aufzubauen,
# muss zunächst der aktuelle Index index.cdxj gesichert werden:
# mv index.cdxj index.bak.cdxj
# Außerdem muss der aktuelle Cron-Job ks.auto_add.sh deaktiviert werden.
# Nachdem dieses Skript dann gelaufen ist (es kann auch mehrfach laufen),
# müssen die Indexe umbenannt werden:
# mv index.cdxj indexMN.cdxj
# mv index.bak.cdxj index.cdxj
# Dann den Cronjob wieder aktivieren. Für Jira-Tickets TOS-1313 und TOS-1315.
# ***************************************************************************
# Argument 1: Collection
coll=$1
liste=$2
# Beispielaufruf: ./ks.re-add_warc-data.sh lesesaal /tmp/added_warcfiles_wpull_20240921-20250227.txt
archive=/opt/pywb/collections/$coll/archive
logfile=/opt/pywb/logs/ks.re-add_warc-data.log
echo "" >> $logfile
echo "********************************************************************************" >> $logfile
echo `date` >> $logfile
echo "START Re-Adding Collection $coll"
echo "START Re-Adding Collection $coll" >> $logfile
echo "********************************************************************************" >> $logfile
while read warcfile
do
echo "warcfile=$warcfile" >> $logfile
warcbase=`basename $warcfile`
# Archivfile (symbolischer Link) löschen
rm $archive/$warcbase
echo "Warcfile wird hinzugefügt." >> $logfile
/opt/pywb/bin/ks.add_warc.sh $coll $warcfile >> $logfile
done < $liste
exit 0