@@ -5,15 +5,15 @@ ARCHIVES_DIR = $(ARXIV_DIR)/sources
5
5
UNPACKED_DIR = $(ARXIV_DIR ) /unpacked_sources
6
6
HTMLS_DIR = $(ARXIV_DIR ) /htmls
7
7
FIXED_HTMLS_DIR = $(ARXIV_DIR ) /htmls-clean
8
- TABLES_DIR = $(ARXIV_DIR ) /tables
9
- TEXTS_DIR = $(ARXIV_DIR ) /texts
8
+ TABLES_DIR = $(ARXIV_DIR ) /papers
9
+ TEXTS_DIR = $(ARXIV_DIR ) /papers
10
10
11
11
ARCHIVES := $(shell find $(ARCHIVES_DIR ) -name '* .gz' -type f 2>/dev/null)
12
12
UNPACKS := $(patsubst $(ARCHIVES_DIR ) /% .gz,$(UNPACKED_DIR ) /% ,$(ARCHIVES ) )
13
13
HTMLS := $(patsubst $(ARCHIVES_DIR ) /% .gz,$(HTMLS_DIR ) /% .html,$(ARCHIVES ) )
14
14
FIXED_HTMLS := $(patsubst $(ARCHIVES_DIR ) /% .gz,$(FIXED_HTMLS_DIR ) /% .html,$(ARCHIVES ) )
15
15
TABLES := $(patsubst $(ARCHIVES_DIR ) /% .gz,$(TABLES_DIR ) /% ,$(ARCHIVES ) )
16
- TEXTS := $(patsubst $(ARCHIVES_DIR ) /% .gz,$(TEXTS_DIR ) /% .json,$(ARCHIVES ) )
16
+ TEXTS := $(patsubst $(ARCHIVES_DIR ) /% .gz,$(TEXTS_DIR ) /% /text .json,$(ARCHIVES ) )
17
17
18
18
.PHONY : all
19
19
all : $(ANNOTATIONS_DIR ) /pdfs-urls.csv $(ANNOTATIONS_DIR ) /sources-urls.csv extract_all
@@ -34,7 +34,7 @@ extract_all: extract_tables extract_texts
34
34
35
35
extract_texts : $(TEXTS )
36
36
37
- $(TEXTS ) : $(TEXTS_DIR ) /% .json: $(FIXED_HTMLS_DIR ) /% .html
37
+ $(TEXTS ) : $(TEXTS_DIR ) /% /text .json: $(FIXED_HTMLS_DIR ) /% .html
38
38
python ./extract_texts.py $^ $@
39
39
40
40
0 commit comments