Historical News NLP Datathon Project

Project Presentation

Detecting advertisement properties in historical copies of the New York Times and the Atlanta Daily World

Data (Omitted from Repo): Around 10 million historical New York Times and Atlanta Daily World advertisements, articles, cover pages, etc. represented in XML files. The text of these files were produced through OCR software.

1) XML Parser.ipynb - Retrieving Text from XML Files

Extracted Properties:
- Full Text Data
- Publish Date
- Newspaper Publisher
Input:
- ProQuest Datathon zip files (ours was split downloaded 11 parts)
- New York Times & Atlanta Daily World Advertisement csv
Output:
- AdData.csv (Complete csv with 2 mil+ data points of advertisement OCR data)

2) Data Cleaning.ipynb - Handling OCR Errors

Input:
- AdData.csv
Output:
- TrainingData.csv (1000 observations picked to train Name Entity Recognition Model)$$

3) Modeling.ipynb - Training and Testing Custom NER Model

label.py - Labeling training and testing data
Input:
- Training and Testing Data
Output:
- Recall
- Precision
- F1-Score

Team: News Diggers

Thank you to Amy Zhu, Hui Wen Goh, Noah Kurrack, Zixiao Chen

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
images		images
.gitignore		.gitignore
Classifier.ipynb		Classifier.ipynb
Data Cleaning.ipynb		Data Cleaning.ipynb
Modeling.ipynb		Modeling.ipynb
README.MD		README.MD
XML Parser.ipynb		XML Parser.ipynb
label.py		label.py
xml_parser.py		xml_parser.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Historical News NLP Datathon Project

Project Presentation

1) XML Parser.ipynb - Retrieving Text from XML Files

Extracted Properties:

Input:

Output:

2) Data Cleaning.ipynb - Handling OCR Errors

Input:

Output:

3) Modeling.ipynb - Training and Testing Custom NER Model

label.py - Labeling training and testing data

Input:

Output:

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Historical News NLP Datathon Project

Project Presentation

1) XML Parser.ipynb - Retrieving Text from XML Files

Extracted Properties:

Input:

Output:

2) Data Cleaning.ipynb - Handling OCR Errors

Input:

Output:

3) Modeling.ipynb - Training and Testing Custom NER Model

label.py - Labeling training and testing data

Input:

Output:

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages