Прежде чем начать работу - нужно провести рисёрч инструментов/библиотек для удаления нечётких дубликатов строк, которые уже кем-то написаны. И полезно будет сразу же почитать о видах хешей (MinHash, SimHash, MurmurHash).
Публикуйте, пожалуйста, тут ссылки на прочитанные статьи с коротким комментарием что вы узнали от туда по теме проекта.