Skip to content

Lakroft/MiniReadability

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 

Repository files navigation

MiniReadability

I've found some interesting task in the internet, and complied it in python Description: Console application, geting URL as parameter. It gets useful information from web page, formate it for comfortable reading: -max line length 80 simbols, if more - carry by words -insert empty line between paragraphs -insert URL text from links in square brackets Information shoud be saved in text file. File name shoud be generated automaticaly from URL like this: http://lenta.ru/news/2013/03/dtp/index.html=> [CUR_DIR]/lenta.ru/news/2013/03/dtp/index.txt

Большинство веб-страниц сейчас перегружено всевозможной рекламой...Наша задача «вытащить» из веб-страницы только полезную информацию, отбросив весь «мусор» (навигацию, рекламу и тд).

Полученный текст нужно отформатировать для максимально комфортного чтения в любом текстовом редакторе. Правила форматирования: ширина строки не больше 80 символов (если больше, переносим по словам), абзацы и заголовки отбиваются пустой строкой. Если в тексте встречаются ссылки, то URL вставить в текст в квадратных скобках. Остальные правила на ваше усмотрение.

Программа оформляется в виде утилиты командной строки, которой в качестве параметра указывается произвольный URL. Она извлекает по этому URL страницу, обрабатывает ее и формирует текстовый файл с текстом статьи, представленной на данной странице.

В качестве примера можно взять любую статью на lenta.ru, gazeta.ru и тд

Алгоритм должен быть максимально универсальным, то есть работать на большинстве сайтов. Усложнение задачи 1: Имя выходного файла должно формироваться автоматически по URL. Примерно так: http://lenta.ru/news/2013/03/dtp/index.html=> [CUR_DIR]/lenta.ru/news/2013/03/dtp/index.txt

About

I've found some interesting task in the internet, and I complied it in python

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages