Цель проекта - сравнить лексику новостей на одинаковую тематику нескольких условно “провластных” и “независимых” СМИ по разным параметрам.
Презентация: https://docs.google.com/presentation/d/1q5lAEiJcgUR1HeS8PgA_cS1JEQU1hSEFpEy6YdveaTA/edit?usp=sharing
- Процент уникальных слов в тексте
- Средняя длина предложения в символах
- Средняя длина предложения в словах
- Среднее количество предложений в тексте
- Самые частотные n-граммы (в том числе униграммы)
- Частотность употребления чисел и процентов (сколько в тексте статистики)
- Частотность употребления разных частей речи
- Частотность употребления прилагательных русский/российский, западный, американский и т.д.
"Провластные": Царьград, РИА, Russia Today, Российская газета
"Независимые": Медуза, Новая газета, Дождь, РБК
Все материалы, созданные кодами parcing+creatingdocs1 и creatingdocs2 (с добавлением вручную текстов "Новой газеты", код которой не получилось распарсить), тут: https://disk.yandex.ru/d/moHxBbGN_wWCaQ
Создание двух доков со всеми новостями
Анастасия Иванова:
- работа с данными
- парсер
- самые частотные n-граммы (в том числе униграммы)
- частотность употребления чисел и процентов
- частотность употребления разных частей речи
Екатерина Аверьянова
- работа с данными
- презентации
- процент уникальных слов в тексте
- средняя длина предложения
- количество определенных слов в тексте
- среднее количество предложений в тексте