Skip to content

IvAnastasia/News-lexical-analysis

Repository files navigation

News-lexical-analysis

Цель проекта - сравнить лексику новостей на одинаковую тематику нескольких условно “провластных” и “независимых” СМИ по разным параметрам.

Презентация: https://docs.google.com/presentation/d/1q5lAEiJcgUR1HeS8PgA_cS1JEQU1hSEFpEy6YdveaTA/edit?usp=sharing

Параметры сравнения

  • Процент уникальных слов в тексте
  • Средняя длина предложения в символах
  • Средняя длина предложения в словах
  • Среднее количество предложений в тексте
  • Самые частотные n-граммы (в том числе униграммы)
  • Частотность употребления чисел и процентов (сколько в тексте статистики)
  • Частотность употребления разных частей речи
  • Частотность употребления прилагательных русский/российский, западный, американский и т.д.

СМИ

"Провластные": Царьград, РИА, Russia Today, Российская газета

"Независимые": Медуза, Новая газета, Дождь, РБК

Все материалы, созданные кодами parcing+creatingdocs1 и creatingdocs2 (с добавлением вручную текстов "Новой газеты", код которой не получилось распарсить), тут: https://disk.yandex.ru/d/moHxBbGN_wWCaQ

Код

Частотность частей речи

Уни-, би- и триграммы

Парсер

Создание двух доков со всеми новостями

Количество чисел в новостях

Определенная лексика

Средняя длина предложения

Средняя длина текста

Уникальные слова

Команда проекта

Анастасия Иванова:

  • работа с данными
  • парсер
  • самые частотные n-граммы (в том числе униграммы)
  • частотность употребления чисел и процентов
  • частотность употребления разных частей речи

Екатерина Аверьянова

  • работа с данными
  • презентации
  • процент уникальных слов в тексте
  • средняя длина предложения
  • количество определенных слов в тексте
  • среднее количество предложений в тексте

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages