Данный проект выполнен в рамках магистерской диссертации на тему: «Разработка методики выявления трендов арктических исследований на основе открытых данных социальных сетей».
Целью проекта является разработка методики для анализа текстовых данных из различных источников (социальные сети, новостные агрегаторы, научные статьи) с последующим выделением ключевых тем, прогнозированием их развития и сравнением полученных результатов между источниками.
01_collectors/
├── vk.ipynb # Сбор данных из VKontakte
├── cyberleninka.ipynb # Сбор данных из Cyberleninka
├── gnews.ipynb # Сбор данных из Google News
01_twitter_data.ipynb # Анализ готовых датасетов с Kaggle (Twitter)
02_preprocessing.ipynb # Предобработка данных из VK, Cyberleninka, Google News
03_keywords.ipynb # Выделение ключевых слов для Cyberleninka
04_topic_modeling.ipynb # Тематическое моделирование: BERTopic (VK, Google News) и LDA (Cyberleninka)
05_forecasting.ipynb # Прогнозирование трендов топ-5 тем для всех источников
06_comparison_between_sources.ipynb # Сравнение результатов между источниками по различным метрикам01_collectors/vk.ipynb01_collectors/cyberleninka.ipynb01_collectors/gnews.ipynb01_twitter_data.ipynb02_preprocessing.ipynb03_keywords.ipynb04_topic_modeling.ipynb05_forecasting.ipynb06_comparison_between_sources.ipynb
Все необходимые библиотеки устанавливаются непосредственно внутри каждого Jupyter Notebook (Google Colab).
- VK API
- Google News
- Cyberleninka
- Kaggle Datasets:
-
Сбор и обработка данных:
VK API,gdown,chardet,pandas,googletrans,Selenium,chromeDriver,fake-useragent,aiohttp -
Обработка текста:
NLTK,pymorphy2,summa,SentenceTransformer -
Анализ и моделирование:
sklearn,BERTopic,Gensim,pyLDAvis -
Визуализация:
Plotly,ipywidgets
В корне Google Диска (MyDrive) должен находиться текстовый файл keywords.txt, содержащий ключевые слова или фразы для поиска.
Формат — по одному слову или фразе на строку:
изменение климата
Арктика
устойчивое развитие
Все результаты, графики и модели сохраняются в папку TextScope, которая создается автоматически.
Проект разрабатывался и тестировался в среде Google Colab. Все необходимые зависимости устанавливаются внутри ноутбуков. Для запуска:
- Откройте каждый
.ipynbфайл в Google Colab. - Следуйте инструкциям в блокноте.
- Запускайте ноутбуки строго в указанном выше порядке.
| Ноутбук | Ссылка |
|---|---|
| Сбор данных VK | Открыть |
| Сбор данных Cyberleninka | Открыть |
| Сбор данных Google News | Открыть |
| Анализ Twitter данных | Открыть |
| Предобработка данных | Открыть |
| Выделение ключевых слов (Cyberleninka) | Открыть |
| Тематическое моделирование | Открыть |
| Прогнозирование трендов | Открыть |
| Сравнение источников | Открыть |