11 lines (9 loc) · 4.4 KB

projects_openbio

My projects in the OpenBio course Здесь добавлю 6 домашних заданий из курса OpenBio

Название проекта	Описание
Домашнее задание№1 ЛогиноваВИ	Формулировка: Возьмите Breast Cancer Wisconsin Dataset по предсказанию рака молочной железы по признакам извлечённым из снимков, полученных в результате аспирацией тонкой иглой. — Подготовьте датасет для решения задачи классификации. — Научитесь каким-нибудь методом предсказывать, какие образцы злокачественные, какие — нет. — Опишите самые значимые и наименее значимые признаки. Есть ли скоррелированные признаки? — Оцените метрики качества итоговой модели.
Домашнее задание№2 ЛогиноваВИ	Формулировка: Для данных из статьи Sandra Oliveira et al., Genome-wide variation in the Angolan Namib Desert reveals unique pre-Bantu ancestry.Sci. Adv.9,eadh3822(2023). DOI: 10.1126/sciadv.adh3822 визуализировать результаты PCA преобразования и попробовать на основании имеющихся метаданных с описанием образцов из статьи понять, с чем могут соотносится полученные в ходе преобразования компоненты. — Подготовьте датасет для построения PCA преобразования. — Провести PCA преобразование данных. — Подсчитать вклад каждой компоненты. — Визуализировать результаты PCA преобразования с выделением на графике групп образцов принадлежащих одной популяции.
Домашнее задание №3 Логинова ВИ	Формулировка: Провести QC анализ bulk RNA-seq датасета(в дополнительной части scRNA-seq) с помощью метода PCA. Датасет bulkRNA-seq нужно будет взять из базы данных GEO - https://www.ncbi.nlm.nih.gov/geo/ Идентификатор датасета GSE184891 Нужны будут только данные для клеточной линии HL-60. — Подготовьте датасет для построения PCA преобразования. — Провести PCA преобразование данных и визуализировать его результаты. — Сделать вывод на основании PCA преобразования о том насколько сходятся повторности.
Домашнее задание №5 Логинова ВИ	Формулировка: В ходе выполнения домашнего задания предлагается расширить содержание практикума, а именно добавить дополнительные методы интеграции мультиомиксных данных или же изменить параметры у существующих. — Запустить MOFA c параметром convergence_mode=«fast» и ответить на вопрос: «Сильно ли поменялось качество регресионной модели? ». — Попробовать эмпирически подобрать оптимальное количество эпох для обучения автоэнкодера. Оптимальное количество в смысле получения максимально возможного качества регресионной модели(параметры MAPE и C-index).