jellywilliam.github.io

Портфолио Data Science

Содержание

Используемые библиотеки:

  1. PyTorch
  2. TensorFlow
  3. Pandas
  4. scikit-learn

Классификатор изображений

CatDogNet

Датасет Cats-vs-Dogs представляет собой набор изображений кошек и собак с метками классов

Кошки и собаки

Особенности: “самописная” CNN с 4 слоями свертки, нормализацией, пуллингом, регуляризацией и двумя полносвязными слоями. Точность классификации - 84% (F-мера)

Более подробно на странице проекта

X-PneumoNet

Датасет Chest X-Ray Images (Pneumonia) представляет собой набор изображений рентгенов легких с метками классов

Рентген лёгкого

Особенности: возможность использования различных архитектур CNN, ViT, BlockCNN, Hybrid CNN + ViT. Добавлена аугментация для обучающего множества. ConvNeXt за 10 эпох достиг 96% точность в определении здоровых лёгких, а также 77% в различии бактериальной и вирусной пневмонии

Более подробно на странице проекта

Сегментация изображений

CerebroNet

Датасет Brain MRI segmentation представляет собой набор из изображений МРТ головного мозга и изображений масок с аномальными участками

МРТ головного мозга

Особенности: возможность использования различных архитектур сегментации изображений, добавлены метрики Pixelwise Acc. и Mean IoU и функции потерь: DiceLoss, FocalLoss, JaccardLoss. Также проведен анализ представленных табличных данных о пациентах

Более подробно на странице проекта

Обнаружение ключевых точек на изображениях

AutoKeyPointDetectNet

Датасет CarFusion представляет собой набор из изображений, на которых присутствуют автомобили и соответствующий набор ключевых точек каждого автомобиля

Ключевые точки автомобилей на изображении

Особенности: реализация получилась немного костыльной, из-за особенностей перевода данных в формат COCO. Их-за особенностей такого рода нейросетей, им необходимо очень много вычислительных ресурсов, так что полноценно обученной модели не получилось, но наблюдался заметный прогресс работы модели

Более подробно на странице проекта

Классификация текстовых данных

GRNTIClassifier

Датасет был сгенерирован с помощью технологий веб-скрапинга и представляет собой набор из аннотаций к научным статьям и их рубрикам по ГРНТИ Научная статья

Особенности: был проведен Fine Tuning модели BERT, чтобы она могла классифицировать научные статьи. Также была попытка создать такую модель используя классические методы машинного обучения, но их точность оставляет желать лучшего. У BERT F1-мера была 86%, в то время как у Логистической регрессии 23%

Более подробно на странице проекта

Классификация табличных данных

CoroDetect

Датасет состоит из различных анализов пациентов, меткой является наличие сердечно-сосудистых заболеваний

Сердце

Более подробно на странице проекта

Особенности: точность Случайного Леса составляет 89% (F1-мера)

Аналитика данных

Набор различных учебных проектов, которые включают в себя:

Более подробно на странице проекта