В репозитарии собраны проекты, выполненные в учебных целях. Проекты представлены в формате тетрадок iPython. Проекты были проверены наставниками Яндекс.Практикум.
Примечание: датасеты, использованные в проектах, не могут быть предоставлены из-за юридических ограничений на использование.
-
- Модель для определения стоимости автомобилей: предсказание стоимости автомобиля на основании технических характеристик и комплектации. Предсказывает лучшую цену продажи с использованием машинного обучения.
- Рекомендация тарифов: на основании данных о поведении клиентов сотового оператора, построена модель для задачи классификации, которая выберет подходящий тариф для пользователя: построены пять различных моделей со значением accuracy выше 0.75.
- Отток клиентов: предсказание расторжения договора клиентом с банком средствами машинного обучения. Борьба с дисбалансом классов.
- Температура стали: предсказание температуры расплавленной стали.
- Число такси на следующий час: прогноз количества заказов такси на следующий час.
- Анализ прибыли и рисков: на основании данных о пробах нефти в трёх регионах, качестве нефти и объемов запасов построена модель машинного обучения для определения региона, где добыча принесёт наибольшую прибыль. Линейная регрессия, статистические тесты, bootstrap.
- Коэффициент восстановления золота из золотосодержащей руды: на основании данных с параметрами добычи и очистки модель предсказывает коэффициент восстановления золота из золотосодержащей руды. Исследовательский анализ данных, предобработка, машинное обучение.
Инструменты: scikit-learn, LightGBM, Catboost, Pandas, Seaborn, Matplotlib
-
- Классификация комментариев на позитивные и негативные: инструмент для поиска токсичных комментариев. Очистка и векторизация текстов.
Инструменты: NLTK, scikit-learn
-
- Модель для автоматического определения возраста: решение задачи регрессии при обработке изображений.
Инструменты: Tensorflow
-
- Исследование тарифов сотового оператора: анализ поведения клиентов в зависимости от избранного тарифа. Исследовательский анализ данных, предобработка данных, статистические тесты, визуализация данных.
- Исследование продаж компьютерных игр: анализ рынка компьютерных игр, выявление закономерностей популярности игр. Предобработка данных, исследовательский анализ данных, визуализация, статистические тесты, предсказание оценок критиков с помощью KNN.
- Исследование надёжности заёмщиков: исследование влияния целей кредита, семейного положения, количества детей клиента на факт погашения кредита в срок.
- Исследование объявлений о продаже квартир: исследование влияния параметров квартиры (местоположение, характеристики) на рыночную стоимость квартиры. На основе данных обучена модель, предсказывающая стоимость квартиры.
- Исследование предпочтений пользователей, покупающих билеты на разные направления: анализ спроса пассажиров на рейсы в города, где проходят крупнейшие культурные фестивали.
Инструменты: Pandas, Numpy, Scipy, Statsmodel, Scikit-learn, Seaborn, Plotly, Matplotlib, Pymystem3
-
- Шифрование данных: очень простое преобразование данных с помощью Numpy с целью шифрования с обоснованием метода.
Инструменты: Pandas, Numpy