Skip to content

Latest commit

 

History

History
121 lines (84 loc) · 7.51 KB

README.md

File metadata and controls

121 lines (84 loc) · 7.51 KB

Курс "Инструменты анализа данных" 2020

© Валерий Студенников

Нам понадобится Python 3 и дополнительные библиотеки:

pip3 install -U numpy
pip3 install -U pandas
pip3 install -U sklearn
pip3 install -U matplotlib

Кому нужно вдруг подтянуть Python, рекомендую ресурс http://pythontutor.ru/, где краткая теория и можно быстро и весело порешать несложные задачки онлайн. На занятиях будем исходить из того, что Python не представляет сложностей )

Варианты работы с блокнотами Jupyter:

Jupyter-сервер

Классика жанра: запускаете Jupyter-web-сервер где-то у себя:

pip3 install -U jupyter

jupyter-notebook

Затем открываем в браузере http://localhost:8888/

Приложение nteract

Оболочка для Jupyter Notebook на десктопе (под разные ОС):

https://nteract.io/

Jupyter Lab

Расширенный вариант Jupyter Notebook блекджеком и табами. https://jupyterlab.readthedocs.io/

Тоже запускается как web-сервер:

pip3 install jupyterlab

jupyter lab

Затем открываем в браузере http://localhost:8888/

Облачные блокноты

Требования к оформлению лабораторных работ:

  1. Присылать ответы в jupyter-блокнотах со следующим названием файла: номерзадания-названиезадания-вашеимяфамалия.ipynb, например, 01-numpy-ivan_ivanov.ipynb

    В заголовке самого блокнота (в самой первой ячейке) также — название задания и ФИО автора.

  2. Все ячейки, требующие вычисления, должны быть вычислены и в присылаемом блокноте должен содержаться вывод ячеек. Пустой блокнот с очищенным выводом ячеек не принимается!

  3. Внутри в markdown-ячейках обязательно дублируете условие задачи в виде оглавления, каждую подзадачу предваряете markdown-ячейкой с описанием подзадачи.

  4. Очень желательны комментарии к коду, которые объясняют, что делает тот или иной фрагмент. Нам за reverse engeneering не доплачивают ))

  5. Код по-возможности структурируйте в небольший логические блоки, каждый в своей ячейке, чтобы легко было его понять. Выводите в блокнот промежуточные результаты. Вам же будет удобнее.

  6. Если в работе используется какой-то датасет — ссылку на место, откуда его взяли и на описание длатсета. Хорошо рядом с загрузкой датасета кратко продублируете описание датасета — что это такое и о чём. Это важно, например, для правильной трактовки признаков, например, чтобы отделить категоривальные признаки от вещественных.

Датасеты:

Откуда брать датасеты для работ?

Репозитории с датасетами:

Всяческие открытые данные:

Лабораторные работы:

  1. NumPy
  2. Pandas
  3. Визуализация данных
  4. Задачи классификации. Метрики качества классификации
  5. Деревья решений
  6. Catboost
  7. Линейная Регрессия
  8. Классификация текстов с помощью TfIdf
  9. Кластеризация
  10. Понижение размерности признакового пространства

Полезные ссылки