© Валерий Студенников
Нам понадобится Python 3 и дополнительные библиотеки:
pip3 install -U numpy
pip3 install -U pandas
pip3 install -U sklearn
pip3 install -U matplotlib
Кому нужно вдруг подтянуть Python, рекомендую ресурс http://pythontutor.ru/, где краткая теория и можно быстро и весело порешать несложные задачки онлайн. На занятиях будем исходить из того, что Python не представляет сложностей )
Классика жанра: запускаете Jupyter-web-сервер где-то у себя:
pip3 install -U jupyter
jupyter-notebook
Затем открываем в браузере http://localhost:8888/
Оболочка для Jupyter Notebook на десктопе (под разные ОС):
Расширенный вариант Jupyter Notebook блекджеком и табами. https://jupyterlab.readthedocs.io/
Тоже запускается как web-сервер:
pip3 install jupyterlab
jupyter lab
Затем открываем в браузере http://localhost:8888/
- Бесплатный хостинг Juputer-блокнотов от Google:
https://colab.research.google.com/ - Другие варианты облачных Jupyter-блокнотов:
https://www.dataschool.io/cloud-services-for-jupyter-notebook/
-
Присылать ответы в jupyter-блокнотах со следующим названием файла:
номерзадания-названиезадания-вашеимяфамалия.ipynb
, например,01-numpy-ivan_ivanov.ipynb
В заголовке самого блокнота (в самой первой ячейке) также — название задания и ФИО автора.
-
Все ячейки, требующие вычисления, должны быть вычислены и в присылаемом блокноте должен содержаться вывод ячеек. Пустой блокнот с очищенным выводом ячеек не принимается!
-
Внутри в markdown-ячейках обязательно дублируете условие задачи в виде оглавления, каждую подзадачу предваряете markdown-ячейкой с описанием подзадачи.
-
Очень желательны комментарии к коду, которые объясняют, что делает тот или иной фрагмент. Нам за reverse engeneering не доплачивают ))
-
Код по-возможности структурируйте в небольший логические блоки, каждый в своей ячейке, чтобы легко было его понять. Выводите в блокнот промежуточные результаты. Вам же будет удобнее.
-
Если в работе используется какой-то датасет — ссылку на место, откуда его взяли и на описание длатсета. Хорошо рядом с загрузкой датасета кратко продублируете описание датасета — что это такое и о чём. Это важно, например, для правильной трактовки признаков, например, чтобы отделить категоривальные признаки от вещественных.
Откуда брать датасеты для работ?
Репозитории с датасетами:
- Kaggle (как начать работу в Kaggle: руководство для новичков в Data Science)
- Материалы с курса OpenDataScience или тут
- Датасеты университета Калифорнии
- Учебные датасеты для R
- Датасеты от FiveThirtyEight
- Подборка на habr
- Подборка на Reddit
- Ещё подборка
- И ещё подборка
Всяческие открытые данные:
- Списки источников открытых данных от Яндекса
- Портал открытых данных Российской Федерации. Так себе источник, но может кто-то что-то там для себя найдёт
- Портал открытых данных правительства Москвы. Правда с числовыми полями там не очень, зато много категориальных, можно потренироваться со всякими группировками. На лекции с pandas категориальные группировки нам как раз понадобятся.
- Открытые данные Сбербанка
- Отктытые данные минфина
- Отктытые данные минкульта