Skip to content

r-classes/2019_2020_ds4dh_hw_2_dplyr_tidyr_ggplot2

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

8 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Анализ данных для DH, hw2: dplyr, tidyr, ggplot2

  • дедлайн для задания: 14.11.2019, 23:59
  • задания не предполагают использование каких-то других пакетов или датасетов, кроме тех, что указаны в соответсвтующих файлах
  • не стесняйтесь задавать вопросы (но лучше открывать issue, а не писать в телеграме). Помните, что я не смогу помочь, если все начнут писать в последний вечер перед дедлайном, так что начните делать задания заранее.

Задание 2.1

На Pudding недавно вышла статья "Finding Forever Homes", посвященная миграции и эмиграции собак в США. Здесь лежит немного обработанный датасет, которые использовался в статье. Датасет состоит из 58 113 строк и 5 переменных:

  • id -- уникальный id с сервиса PetFinder
  • name -- кличка собаки
  • sex -- пол собаки (Female, Male, or Unknown)
  • age -- категориальная переменная с возрастом собаки (Baby, Young, Adult, Senior)
  • contact_state -- штат, в котором находиться приют

Заполните пропуски в файле task_2.1.R в Вашем репозитории, так чтобы получился следующий график. На нем изображено по 20 самых популярных кличек собак живущих в приютах в США для каждого пола. Обратите внимание на подписи осей. Нестанадртные цвета на этом графике появились благодаря команде scale_fill_brewer(palette="Dark2") (см. файл task_2.1.R).

Задание 2.2

Используя датасет из предыдущего задания, заполните пропуски в файле task_2.2.R в Вашем репозитории, так чтобы получившаяся программа считала, какую долю составляют собаки разного возраста в подгруппах по полу. Должно получиться что-то такое:

# A tibble: 4 x 3
  age      Male Female
  <chr>   <dbl>  <dbl>
1 Adult  0.476  ...
2 Young  ...    ...
3 Baby   ...    ...
4 Senior ...    ...

На всякий случай: доли в каждом из столбцов должны давать в сумме 1 (при округлении), если у Вас выходит значительно больше -- значит что-то Вы делаете не так, как ожидается.

Задание 2.3

В датасете содержаться информация об объектах, выданных библиотекой Сиэтла 100 и более раз (исходные данные доступны здесь). Датасет состоит из разбитых на листы файла .xlsx 180 495 строк и 5 переменных:

  • id -- идентификационный номер объекта
  • type -- тип объекта (bk -- книга, bknh -- другая категория с книгами, cas -- кассеты, cd -- CD, dvd -- DVD, kit -- комплект (я сам пока не разобрался что там...), vhs -- видеокассеты VHS)
  • name -- название
  • n -- сколько раз взяли в том или иному году
  • year -- год

Используя вот этот датасет, заполните пропуски в файле task_2.3.R в Вашем репозитории, так чтобы получившаяся программа нарисовала следующий график. На графике изображены 100 самых популярных объектов за все годы.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages