Анализ данных для DH, hw2: dplyr, tidyr, ggplot2

дедлайн для задания: 14.11.2019, 23:59
задания не предполагают использование каких-то других пакетов или датасетов, кроме тех, что указаны в соответсвтующих файлах
не стесняйтесь задавать вопросы (но лучше открывать issue, а не писать в телеграме). Помните, что я не смогу помочь, если все начнут писать в последний вечер перед дедлайном, так что начните делать задания заранее.

Задание 2.1

На Pudding недавно вышла статья "Finding Forever Homes", посвященная миграции и эмиграции собак в США. Здесь лежит немного обработанный датасет, которые использовался в статье. Датасет состоит из 58 113 строк и 5 переменных:

id -- уникальный id с сервиса PetFinder
name -- кличка собаки
sex -- пол собаки (Female, Male, or Unknown)
age -- категориальная переменная с возрастом собаки (Baby, Young, Adult, Senior)
contact_state -- штат, в котором находиться приют

Заполните пропуски в файле task_2.1.R в Вашем репозитории, так чтобы получился следующий график. На нем изображено по 20 самых популярных кличек собак живущих в приютах в США для каждого пола. Обратите внимание на подписи осей. Нестанадртные цвета на этом графике появились благодаря команде scale_fill_brewer(palette="Dark2") (см. файл task_2.1.R).

Задание 2.2

Используя датасет из предыдущего задания, заполните пропуски в файле task_2.2.R в Вашем репозитории, так чтобы получившаяся программа считала, какую долю составляют собаки разного возраста в подгруппах по полу. Должно получиться что-то такое:

# A tibble: 4 x 3
  age      Male Female
  <chr>   <dbl>  <dbl>
1 Adult  0.476  ...
2 Young  ...    ...
3 Baby   ...    ...
4 Senior ...    ...

На всякий случай: доли в каждом из столбцов должны давать в сумме 1 (при округлении), если у Вас выходит значительно больше -- значит что-то Вы делаете не так, как ожидается.

Задание 2.3

В датасете содержаться информация об объектах, выданных библиотекой Сиэтла 100 и более раз (исходные данные доступны здесь). Датасет состоит из разбитых на листы файла .xlsx 180 495 строк и 5 переменных:

id -- идентификационный номер объекта
type -- тип объекта (bk -- книга, bknh -- другая категория с книгами, cas -- кассеты, cd -- CD, dvd -- DVD, kit -- комплект (я сам пока не разобрался что там...), vhs -- видеокассеты VHS)
name -- название
n -- сколько раз взяли в том или иному году
year -- год

Используя вот этот датасет, заполните пропуски в файле task_2.3.R в Вашем репозитории, так чтобы получившаяся программа нарисовала следующий график. На графике изображены 100 самых популярных объектов за все годы.

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
data		data
.gitignore		.gitignore
01_dog_names.png		01_dog_names.png
02_seattle.png		02_seattle.png
README.md		README.md
task_2.1.R		task_2.1.R
task_2.2.R		task_2.2.R
task_2.3.R		task_2.3.R

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Анализ данных для DH, hw2: dplyr, tidyr, ggplot2

Задание 2.1

Задание 2.2

Задание 2.3

About

Releases

Packages

Languages

r-classes/2019_2020_ds4dh_hw_2_dplyr_tidyr_ggplot2

Folders and files

Latest commit

History

Repository files navigation

Анализ данных для DH, hw2: dplyr, tidyr, ggplot2

Задание 2.1

Задание 2.2

Задание 2.3

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages