Выполняется работа строго в репозитории python-dh-hw в файле HW2.ipynb, лежащем в корне репозитория.
NB! Перед выполнением обязательно посмотрите образец оформления работы.
Дан текст (можно взять любой, необязательно этот):
варкалось хливкие шорьки пырялись по наве и хрюкотали зелюки как мюмзики в мове о бойся бармаглота сын он так свирлеп и дик а в глyще рымит исполин злопастный брандашмыг
Необходимо выделить все биграммы в этом тексте и сохранить их список в какую-либо переменную. Биграммы -- это пары стоящих рядом слов, например, "варкалось хливкие", "хливкие шорьки" и т.д.
Подсказка №1: текст нужно разбить на слова с помощью функции split()
, а потом использовать цикл for
для создания списка биграмм. На каждой итерации цикла нужно печатать биграмму, а потом добавлять ее в список.
Подсказка №2: количество биграмм в тексте = количество слов в тексте - 1.
- Если вы не делали git pull или git clone: cкачать архив с текстовыми файлами отсюда и распаковать его. Если делали, то все нужные файлы уже есть в папке poems.
- Распечатать текущую директорию и список всех файлов и папок в ней. Посчитать и распечатать количество файлов.
- Пройтись циклом по рабочей директории, читая содержимое каждого файла и записывая его в новый файл poems.txt По завершении цикла должен получиться файл со всеми стихотворениями!
Удивительная кошка
Несчастная кошка порезала лапу-
Сидит, и ни шагу не может ступить.
Скорей, чтобы вылечить кошкину лапу
Воздушные шарики надо купить!
И сразу столпился народ на дороге-
Шумит, и кричит, и на кошку глядит.
А кошка отчасти идет по дороге,
Отчасти по воздуху плавно летит!
- Скопировать текст, сохранить его в переменную.
- Узнать длину текста в символах.
- Очистить текст от пунктуации, используя list compehensions. На выходе должен получиться список слов.
- Объединить слова из получившегося списка в строку через пробел.
- С помощью list comprehensions проверить, написано ли слово с большой буквы, и если да, то привести его к нижнему регистру. На выходе должен получиться список из всех слов стихотворения, написанных с маленькой буквы (не только те, которые изначально были с маленькой буквы, а все).
- Узнать длину текста в словах.
- Узнать количество уникальных слов.
- Распечатать последние 10 слов.
- Соединить полученный в пункте 3 список в строку. Слова в строке должны быть написаны через знак переноса строки.
- Распечатать с 20 по 30 символ этой строки (включительно).
- Разбить текст на биграммы, записать их в переменную и посчитать частотность каждой биграммы. Биграммы должны быть в виде списка кортежей.
Подсказка №1 -- это пары стоящих рядом слов, например, "варкалось хливкие", "хливкие шорьки" и т.д.
Подсказка №2: количество биграмм в тексте = количество слов в тексте - 1.
После решения задач необходимо выложить решение в Github. и проверить, что вы видите ваше решение по ссылке https://github.com/*ваш username на github*/python-dh-hw/blob/master/HW2.ipynb
NB! В этом и в следующих заданиях коммиты следует делать через консольный интерфейс, а сообщения коммитов должны быть осмысленными. Перед началом работы обязательно повторите Cеминар 1, где описан порядок работы с GitHub.