А. А. Бонч-Осмоловская
- Г. Пальчиков
- Д. Скоринкин
- Е. Заковоротная
- Ю. Ким
- Т. Колпакова
- М. Федотова
Презентация технического задания: https://docs.google.com/presentation/d/1o-GR7pnYCiljIjwS4WKwNQwBDLGqG6nIX5H8QdIlSNU/edit?usp=sharing
создание цифрового издания самого знакового для русской культуры журнала.
-
сканы страниц в старой орфографии
-
сканы с распознанным текстовым слоем в старой орфографии с Google Books
-
текст со слоем нормализованной орфографии
-
создание таблицы с информацией по каждому выпуску журнала (где находится, в каком виде)
-
создание корпуса с нормализованной орфографией для 10 выпусков
-
создание корпуса с нормализованной орфографией для 100 выпусков
-
создание web оболочки корпуса
-
создание корпуса с нормализованной орфографией для всех выпусков
-
создание web оболочки корпуса
- Подготовительный:
-
сбор информации о предшествующих попытках
-
создание таблицы со ссылками на все оцифрованные выпуски
-
определение неоцифрованных выпусков
-
эксперименты с распознаванием текста и переводом орфографии
- Основной:
-
распознавание текста уже оцифрованных выпусков
-
оцифровка недостающих выпусков
-
создание корпуса с нормализованной орфографией
-
разработка web-оболочки корпуса
- Заключительный:
-
написание отчетной документации по проекту
-
защита проекта
- Встретились с кураторами
- Организовали регулярные встречи
- Определили источники для дальнейшей работы
- Собрали информацию о предшествующих попытках работы с Отечественными записками
- На 95% заполнили таблицу со ссылками на все оцифрованные выпуски
- Провели эксперименты с распознаванием текста с помощью ABBYY Fine Reader
- Начали распознавать и вычитывать тестовый том
- Начали разработку словарика словоформ для корректной работы функции правописания в Word'e
- Полностью распознать тестовый том
- Обсудить подводные камни распознавания. Детально обсудить нераспознаваемые слова, форматирование (шрифты, вёрстка)
- Подобрать оптимальные настройки для Fine Reader'a (цветокоррекция, язык распознавания)
- Составить график распознавания томов
- Собрать небольшой Word-документ, в котором будут все значимые для нас элементы структуры в Word: — — разрывы страниц — — номера страниц — — шрифт — — колонтитулы — — структура заголовков — — формат комментария (единообразный)
- Определиться с разметкой тэгов (TEI,XML) Что необходимо отметить тегами?
- название раздела
- оригинальноые номера страниц в колонтитулах
- название произведения
- имя автора (редактора)
- тома и отделения (Т. II - Отд. II)
- слова с ером и ятем (тег choice)
- нераспознанные места
- Применить имеющийся скрипт для перевода текстов в современную орфографию
- Создание простого и сложного кодов
- Поиск грантов(спонсоров)
- Поиск волонтеров
- для опечаток: https://docs.google.com/document/d/1YIW9JnEHyPXfiYjNLVXic4GCZ5krc5Rl-aWsaEcUZj8/edit
- для отметки частотных ошибок:https://docs.google.com/document/d/1EtkW6WYSqXvFNOa5Ciu0JSbnO6BjsyyRfBMeBtQD3pY/edit?usp=sharing
- таблица с номерами томов: https://docs.google.com/spreadsheets/d/1IiwFDuS5CN-La4fLHH_GnkegAll4KHnxhLJ2S8eJ46Y/edit?usp=sharing
- список тегов: https://docs.google.com/document/d/166ehlLOQG6A5BrfUWcwsMJR7k4vUdmSqboBPJ0PKkm8/edit
- основные проблемы с распознаванием: https://docs.google.com/document/d/1hxyunYEh6UzidO24GKbXRpQ3BVv1FK3dZhhH-iZOV8w/edit
- выдержки из ОЗ: https://docs.google.com/document/d/102HcgwrNVy2DrQeDVakcInLCf6LyfKkQ2VggL91pyUw/edit
- положения для подачи заявки: https://docs.google.com/document/d/1wHCsQd2EIRgeCWtShw4gby7YcmRbr5V_HvsnH6PUKW0/edit#