Skip to content

Проект "Отечественные записки 2.0"

Notifications You must be signed in to change notification settings

zijane/OZ

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

42 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Отечественные записки 2.0

Руководитель проекта

А. А. Бонч-Осмоловская

Участники

  • Г. Пальчиков
  • Д. Скоринкин
  • Е. Заковоротная
  • Ю. Ким
  • Т. Колпакова
  • М. Федотова

Презентация технического задания: https://docs.google.com/presentation/d/1o-GR7pnYCiljIjwS4WKwNQwBDLGqG6nIX5H8QdIlSNU/edit?usp=sharing

Общая идея проекта:

создание цифрового издания самого знакового для русской культуры журнала.

Рассматриваемые типы данных и источников:

  1. сканы страниц в старой орфографии

  2. сканы с распознанным текстовым слоем в старой орфографии с Google Books

  3. текст со слоем нормализованной орфографии

Минимальный результат проекта:

  1. создание таблицы с информацией по каждому выпуску журнала (где находится, в каком виде)

  2. создание корпуса с нормализованной орфографией для 10 выпусков

Ожидаемый продукт:

  1. создание корпуса с нормализованной орфографией для 100 выпусков

  2. создание web оболочки корпуса

Максимальный результат проекта:

  1. создание корпуса с нормализованной орфографией для всех выпусков

  2. создание web оболочки корпуса

Этапы работы:

  1. Подготовительный:
  • сбор информации о предшествующих попытках

  • создание таблицы со ссылками на все оцифрованные выпуски

  • определение неоцифрованных выпусков

  • эксперименты с распознаванием текста и переводом орфографии

  1. Основной:
  • распознавание текста уже оцифрованных выпусков

  • оцифровка недостающих выпусков

  • создание корпуса с нормализованной орфографией

  • разработка web-оболочки корпуса

  1. Заключительный:
  • написание отчетной документации по проекту

  • защита проекта

Сделано на 02.12.2019:

  • Встретились с кураторами
  • Организовали регулярные встречи
  • Определили источники для дальнейшей работы
  • Собрали информацию о предшествующих попытках работы с Отечественными записками
  • На 95% заполнили таблицу со ссылками на все оцифрованные выпуски
  • Провели эксперименты с распознаванием текста с помощью ABBYY Fine Reader
  • Начали распознавать и вычитывать тестовый том
  • Начали разработку словарика словоформ для корректной работы функции правописания в Word'e

Планы на 16-18.12.2019:

  • Полностью распознать тестовый том
  • Обсудить подводные камни распознавания. Детально обсудить нераспознаваемые слова, форматирование (шрифты, вёрстка)
  • Подобрать оптимальные настройки для Fine Reader'a (цветокоррекция, язык распознавания)
  • Составить график распознавания томов
  • Собрать небольшой Word-документ, в котором будут все значимые для нас элементы структуры в Word: — — разрывы страниц — — номера страниц — — шрифт — — колонтитулы — — структура заголовков — — формат комментария (единообразный)

Дальнейшие этапы

  • Определиться с разметкой тэгов (TEI,XML) Что необходимо отметить тегами?
  • название раздела
  • оригинальноые номера страниц в колонтитулах
  • название произведения
  • имя автора (редактора)
  • тома и отделения (Т. II - Отд. II)
  • слова с ером и ятем (тег choice)
  • нераспознанные места
  • Применить имеющийся скрипт для перевода текстов в современную орфографию
  • Создание простого и сложного кодов
  • Поиск грантов(спонсоров)
  • Поиск волонтеров

Сделано на 13.02.2020:

https://docs.google.com/presentation/d/1Fu4CikONCPeAPrj7Qvp1b3t9ex8azgPdHeGFD9Szdr8/edit#slide=id.g52bdcee6c3_0_0

Наши Гугл-доки

Скрипт для автоматической конвертации старой орфографии в современную норму

https://github.com/dhhse/prereform_to_contemporary

About

Проект "Отечественные записки 2.0"

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 79.3%
  • HTML 20.7%