Skip to content

Roadmap

Olga Lyashevskaya edited this page Jan 31, 2019 · 3 revisions

Created by @nofpernat

Задача 1. Морфологический разметчик без снятия омонимии

Написать инструмент, аннотирующий морфологию без снятия омонимии и со снятием (два варианта: второй экономит время, но в первый, возможно, имеет смысл заглядывать в сложных случаях?) Появился новый ресурс semantika.lt, в котором нет ошибок tekstynas (правильно определяет редкие падежные формы и формы с апокопой, лучше работает с именами собственными).

  • (январь) конвертор в систему тегов в RNC (нужно писать заново, потому что там теги не "литовские", как на tekstynas), а также нам нужно, чтобы мы могли загонять одноязычные тексты (у нас было написано под нужды параллельного корпуса для НКРЯ). Таблица соответствий для старой системы тегов у нас уже есть, там нам нужно только сделать опцию "для одноязычных текстов", это легко и быстро, по идее. Новая система тегов лежит здесь: http://corpus.vdu.lt/en/morph

Задача 2. Набор тегов и соглашения об аннотации

Литовские глаголы лемматизируются довольно топорным образом, поэтому как отдельные леммы размечаются глаголы:

  • без отрицания (то, что мы обычно ожидаем увидеть в словаре): būti
  • с отрицанием: nebūti
  • с рестриктивным префиксом te-: tebūti
  • с континуативным префиксом be-
  • а также с их комбинациями: nebebūti

В итоге мы получаем намного больше глагольных лемм, чем следовало бы ожидать, и это может повлиять в том числе на статистику при сравнении трибанков между собой. Возможно, есть и другие спорные моменты, хорошо бы их выловить, проанализировать и придумать, что с ними делать. Вопрос о категориях: рестриктив, континуатив, средний род. NB вынесено в issues.

Задача 3. Снятие омонимии вручную при помощи автоматической разметки

Возможно, стоит написать программу, которая в двух разных колонках показывает возможные варианты и статистически предпочтительный (с т.з. автоматической системы разметки). В любом случае, если мы видим неправильный автоматический разбор, нам нужно иметь подходящий вариант в виде цепочки "лемма+теги", и их запарно каждый раз писать вручную.

Задача 4. Конвертация в CONLL-U

Конвертация готовых размеченных текстов в формат CONLL-U (заполнены поля 1-6). assigned to: @olesar

Задача 5. Разметить литовские предложения (зависимости) пословно.

Можно использовать UD Annotator: https://maryszmary.github.io/ud-annotatrix/standalone/annotator.html#

Задача 6 (для параллельных текстов).

Разметить русскую или латышскую часть (леммы, морфология, синтаксис), поправить ее вручную. Для латышского можно использовать nlp.ailab.lv, там есть возможность сохранить в .conll и автоматическая разметка в том числе зависимостей, но там их теги (впрочем, можно сначала работать с их тегами и только в конце перевести в наши (мы писали для них конвертер).

Задача 7 (для параллельных текстов).

Сделать пословное выравнивание литовских и русских/латышских предложений, если это возможно. ВОПРОС: в чём это вообще можно делать? Вручную? Автоматически?

Задача 8 (для параллельных текстов, эксперимент)

Попробовать разметить литовский текст на основе параллельных данных, проанализировать результат. Явно можно ожидать лучших результатов для адаптации латышской модели, но вдруг возможны сюрпризы (и это было бы даже интересно).