-
Notifications
You must be signed in to change notification settings - Fork 1
Roadmap
Created by @nofpernat
Написать инструмент, аннотирующий морфологию без снятия омонимии и со снятием (два варианта: второй экономит время, но в первый, возможно, имеет смысл заглядывать в сложных случаях?) Появился новый ресурс semantika.lt, в котором нет ошибок tekstynas (правильно определяет редкие падежные формы и формы с апокопой, лучше работает с именами собственными).
- (январь) конвертор в систему тегов в RNC (нужно писать заново, потому что там теги не "литовские", как на tekstynas), а также нам нужно, чтобы мы могли загонять одноязычные тексты (у нас было написано под нужды параллельного корпуса для НКРЯ). Таблица соответствий для старой системы тегов у нас уже есть, там нам нужно только сделать опцию "для одноязычных текстов", это легко и быстро, по идее. Новая система тегов лежит здесь: http://corpus.vdu.lt/en/morph
Литовские глаголы лемматизируются довольно топорным образом, поэтому как отдельные леммы размечаются глаголы:
- без отрицания (то, что мы обычно ожидаем увидеть в словаре): būti
- с отрицанием: nebūti
- с рестриктивным префиксом te-: tebūti
- с континуативным префиксом be-
- а также с их комбинациями: nebebūti
В итоге мы получаем намного больше глагольных лемм, чем следовало бы ожидать, и это может повлиять в том числе на статистику при сравнении трибанков между собой. Возможно, есть и другие спорные моменты, хорошо бы их выловить, проанализировать и придумать, что с ними делать. Вопрос о категориях: рестриктив, континуатив, средний род. NB вынесено в issues.
Возможно, стоит написать программу, которая в двух разных колонках показывает возможные варианты и статистически предпочтительный (с т.з. автоматической системы разметки). В любом случае, если мы видим неправильный автоматический разбор, нам нужно иметь подходящий вариант в виде цепочки "лемма+теги", и их запарно каждый раз писать вручную.
Конвертация готовых размеченных текстов в формат CONLL-U (заполнены поля 1-6). assigned to: @olesar
Можно использовать UD Annotator: https://maryszmary.github.io/ud-annotatrix/standalone/annotator.html#
Разметить русскую или латышскую часть (леммы, морфология, синтаксис), поправить ее вручную. Для латышского можно использовать nlp.ailab.lv, там есть возможность сохранить в .conll и автоматическая разметка в том числе зависимостей, но там их теги (впрочем, можно сначала работать с их тегами и только в конце перевести в наши (мы писали для них конвертер).
Сделать пословное выравнивание литовских и русских/латышских предложений, если это возможно. ВОПРОС: в чём это вообще можно делать? Вручную? Автоматически?
Попробовать разметить литовский текст на основе параллельных данных, проанализировать результат. Явно можно ожидать лучших результатов для адаптации латышской модели, но вдруг возможны сюрпризы (и это было бы даже интересно).