Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Сложная формулировка соглашений #6

Open
nvanva opened this issue Mar 6, 2017 · 4 comments
Open

Сложная формулировка соглашений #6

nvanva opened this issue Mar 6, 2017 · 4 comments

Comments

@nvanva
Copy link

nvanva commented Mar 6, 2017

Уважаемые организаторы соревнования,

сейчас соглашения по тому, какие части речи и какие атрибуты для них оцениваются сформулированы в нескольких местах и в неформальном виде, из-за этого возникает множество проблем, пара примеров:

  1. во втором информационном письме нет упоминания части речи "имя собственное (PROPN)", в файле morphostandard оно указано, в gikrya_fixed.txt (на который вы предлагаете ориентироваться при разногласиях) примеров на него нет
  2. во втором информационном письме "Залог (Voice)" указан как неоцениваемый атрибут, в файле morphostandard среди неоцениваемых он не указан

Гораздо удобнее будет, если соглашения будут сформулированы формально, в виде списка оцениваемых частей речи и для каждой из них - оцениваемых атрибутов, причем в обозначениях gikrya_fixed.txt, на который вы предлагаете ориентироваться. Сейчас каждому участнику самому приходиться сопоставлять соглашения, описанные в разных источниках на русском языке, с размеченными данными и формализовывать их как-то так:
EVAL_POS2ATTRS = {'NOUN':['Number','Case','Gender'],'ADJ':['Number','Case','Gender','Variant','Degree']}

Будем очень признательны за решение этой проблемы.

@kmike
Copy link

kmike commented Mar 6, 2017

Еще лучше, если бы просто был скрипт, оценивающий качество. Сейчас, я так понимаю, все участники должны писать свои скрипты для этого, учитывая все соглашения, описанные в документе (которые, к тому же, обновляются).

@nvanva
Copy link
Author

nvanva commented Mar 6, 2017

Да, скрипт, оценивающий качество, тоже был бы очень кстати, но написать его - не так трудозатратно, как разобраться в обозначениях, соглашениях и договоренностях и как-то и их присобачить к своим моделям.

@nvanva
Copy link
Author

nvanva commented Mar 6, 2017

Кстати, скрипт оценки качества тоже сможет задействовать данные списки оцениваемых частей речи и атрибутов.

@TatianaShavrina
Copy link
Contributor

Мы в ближайшее время подробно опишем правила, по которым будет тестирование.
Скрипт для оценки качества будет также опубликован.

К сожалению, на данных ГИКРЯ и Синтагруса у нас не размечены PROPN, поэтому собственность существительных мы не оцениваем. Участники могут конвертировать имена собственные в PROPN либо в NOUN, оцениваться такие ответу будут равнозначно.

Из morphostandard:
8) Не оценивается вид и залог глагола, время глагола делится на прошедшее и непрошедшее.
мы не требуем разметки залога от участников. Его наличие, как и наличие других неоцениваемых меток, не будет влиять на итоговое качество.
Постараюсь в ближайшее время сформулировать формально, спасибо.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants