Сложная формулировка соглашений #6

nvanva · 2017-03-06T11:48:46Z

Уважаемые организаторы соревнования,

сейчас соглашения по тому, какие части речи и какие атрибуты для них оцениваются сформулированы в нескольких местах и в неформальном виде, из-за этого возникает множество проблем, пара примеров:

во втором информационном письме нет упоминания части речи "имя собственное (PROPN)", в файле morphostandard оно указано, в gikrya_fixed.txt (на который вы предлагаете ориентироваться при разногласиях) примеров на него нет
во втором информационном письме "Залог (Voice)" указан как неоцениваемый атрибут, в файле morphostandard среди неоцениваемых он не указан

Гораздо удобнее будет, если соглашения будут сформулированы формально, в виде списка оцениваемых частей речи и для каждой из них - оцениваемых атрибутов, причем в обозначениях gikrya_fixed.txt, на который вы предлагаете ориентироваться. Сейчас каждому участнику самому приходиться сопоставлять соглашения, описанные в разных источниках на русском языке, с размеченными данными и формализовывать их как-то так:
EVAL_POS2ATTRS = {'NOUN':['Number','Case','Gender'],'ADJ':['Number','Case','Gender','Variant','Degree']}

Будем очень признательны за решение этой проблемы.

The text was updated successfully, but these errors were encountered:

kmike · 2017-03-06T12:12:37Z

Еще лучше, если бы просто был скрипт, оценивающий качество. Сейчас, я так понимаю, все участники должны писать свои скрипты для этого, учитывая все соглашения, описанные в документе (которые, к тому же, обновляются).

nvanva · 2017-03-06T12:19:29Z

Да, скрипт, оценивающий качество, тоже был бы очень кстати, но написать его - не так трудозатратно, как разобраться в обозначениях, соглашениях и договоренностях и как-то и их присобачить к своим моделям.

nvanva · 2017-03-06T12:26:31Z

Кстати, скрипт оценки качества тоже сможет задействовать данные списки оцениваемых частей речи и атрибутов.

TatianaShavrina · 2017-03-06T15:38:28Z

Мы в ближайшее время подробно опишем правила, по которым будет тестирование.
Скрипт для оценки качества будет также опубликован.

К сожалению, на данных ГИКРЯ и Синтагруса у нас не размечены PROPN, поэтому собственность существительных мы не оцениваем. Участники могут конвертировать имена собственные в PROPN либо в NOUN, оцениваться такие ответу будут равнозначно.

Из morphostandard:
8) Не оценивается вид и залог глагола, время глагола делится на прошедшее и непрошедшее.
мы не требуем разметки залога от участников. Его наличие, как и наличие других неоцениваемых меток, не будет влиять на итоговое качество.
Постараюсь в ближайшее время сформулировать формально, спасибо.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Сложная формулировка соглашений #6

Сложная формулировка соглашений #6

nvanva commented Mar 6, 2017

kmike commented Mar 6, 2017 •

edited

Loading

nvanva commented Mar 6, 2017

nvanva commented Mar 6, 2017

TatianaShavrina commented Mar 6, 2017

Сложная формулировка соглашений #6

Сложная формулировка соглашений #6

Comments

nvanva commented Mar 6, 2017

kmike commented Mar 6, 2017 • edited Loading

nvanva commented Mar 6, 2017

nvanva commented Mar 6, 2017

TatianaShavrina commented Mar 6, 2017

kmike commented Mar 6, 2017 •

edited

Loading