You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Похоже, данные из OpenCorpora имеют не такой формат, как другие - в 5й колонке всегда "-", а тег - в шестой. Во всех других файлах тег - в пятой колонке.
В данных из НКРЯ есть строки "==newfile==" и т.д., которые нужно пропускать, и которых нет в других файлах.
Ничего критичного, но было бы удобнее, если бы формат был одинаковый.
The text was updated successfully, but these errors were encountered:
В https://github.com/kmike/dialog2017 есть скрипты, которые все данные к одному формату приводят (в json), + скрипт, который из json обратно conll делает, но уже одинаковый.
Похоже, данные из OpenCorpora имеют не такой формат, как другие - в 5й колонке всегда "-", а тег - в шестой. Во всех других файлах тег - в пятой колонке.
В данных из НКРЯ есть строки "==newfile==" и т.д., которые нужно пропускать, и которых нет в других файлах.
Ничего критичного, но было бы удобнее, если бы формат был одинаковый.
The text was updated successfully, but these errors were encountered: