CFT2018 contest: исправление опечаток

Материалы к соревнованию по исправлению опечаток CFT2018 contest.

Описание задачи

CFT2018 — соревнование по определению корректности введённых пользователями ФИО и исправлению опечаток в них. Соревнование включает в себя две задачи:

определение корректности введённых ФИО (классификация на 3 класса: корректно 0, есть опечатки 1, мусор вместо ФИО 2);
исправление опечаток во введённых ФИО (только при наличии опечаток).

Наличие отчества в ФИО не является обязательным. Мусором считается строк, содержащая не ФИО.

Формат набора данных

Для обучения моделей предоставляется обучающая выборка, содержащая следующие колонки:

id — идендификатор (несёт вспомогательную роль)
fullname — исходное ФИО из анкеты (может не иметь отчества)
country — страна из анкеты
target — целевая переменная
fullname_true — исправленное ФИО (присутствует только в строках с классом "есть опечатки").

Для оценки качества предоставляется тестовая выборка, в которой колонки target и fullname_true отсутствуют.

Формат решения

В проверяющую систему необходимо отправить файл с предсказаниями в формате csv, содержащий следующие колонки:

id
target
fullname_true (можно не заполнять для строк с предсказаниями класса, отличного от "есть опечатки").

Использование открытых данных и библиотек

Система оценки

Для задачи определения корректности введённых ФИО целевая метрика: F1 с макроусреднением (то есть усредняется F1, посчитанный отдельно для каждого класса).
Для задачи исправления опечаток, считается точность (доля правильно исправленных ФИО). Подсчёт ведётся только на объектах класса "есть опечатки", при этом корректно исправленная опечатка требует предсказание наличия опечаток (то есть требуется и предсказать класс "есть опечатки", и правильно исправить ФИО).
Итоговый результат вычисляется как среднее арифметическое метрик каждой из задач.

Функции для вычисления качества можно найти в baseline/scoring.py.

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
baseline		baseline
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

CFT2018 contest: исправление опечаток

Описание задачи

Формат набора данных

Формат решения

Использование открытых данных и библиотек

Система оценки

About

Releases

Packages

Languages

datasouls/cft2018-fiotypos

Folders and files

Latest commit

History

Repository files navigation

CFT2018 contest: исправление опечаток

Описание задачи

Формат набора данных

Формат решения

Использование открытых данных и библиотек

Система оценки

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages