Материалы к соревнованию по исправлению опечаток CFT2018 contest.
CFT2018 — соревнование по определению корректности введённых пользователями ФИО и исправлению опечаток в них. Соревнование включает в себя две задачи:
- определение корректности введённых ФИО (классификация на 3 класса: корректно
0
, есть опечатки1
, мусор вместо ФИО2
); - исправление опечаток во введённых ФИО (только при наличии опечаток).
Наличие отчества в ФИО не является обязательным. Мусором считается строк, содержащая не ФИО.
Для обучения моделей предоставляется обучающая выборка, содержащая следующие колонки:
id
— идендификатор (несёт вспомогательную роль)fullname
— исходное ФИО из анкеты (может не иметь отчества)country
— страна из анкетыtarget
— целевая переменнаяfullname_true
— исправленное ФИО (присутствует только в строках с классом "есть опечатки").
Для оценки качества предоставляется тестовая выборка, в которой колонки target
и fullname_true
отсутствуют.
В проверяющую систему необходимо отправить файл с предсказаниями в формате csv
, содержащий следующие колонки:
id
target
fullname_true
(можно не заполнять для строк с предсказаниями класса, отличного от "есть опечатки").
- Для задачи определения корректности введённых ФИО целевая метрика: F1 с макроусреднением (то есть усредняется F1, посчитанный отдельно для каждого класса).
- Для задачи исправления опечаток, считается точность (доля правильно исправленных ФИО). Подсчёт ведётся только на объектах класса "есть опечатки", при этом корректно исправленная опечатка требует предсказание наличия опечаток (то есть требуется и предсказать класс "есть опечатки", и правильно исправить ФИО).
- Итоговый результат вычисляется как среднее арифметическое метрик каждой из задач.
Функции для вычисления качества можно найти в baseline/scoring.py.