Skip to content
This repository has been archived by the owner on Apr 19, 2022. It is now read-only.

datasouls/cft2018-fiotypos

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 

Repository files navigation

CFT2018 contest: исправление опечаток

Материалы к соревнованию по исправлению опечаток CFT2018 contest.

Описание задачи

CFT2018 — соревнование по определению корректности введённых пользователями ФИО и исправлению опечаток в них. Соревнование включает в себя две задачи:

  • определение корректности введённых ФИО (классификация на 3 класса: корректно 0, есть опечатки 1, мусор вместо ФИО 2);
  • исправление опечаток во введённых ФИО (только при наличии опечаток).

Наличие отчества в ФИО не является обязательным. Мусором считается строк, содержащая не ФИО.

Формат набора данных

Для обучения моделей предоставляется обучающая выборка, содержащая следующие колонки:

  • id — идендификатор (несёт вспомогательную роль)
  • fullname — исходное ФИО из анкеты (может не иметь отчества)
  • country — страна из анкеты
  • target — целевая переменная
  • fullname_true — исправленное ФИО (присутствует только в строках с классом "есть опечатки").

Для оценки качества предоставляется тестовая выборка, в которой колонки target и fullname_true отсутствуют.

Формат решения

В проверяющую систему необходимо отправить файл с предсказаниями в формате csv, содержащий следующие колонки:

  • id
  • target
  • fullname_true (можно не заполнять для строк с предсказаниями класса, отличного от "есть опечатки").

Использование открытых данных и библиотек

Система оценки

  1. Для задачи определения корректности введённых ФИО целевая метрика: F1 с макроусреднением (то есть усредняется F1, посчитанный отдельно для каждого класса).
  2. Для задачи исправления опечаток, считается точность (доля правильно исправленных ФИО). Подсчёт ведётся только на объектах класса "есть опечатки", при этом корректно исправленная опечатка требует предсказание наличия опечаток (то есть требуется и предсказать класс "есть опечатки", и правильно исправить ФИО).
  3. Итоговый результат вычисляется как среднее арифметическое метрик каждой из задач.

Функции для вычисления качества можно найти в baseline/scoring.py.

Releases

No releases published

Packages

No packages published