- Ссылка на статью: arXiv
Непросто сформировать выборку из реальных данных для решения определенной задачи. Тратится много времени и сил на сбор и обработку данных. Иногда проще написать симулятор для генерации синтетических данных. Эти данные могут быть использованы для проверки различных гипотез, решения новых задач и построения новых моделей.
В этой работе представлен фреймворк и набор синтетических задач, которые должны помочь в построении алгоритмов для понимания естественного языка и логического вывода.
Относительно сложно оценить качество агента в общем диалоге, но довольно просто в ответах на вопросы.
В данной работе представлена симуляция физического мира, наподобие текстовой приключенческой игры для генерации синтетических данных. Пара вопрос-ответ и сопутствующий текст генерируются во время симуляции. Вопросы-ответы категоризованы в навыки. Затем полученные данные были использованы для оценки качества различных методов.
The Allen Institute of AI - ARISTO - набор вопросов-ответов из экзаменов за 4, 8, 12 классы.
MCTest (2013) - набор из 660 историй и сопутствующих вопросов для оценки качества понимания текста машиной.
Непонятно как относится к результатам полученных на такого рода датасетах. Например, многие системы используют вручную построенные признаки, статистические методы на больших корпусах. Это позволяет получить хорошую оценку качества, но ничего не говорит о том, что система научилась понимать текст (разрешать кореференцию, делать логический вывод и т.д.).
Схема Виноградова (2011) - набор высказываний и вопросов к высказываниям. Вопросы относятся к одному из участников упомянутых в высказывании. Необходимо определить к какому участнику относится вопрос. Другими словами - это задача на разрешение кореференции.
Доступно в сети, Open Source: https://research.facebook.com/research/babi/.
Датасет содержит набор из 20 задач. Каждая задача содержит обучающую и тестовую выборку. В качестве ответа на вопрос может быть одно слово или массив из слов. Оценкой качества является точность (отношение количества правильных ответов на общее количество ответов). Человек может достичь 100% точности.
Датасет создан с помощью симуляции игрового мира.
Сами задачи подробно описаны в статье. Примеры: истинно/ложный вопрос, поиск пути, ...
Датасет представлен на английском, хинди и перемешанном английском (для машины). Хороший алгоритм обучения не должен зависеть от языка.
Игровой мир содержит сущности разных типов (локации, объекты, персоны, ...)
и различные действия к этим сущностями. Сущность имеет внутреннее состояние,
например, размер, цвет, настроение персонажа (голодный, радостный, ...).
Персонаж может выполнять различные действия, например go <location>, get <object>, put <object>, give <object>, ...
Действия, правила и ограничения определяют как персонаж играет. Для каждой задачи ограничивается набор возможных действий - в итоге получается краткая история (joe go playground; bob go office; joe get ball). Система может задавать вопросы о состоянии игрового мира (where bob? who get ball?). Т.о. можно легко получать правильные ответы на вопросы и генерировать датасет. Для генерации текста использована простая грамматика, слова имеют синонимы и т.д.
20 задач. Каждая задача - по 1000 пар вопрос-ответ на обучающую и тестовую выборки.
Weakly supervised - на вход только наборы вопросов и ответов. Strongly supervised - во время обучения на вход также подаются поддерживающие факты.
Методы: N-gram, LSTM, Structured SVM, Memory Networks, ...