Не только зрители испытывают трудности с интерпретацией логики последнего сезона культового сериала. Как создатели, так и персонажи Игры Престолов создают проблему для технологий, предназначенных для распознавания текста.
Проблема в нейминге: Дейенерис, Серый Червь — структура этих необычных имён не похожа на то, что нейросети способны почерпнуть из реального мира. Ведь алгоритмы обучаются распознавать письменный текст путём изучения большого количества статей, опубликованных в периодике.
Исследователи Амстердамского Свободного Университета проверили способность четырех различных алгоритмов, предназначенных для обработки естественного языка, распознавать имена популярных персонажей в 40 романах, включая «Игру престолов» и опубликовали отчёт, который резюмирует проблемы с обработкой художественной литературы. Они отмечают, что алгоритмы находят некоторые признаки имён, такие как написание с заглавной буквы, или расположение в тексте относительно местоимений. Но фантазийные имена вроде Tywin или R’hllo всё равно приводят к тому, что машины дают сбой. Проблемы так же появляются тогда, когда в качестве имени используются слова, известные алгоритму по совершенно другим значениям — такие, как Серый Червь.
Но самой большой проблемой на сегодняшний день для алгоритмов обработки текста является контекстуализация имён. Почему одного и того же персонажа могут звать Дейенерис Таргариен, Неопалимая, Мать Драконов и Дейенерис Бурероджённая — этого машины пока понять не способны.
Алгоритмы обработки естественного языка (NLP) обычно используются во многих привычных нам приложениях, таких как Siri. Но если в будущем вы планируете стать лидером сопротивления, то первую проблему Скайнет можно создать просто придумав себе десяток имён. И лучше не выбирать их из тех, что можно встретить в газетах.