Распознавание изображений на службе у «Антиплагиата»

Система «Антиплагиат» уже много лет является надёжным помощником преподавателей из России, Казахстана, Белоруссии, Кыргызстана и других государств. Около 1 тыс. учебных и научных организаций используют сервис в своей работе. «Антиплагиат» ежедневно проверяет сотни тысяч документов.

Авторы Юрий ЧЕХОВИЧ, исполнительный директор компании «Антиплагиат»; Андрей ИВАХНЕНКО, руководитель отдела внедрения и эксплуатации компании «Антиплагиат»

Наши исследования показали, что довольно много пользователей используют «порочные» практики применения систем обнаружения заимствований [1], которые ориентированы только на определение процента оригинальности. Зная такой порядок оценки результатов, обучающиеся затрачивают минимальные усилия, зачастую отдавая подготовку диплома или курсовой авторам работ на заказ. Таким образом появился целый рынок обхода систем обнаружения заимствований. Задача стоит простая: необходимо так модифицировать документ с проверяемой работой, чтобы процент оригинальности был выше порога, установленного в конкретном вузе.

С точки зрения повышения оригинальности текста самым надёжным способом является «глубокий рерайт», т.е. переписывание текста своими словами. Это относительно честный и трудноопределимый способ повышения оригинальности текста. Однако он требует больших затрат, а значит стоит дорого.

Мошенники используют менее трудозатратный способ повышения оригинальности. Решение тут довольно простое и прямолинейное: необходимо, чтобы текст, извлекаемый системой обнаружения заимствований, был оригинальным, а для этого он должен отличаться от того, что видит проверяющий, который читает распечатанный документ. Конечно, такие простые возможности, как замена символов на сходные по написанию из других алфавитов, давно раскрыты, но существует огромное множество других и появляются они регулярно, по мере того как мы справляемся с существующими (подобно головам, отрастающим у Лернейской гидры).

Не прекращая борьбу с новыми лазейками, но понимая, что по этому пути можно идти слишком долго, мы сменили подход к решению проблемы в корне. «Антиплагиат» должен проверять на заимствования именно тот текст, который видит человек. Для этого идеально подходят средства OCR (Optical Character Recognition – оптическое распознавание символов), которые позволяют получать текст из изображений текста (сканов, фотографий, скриншотов).

Ещё в 2014 г. мы встроили этот механизм в наш поисковый робот-краулер и начали индексировать сканы книг и документов, находящихся в свободном доступе в сети Интернет. С тех пор мы подбирали оптимальные настройки и готовили инфраструктуру введения нового способа извлечения текстов. И вот летом 2017 г. началось постепенное включение нового способа извлечения текстов с помощью OCR в системы «Антиплагиат.ВУЗ» и «Антиплагиат.Эксперт».

Теперь порядок обработки следующий. Документы всех поддерживаемых форматов, как и раньше, загружаются в систему. Загруженный файл распечатывается на виртуальном принтере с необходимым для распознавания качеством. «Электронная» распечатка оригинала документа гораздо лучше, чем скан высокого качества: при этом обеспечивается минимум искажений и шумов. А чем выше качество изображения, тем лучше работает алгоритм распознавания. После того как получился набор «электронных» распечаток страниц, они подаются в систему OCR, где осуществляется распознавание текста. Затем отдельные страницы сводятся в единый документ. Дальше действует отработанный алгоритм поиска заимствований текста и подготовки отчёта.

Кардинальная трансформация одного из центральных и важных компонентов системы не может обойтись без изменения характеристик системы обнаружения заимствований. Так произошло и с внедрением нового способа извлечения текста через OCR.

Первое, что заметит опытный пользователь системы «Антиплагиат», это, к сожалению, увеличившееся время загрузки документа. Дело в том, что извлечение текста с помощью OCR – процесс на несколько порядков более ресурсоёмкий, чем тот, который использовался ранее. Извлечение текста с одной страницы занимает около 10 секунд на одном ядре процессора. Несложно подсчитать, что документ размером 160 страниц (размер типичной кандидатской диссертации) на сервере с 16 ядрами будет обрабатываться около 100 секунд. Мы провели замеры и выяснили, что среднее время обработки документа увеличилось с 10 секунд до полутора минут.

Ещё одним побочным эффектом можно считать появление случайных символов, возникающих при распознавании иллюстраций. Рассмотрим пример с фрагментом статьи о русском алфавите из «Википедии» [2]. Из первого абзаца этой статьи и таблицы с алфавитом был подготовлен документ, исходный вид которого представлен на рис. 1 в формате отчёта о заимствовании системы «Антиплагиат.ВУЗ».

raspoznav-izobrazheniy-1

На рис. 2 приведён текст, извлечённый из этого документа. Видно, что мелкий подстрочный текст, обозначающий название буквы, распознался как знаки препинания, а некоторые буквы алфавита попали в блоки заимствований. Таким образом, возможно появление незначительного числа случайных символов из рисунков в проверяемых документах. Они незначительно увеличат объём текста, а значит несущественно увеличится и процент оригинальности.

raspoznav-izobrazheniy-2

С другой стороны, у системы «Антиплагиат» появилась новая возможность, которая позволяет мириться и с возросшим временем обработки документа, и со случайными символами, возникающими вследствие распознавания рисунков. Теперь системы семейства «Антиплагиат» могут искать заимствования в скриншотах, вставленных сканах страниц, иллюстрациях, т.е. объектах, которые были ранее недоступны для поиска заимствований. Естественно, чуда ждать не следует, и если вы вставите в документ скан плохого качества или смазанную фотографию текста, полученную при плохом освещении, то получите набор случайных символов. Но вот способ «обхода» системы путём вставки скриншота вместо самого текста, так чтобы при распечатке ничего не было заметно, уже не пройдёт.

Что же получается в результате? После внедрения извлечения текста с помощью OCR время обработки больших документов заметно увеличилось, но осталось в приемлемых рамках нескольких минут. Возможно наличие небольших «артефактов» в тексте от распознавания картинок (незначительно, на доли процента может увеличиться процент оригинальности). Но зато коренным образом решена проблема обхода системы целыми семействами алгоритмов, а также появилась возможность искать заимствования в сканах, диаграммах, рисунках, скриншотах и т.п.

Мы не собираемся останавливаться на достигнутом. В планах:

• увеличение скорости обработки документов, для того чтобы вернуться к привычному для наших пользователей, почти мгновенному поиску заимствований;

• совершенствование техник постобработки текстов для отсева случайных символов;

• совершенствование предобработки документов, для того чтобы чудо всё же произошло и появилась возможность искать заимствования в любом документе, который может прочитать человек.

Литература:

1. Чехович Ю.В., Ивахненко А.А., Беленькая О.С. О практике обнаружения заимствований в российских вузах // Университетская КНИГА. – 2017. – № 4 [Электронный ресурс]. – Режим доступа: http://www.unkniga.ru/innovation/tehnology/7119-o-poryadke-obnaruzheniya-zaimstvovaniy-v-rossijskih-vuzah.html – Дата обращения: 17.11.2017.

2. Русский алфавит [Электронный ресурс]. – Режим доступа: https://ru.wikipedia.org/wiki/Русский_алфавит . – Дата обращения: 17.11.2017.

Рубрика: Инновационные технологии

Год: 2017

Месяц: Декабрь

Теги: Юрий Чехович Андрей Ивахненко