Современные средства визуализации текстовых заимствований


Наличие в Интернете в открытом доступе большого количества рефератов и дипломов существенно упрощает студентам поиск готового материала по интересующей их теме. Однако при этом возникает соблазн скопировать и выдать за свою часть чужой работы. Также нередки случаи, когда студенты копируют чужую работу целиком, меняя только титульный лист. Всё это увеличивает количество неоригинальных исследований, понижает уровень образования и существенным образом влияет на состояние информационной среды в России в целом [1].

sovr-sredstva-avtory

Авторы Илья Александрович ТИХОМИРОВ, зав. Лабораторией ФИЦ ИУ РАН; Илья Владимирович СОЧЕНКОВ, зам. зав. Лабораторией ФИЦ ИУ РАН; Вадим Алексеевич ИСАКОВ, программист ФИЦ ИУ РАН.

Для борьбы с плагиатом были придуманы специальные программные средства поиска текстовых заимствований. Поначалу они были очень простыми; достаточно было всего-навсего сравнить текст работы студента с имеющимися в информационной базе и выдать процент скопированного текста. Однако со временем студенты научились использовать различные техники сокрытия заимствований и обманывать системы поиска плагиата. Самыми простыми техниками сокрытия заимствований являются замена русских символов латиницей, разбиение слов пробелами нулевой длины (при чтении с экрана или на бумаге они попросту не видны, однако система поиска заимствований воспринимает их как разделитель), вставка скрытого текста в конец файла (это позволяет повысить процент оригинальности, так как система не отличает его от основного) и др. Кроме того, недобросовестные студенты стали использовать не один источник для формирования своей неоригинальной работы, а сразу несколько. Некоторые даже творчески перерабатывают текст, заменяя слова синонимами, разбивая сложные предложения на простые или, наоборот, склеивая из простых предложений сложное. В итоге простого сравнения текстов для вычисления процента плагиата оказалось уже недостаточно; требуется тщательный анализ результатов поиска заимствований, что и послужило толчком к развитию программных средств визуализации текстовых заимствований. Они помогают проверяющему ориентироваться в источниках заимствований, определять их правомерность, исключать из проверки собственные работы автора, выявлять перефразированные заимствования, обнаруживать сокрытия и многое другое.

В настоящей статье представлены аналитический обзор имеющихся в настоящее время средств визуализации текстовых заимствований, а также описание программных средств, разработанных для этих целей авторами статьи [2].

СРЕДСТВА ВИЗУАЛИЗАЦИИ ТЕКСТОВЫХ ЗАИМСТВОВАНИЙ

Большинство существующих систем проверки текста на плагиат отображают заимствования с помощью выделения цветом, не сохраняя при этом форматирования исходного документа. Это затрудняет ориентацию в источниках и усложняет работу проверяющего. По такому принципу работают системы «Антиплагиат» [3] и Plagiarisma [4]. Одной из немногих систем, позволяющих просматривать документ с сохранением исходного вида, является Plagscan [5]. Однако она обладает существенным недостатком: в ней нельзя дифференцировать заимствования по источникам (заимствованные фрагменты из разных источников отображаются одинаково). Рассмотрим способы визуализации текстовых заимствований наиболее популярных систем поиска плагиата более подробно.

«АНТИПЛАГИАТ»

Отечественная система поиска текстовых заимствований — несомненный лидер рынка [3]. Через веб-интерфейс сервис подсвечивает заимствованные фрагменты текста без форматирования. Визуализация текстовых заимствований осуществляется при помощи специальной программы Antiplagiat ReportViewer [6], функционирующей в операционной системе Windows. Программа открывает файлы, содержащие итоги проверки, и позволяет управлять результатами путём отключения источников заимствований. Каждому источнику присваивается уникальный числовой идентификатор. Заимствованные фрагменты в тексте проверяемого документа выделяются цветом (рис. 1).

sovr-sredstva-1

GRAMMARLY

Сервис для исправления текстовых ошибок, включающий поиск плагиата [7]. Отображает процент оригинальности документа и позволяет посмотреть ссылку на источник с предложением вариантов оформления ссылок на этот источник. Система не отображает документы — источники найденных текстовых заимствований (рис. 2).

sovr-sredstva-2

TURNITIN

Одна из самых популярных в мире систем поиска текстовых заимствований [8]. Присваивает каждому источнику уникальный цвет, которым помечает заимствования в тексте (рис. 3). Способна отображать документы в оригинальном виде, что упрощает ориентацию по документу. При нажатии на заимствованный фрагмент отображается оригинальный текст этого фрагмента в документе-источнике. Из недостатков стоит отметить отсутствие возможности отключения документа источника.

sovr-sredstva-3

PLAGSCAN

Система предоставляет гибкий инструментарий для верификации результата поиска заимствований [5]. Позволяет изменять тип фрагмента — обозначать его как цитату или оригинальный текст, просматривать исходный текст из найденного источника и многое другое. Сервис наглядно визуализирует найденные заимствования, сохраняет исходное форматирование и имеет навигационную панель, на которой представлено местоположение в документе найденных заимствованных фрагментов (рис. 4).

sovr-sredstva-4

Анализ позволяет сделать выводы о наиболее удобных для проверяющих функциях визуализации заимствований.

1. Интеграция средств визуализации текстовых заимствований и системы проверки. Проверяющему не нужно устанавливать дополнительное программное обеспечение, необходим лишь доступ к Интернету и веб-браузер.

2. Отображение найденных заимствований в проверяемом документе с исходным форматированием. Текст проверяемого документа должен выглядеть так же, как и в стандартных программах для просмотра документов (Microsoft Word, Adobe Reader и т.д.). Это упрощает навигацию по заимствованиям и сокращает время, которое требуется для их верификации.

3. Возможность отключения источников заимствований. Это полезно в случае, когда система находит заимствование из документа, который не является объектом охраны авторского права (например, подзаконный акт), или же оно осуществлено из работы того же автора (самозаимстование).

4. Дифференцирование документов источников по идентификаторам и цветам. Это позволяет обнаружить и сопоставить фрагменты, которые являются общими для нескольких документов (и, возможно, общеизвестны).

ВИЗУАЛИЗАЦИЯ ТЕКСТОВЫХ ЗАИМСТВОВАНИЙ В TTXTAPPLIANCE

С учётом вышесказанного авторами статьи разработаны и реализованы средства визуализации результатов поиска текстовых заимствований. Они интегрированы в систему TextAppliance — программно-аппаратный комплекс интеллектуального поиска и анализа больших массивов текста [2]. В TextAppliance реализовано множество функций, таких как поиск заимствований, семантический поиск, поиск тематически похожих документов, кластеризация, тематический анализ и ряд других. Система работает с разнообразными текстовыми форматами и кодировками.

Подсистема поиска текстовых заимствований TextAppliance состоит из двух главных компонентов.

1. Поиск заимствований. Анализирует документ с использованием метода многокритериальной оценки сходства текста [9].

2. Визуализация заимствований. Использует первый компонент и отображает заимствования в удобном для проверяющего виде.

Отличительной особенностью подсистемы поиска текстовых заимствований является возможность выявления перефразированных фрагментов текста. Это обеспечивается за счёт применения морфологического, синтаксического и семантического анализа текста [10] (в отличие от большинства систем, которые используют алгоритм шинглов). В результате анализа текста формируется неоднородная семантическая сеть, которая используется для сопоставления фрагментов. Её использование позволяет находить существенно перефразированные фрагменты, что делает проверку текстов нечувствительной к замене слов синонимами, разбиению текста на предложения или, наоборот, к склейке нескольких предложение в одно.

На рис. 5 представлен интерфейс подсистемы поиска текстовых заимствований TextAppliance. Сверху находится навигационная панель с картой заимствований, слева расположена панель оценок документа, под ней панель со списком документов-источников. В центре размещается окно с представлением документа.

sovr-sredstva-5

Навигационная панель с картой заимствований значительно упрощает ориентацию по проверяемому документу. Она позволяет переходить на страницу с помощью кнопок, а также указывает, на какой странице открыт документ в данный момент. Некорректные заимствования отображаются красным цветом, а условно корректные — жёлтым.

На рис. 6 показан пример навигационной панели. В отличие от существующих систем в TextAppliance используются три типа фрагментов: оригинальный текст, некорректные заимствования (плагиат) и условно корректные заимствования (заимствованный текст оформлен ссылкой на источник). Первые шесть страниц в приведённом примере полностью заимствованы, причём без указания ссылок на источники, а девятая на 2/3 состоит из условно корректных заимствований.

sovr-sredstva-6

Панель со списком документов-источников содержит такие данные, как процент заимствованного текста из источника, название материала, авторство, ссылка, год и тип публикации. На этой панели каждый источник имеет уникальный цвет и идентификатор. Документы-источники отсортированы в порядке убывания количества заимствованного из них текста. Имеется возможность включения или выключения отображения заимствований из того или иного источника. При этом на странице обновляется процент оригинальных, условно корректных и некорректных заимствований.

В окне с представлением документа заимствованные фрагменты маркируются цветом документа-источника, из которого они были скопированы. Если фрагмент найден в нескольких источниках, то он выделяется серым цветом.

У проверяющих часто возникает необходимость просмотреть найденный заимствованный фрагмент в оригинальном документе. Это можно сделать, кликнув на интересующий их фрагмент в окне с представлением документа (рис. 7).

sovr-sredstva-7

Следует отметить, что визуализация результатов поиска текстовых заимствований в TextAppliance возможна в том числе на мобильных устройствах, так как все трудоёмкие операции выполняются на сервере, а необходимые данные подгружаются в браузер клиента по мере необходимости. Это делает возможной визуализацию документов, содержащих более 1 тыс. страниц и заимствующих текст из нескольких сотен источников.

На сегодняшний день TextAppliance используется более чем в 50 российских организациях научного и образовательного сектора. На базе TextAppliance реализована одна из российских систем — лидеров поиска плагиата «Руконтекст» [11], через которую проходят десятки тысяч студенческих работ. Также TextAppliance используется в проектах «ИНФРА-М», ГПНТБ России, РГБ и др.

Демоверсия TextAppliance с описанными в статье функциями доступна любому желающему по ссылке [12].

Литература

1. Инфраструктура ноосферы / И. Засурский, Д. Семячкин, М. Сергеев, В. Харитонов. – М.: Ассоциация интернет-издателей, 2016. – С. 226.

2. Ананьева М.И. и др. TEXTAPPLIANCE: поиск и анализ больших массивов текстов // Труды пятнадцатой национальной конференции по искусственному интеллекту с международным участием КИИ. – 2016. – Т. 4. – С. 220–228.

3. «Антиплагиат». – Режим доступа: www.antiplagiat.ru .

4. Plagiarisma. – Режим доступа: http://plagiarisma.net .

5. PlagScan. – Режим доступа: www.plagscan.com .

6. Страница описания программы Antiplagiat ReportViewer. – Режим доступа: www.antiplagiat.ru/page/antiplagiat-report-viewer .

7. Grammarly: Free Grammar Checker. – Режим доступа: www.grammarly.com .

8. Turnitin. – Режим доступа: http://turnitin.com .

9. Zubarev D., Sochenkov I. Using Sentence Similarity Measure for Plagiarism Source Retrieval // CLEF (Working Notes). – 2014. – P. 1027–1034.

10. Osipov G. et al. Relational-situational method for intelligent search and analysis of scientific publications // Proceedings of the Integrating IR Technologies for Professional Search Workshop. – 2013. – P. 57–64.

11. «Руконтекст» – антиплагиат, научный поиск и анализ документов. – Режим доступа: https://text.rucont.ru

12. Демоверсия TextAppliance. – Режим доступа: http://demo.textapp.ru.


Рубрика: Инновационные технологии

Год: 2017

Месяц: Апрель

Теги: Илья Тихомиров Илья Соченков Вадим Исаков