Проблема оценки оригинальности в учебных и научных работах

Начиная с 2015 г. активно развиваются системы поиска заимствований в дипломных и курсовых работах, научных статьях и диссертациях. Главным вектором их развития до недавнего времени считалось расширение баз проиндексированных документов (индексов).

Однако с ростом объёма индексов возникает ряд проблем. Рассмотрим ситуацию на примере системы «РУКОНТЕКСТ».

Постоянное усовершенствование механизмов хранения и снижение стоимости хранения единицы информации, инвестирование в ИТ привели к возможности хранить на серверах «РУКОНТЕКСТа» порядка 2 млрд документов. Динамика роста индексной базы представлена на рис. 1.

problemy-otsenki-1-2

Вследствие роста индексной базы меняются и другие показатели, в частности количество проверенных документов (рис. 2), средняя оригинальность результатов проверок (рис. 3) и число попыток обхода системы (рис. 4).

problemy-otsenki-3-4

Проверенным считается документ, загруженный в систему поиска заимствований, в результате чего был вычислен показатель оригинальности — процент текста, не обнаруженного в индексной базе как часть других документов.

Средней оригинальностью будем считать среднее значение результатов проверок, вычисленное за приведённый период.

Попыткой обхода системы называется внесение в документ изменений с целью искусственного завышения показателя оригинальности. На данный момент известны следующие основные типы попыток обхода:

·         замена букв в тексте буквами алфавита другого языка, имеющими аналогичное написание;

·         вставка невидимых символов;

·         вставка специальных символов (в основном служебных).

Анализ приведённых графиков позволяет говорить о взаимной корреляции между рассмотренными показателями.

Очевидно, что при оценке оригинальности и наличии попыток обхода проблема принятия окончательного решения всегда остаётся за экспертом.

Одновременно со снижением среднего процента оригинальности как следствие роста индексных баз увеличивается число обнаруженных заимствований. Этот рост продолжается, и анализировать результаты проверки становится всё сложнее.

Таким образом, актуальной задачей в развитии систем поиска заимствований является усовершенствование инструментов работы экспертов.

В настоящее время в системе «РУКОНТЕКСТ» представлен наглядный и удобный интерфейс для работы с результатом проверки. Ведётся разработка помощника в классификации заимствований. Будет внедрена функция автоматической классификации заимствований как общеизвестных фактов. Для этого происходит обучение нейронной сети и ведётся поиск параметров, позволяющих с высокой точностью классифицировать фрагмент как общеизвестный факт и исключить его из расчёта.

Генеральный директор ООО «НЦР «РУКОНТ» Денис Леонидович СЕМЁНОВ


Рубрика: Мир издательств

Год: 2021

Месяц: Март

Теги: Денис Семёнов