Начиная с 2015 г. активно развиваются системы поиска заимствований в дипломных и курсовых работах, научных статьях и диссертациях. Главным вектором их развития до недавнего времени считалось расширение баз проиндексированных документов (индексов).
Однако с ростом объёма индексов возникает ряд проблем. Рассмотрим ситуацию на примере системы «РУКОНТЕКСТ».
Постоянное усовершенствование механизмов хранения и снижение стоимости хранения единицы информации, инвестирование в ИТ привели к возможности хранить на серверах «РУКОНТЕКСТа» порядка 2 млрд документов. Динамика роста индексной базы представлена на рис. 1.
Вследствие роста индексной базы меняются и другие показатели, в частности количество проверенных документов (рис. 2), средняя оригинальность результатов проверок (рис. 3) и число попыток обхода системы (рис. 4).
Проверенным считается документ, загруженный в систему поиска заимствований, в результате чего был вычислен показатель оригинальности — процент текста, не обнаруженного в индексной базе как часть других документов.
Средней оригинальностью будем считать среднее значение результатов проверок, вычисленное за приведённый период.
Попыткой обхода системы называется внесение в документ изменений с целью искусственного завышения показателя оригинальности. На данный момент известны следующие основные типы попыток обхода:
· замена букв в тексте буквами алфавита другого языка, имеющими аналогичное написание;
· вставка невидимых символов;
· вставка специальных символов (в основном служебных).
Анализ приведённых графиков позволяет говорить о взаимной корреляции между рассмотренными показателями.
Очевидно, что при оценке оригинальности и наличии попыток обхода проблема принятия окончательного решения всегда остаётся за экспертом.
Одновременно со снижением среднего процента оригинальности как следствие роста индексных баз увеличивается число обнаруженных заимствований. Этот рост продолжается, и анализировать результаты проверки становится всё сложнее.
Таким образом, актуальной задачей в развитии систем поиска заимствований является усовершенствование инструментов работы экспертов.
В настоящее время в системе «РУКОНТЕКСТ» представлен наглядный и удобный интерфейс для работы с результатом проверки. Ведётся разработка помощника в классификации заимствований. Будет внедрена функция автоматической классификации заимствований как общеизвестных фактов. Для этого происходит обучение нейронной сети и ведётся поиск параметров, позволяющих с высокой точностью классифицировать фрагмент как общеизвестный факт и исключить его из расчёта.
Генеральный директор ООО «НЦР «РУКОНТ» Денис Леонидович СЕМЁНОВ
Рубрика: Мир издательств
Год: 2021
Месяц: Март
Теги: Денис Семёнов