«Руконтекст» – новое слово в борьбе с плагиатом


Задача оценки оригинальности студeнчeскoй рабoты всeгда была нeпрoстoй, а в современных условиях её просто невозможно решить бeз использования современных средств поиска заимствований, Интeрнeта и поисковых машин. В вузах ужe активно испoльзуются автoматизирoванныe систeмы прoвeрки рукoписeй на наличиe заимствoваний из свoбoдных истoчникoв, рабoт студeнтoв и аспирантoв прoшлых лeт.

Вo мнoгих учeбных завeдeниях сущeствуют oграничeния пo oригинальнoсти рабoт студeнтoв, гoтoвящихся к выпуску. При этoм несовершенством алгoритмов пoиска заимствoваний часто пoльзуются недобросовестные студeнты. Замeна слoв синoнимами, кoмплeксная замeна симвoлoв в тeкстe на аналoгичныe из других алфавитoв (при этoм в кoнкрeтнoм дoкумeнтe мoжнo oтключить проверку правописания в известном текстовом редакторе), добавление ненужных переносов в словах – всё это лишь малая часть тех методов изменения текста, которыми пользуются недобросовестные авторы с целью запутать систему поиска плагиата.

Тем не менее разработки новых алгоритмов ведутся довольно активно, появляются решения, устойчивые к подобным изменениям текста. Один из эффективных алгоритмов разработан в стенах Института системного анализа Российской академии наук (ИСА РАН).

O тeхнoлoгии

Всё началось в далёком 2005-м, когда учёные ИСА РАН запустили первую версию поисковой машины Exactus. Эта система являлась полностью отечественной разработкой и хорошо показала себя на российском семинаре по оценке методов информационного поиска, занимая лидирующие места несколько лет подряд. На базе поисковой машины Exactus разработан ряд научных проектов, среди них Exactus Expert – интеллектуальный поиск и анализ научных публикаций, Exactus Patent – патентный поиск и анализ и, наконец, Exactus Like – поиск заимствований в научных текстах. В 2014 г. в рамках международного соревнования по поиску плагиата PAN–2014 система Exactus Like заняла второе место по F-мере, лишь незначительно уступив представителям университета Пенсильвании, который, к слову сказать, входит в топ-20 ведущих вузов мира по версии Times Higher Education.

Совсем недавно специалистами ИСА РАН был разработан продукт Text Appliance, который включил все новейшие отечественные достижения в области компьютерной лингвистики и искусственного интеллекта. Text Appliance активно используется в Национальном цифровом ресурсе «РУКОНТ», предоставляя сервисы семантического поиска, текстовой аналитики и поиска текстовых заимствований.

rukontekst-1

Особенности поиска заимствований, преимущества новой модели

Подходы, используемые в системе Exactus Like, основаны на методах реляционно-ситуационного анализа текстов. В отличие от аналогичных систем в Exactus Like тексты подвергаются глубокому лингвистическому анализу, включая морфологический и синтактико-семантический. Использование результатов лингвистического анализа текстов позволяет выявлять не только дословные заимствования (как при использовании шинглов*), но и смысловые заимствования с учётом перефразирования, замены слов синонимами, перестановки местами слов и предложений.

*Алгоритм шинглов (от англ. shingles — чешуйки) — алгоритм, разработанный для поиска копий и дубликатов текста в веб-документе

Всё это выводит поиск заимствований на совершенно иной уровень, позволяя находить не только прямые текстовые совпадения, но и украденные идеи и смыслы.

Дальнейшее развитие новой модели поиска текстовых заимствований связано с созданием и совершенствованием различных информационных сервисов. В связи с этим совместно с ИСА РАН реализован ряд сервисов для науки и образования, объединённый в систему «Руконтекст».

На данный момент наиболее востребованным является сервис поиска текстовых заимствований. Уникальный по своим возможностям, отвечающий всем нынешним требованиям к проверке квалификационных работ, удобный и простой интерфейс, постоянно пополняемая индексная база и удобная работа с историей проверок – всё это доступно как для преподавателей и студентов, так и для любого пользователя, желающего проверить свою работу на оригинальность либо отслеживать заимствования из своей публикации.

В настоящий момент проверки на текстовые заимствования ведутся по собственной коллекции документов, насчитывающей несколько миллионов документов, по коллекции документов, входящих в состав ресурса «Руконт», по базе данных Роспатента. В самое ближайшее время будет реализован поиск по коллекциям авторефератов и диссертаций РГБ, а также по коллекции научной электронной библиотеки eLIBRARY.

Следует также отметить, что предоставляется доступ и к другим информационным сервисам анализа научных документов, которые на данный момент позиционируются как вспомогательные, но при этом являются очень полезными с точки зрения не только наукометрии, но и построения пользовательских интерфейсов для работы с научным контентом. Более глубокое внедрение данных сервисов является следующим шагом в развитии НЦР «Руконт» и других проектов наших организаций.

Доступ к данным информационным сервисам осуществляют Центральный коллектор библиотек «БИБКОМ» и агентство «Книга-сервис».

С 2007 г. «БИБКОМ» предоставляет доступ к цифровым ресурсам. Многолетний опыт работы с библиотеками был реализован и в этой сфере. Совместно с агентством «Книга-сервис» и агентством по распространению зарубежных изданий был осуществлён крупнейший проект – разработка и внедрение уникальной информационной технологии «Контекстум» для ведения лицензионно-договорной работы в масштабах страны. Создаётся одноимённый консорциум, формируется Национальный цифровой ресурс «РУКОНТ». Более 170 библиотек-партнёров приняли участие в агрегации научного и образовательного контента, формируя на базе ЭБС «Руконт» свои электронные библиотеки. Агентство «Книга-сервис», являясь крупнейшим оператором подписки на периодику, сформировало коллекцию российских периодических изданий, включающую более 900 наименований журналов. «БИБКОМ» собрал книжные коллекции ведущих издательств страны по различным областям науки.

Таким образом, постоянно пополняемая коллекция малотиражной литературы, выпускаемой на базе вузов и научно-исследовательских институтов, архивы более 900 российских периодических изданий, книги ведущих издательств в совокупности с коллекциями РГБ и НЭБ составляют уникальную основу для наукометрического анализа.

rukontekst-2

Максим Анатольевич Дымков, ИT-директор НЦР «Руконт», Михаил Васильевич Дегтярёв, Генеральный директор ОАО «ЦКБ «БИБКОМ», Александр Петрович Голипад, директор Центра электронных ресурсов ОАО «ЦКБ «БИБКОМ»


Рубрика: Инновационные технологии

Год: 2015

Месяц: Октябрь

Теги: Михаил Дегтярёв Максим Дымков Александр Голипад