В доцифровую эпоху на оценку качества научного текста или квалификационной работы у экспертов уходило много времени,
а поиск источника заимствований мог затянуться на неопределённый срок. Нередко в печать уходили работы с плагиатом,
защищались списанные докторские и кандидатские, о чём напомнила череда диссертационных скандалов середины 2010-х.
Современные технологии сделали обнаружение заимствований обычной, но уже обязательной для российского образования практикой, а слово «антиплагиат» стало нарицательным.
К разговору об истории, развитии и перспективах сервиса, о ситуации с некорректными заимствованиями в образовании и науке, о роли искусственного интеллекта и нейротехнологий в оценке текстов «УК» пригласил исполнительного директора компании «Антиплагиат» Юрия ЧЕХОВИЧА.
Фото: Юлия Зальнова
— Юрий Викторович, в прошлом году «Антиплагиат» перешёл 15-летний рубеж. Для технологического проекта срок немалый, учитывая, что вам удаётся все эти годы сохранять лидирующие позиции. Расскажите, как возникла бизнес-идея, с чего всё начиналось, как происходила эволюция сервиса.
— Для меня «Антиплагиат» начался в феврале 2005 г., когда я возглавлял российскую компанию «Форексис», разрабатывающую корпоративное программное обеспечение в области анализа данных. К нам обратился Артемий Никитов, ректор одного из московских вузов, с идеей создать сервис для обнаружения заимствований в текстах документов на русском языке. Поисковик на английском тогда уже работал, но плагиат на русском никто искать не хотел. Нам задача показалась интересной, хотя до этого информационным поиском серьёзно не занимались. Мы достаточно быстро выполнили проект и почти не нарушили сроки: вместо 1 сентября сервис Antiplagiat.ru стартовал четвёртого.
После этого несколько месяцев шёл неторопливый рост аудитории, продвижением проекта мы не занимались, развивая технические характеристики. И вдруг в мае 2006 г. на нас свалилась слава: эфиры на федеральных каналах, сотни публикаций, комментарии авторитетных учёных и чиновников. Слово «антиплагиат» стремительно становилось нарицательным, но до создания устойчивого бизнеса было ещё очень далеко.
Нам потребовалось несколько лет, чтобы понять, как научиться зарабатывать на нишевом поисковом сервисе. Если рассуждать профессионально, то примерно в 2007 г. мы должны были закрыть проект как не приносящий дохода. Но… вера в успех не позволила тогда принять это с рациональной точки зрения правильное решение. И вот с 2009 г. мы непрерывно наращиваем показатели.
Что касается эволюции системы и компании: нам за почти уже 16 лет удалось пройти путь, который, возможно, станет поводом написать немаленькую книжку. Дело в том, что создать программу, сопоставляющую тексты, не очень сложно. Я знаю множество примеров, когда небольшая университетская команда разрабатывала свою антиплагиатную систему. Был случай, когда, участвуя в выставке, на стенде оказался окружён «антиплагиатами». Сосед справа демонстрировал разработку, предназначенную для использования в рамках кафедры, а сосед слева показывал свою старую публикацию с идеей проверки студенческих работ на плагиат.
Превратить разработанную программу в продукт намного сложнее. Нужно не только сделать надёжный и производительный поисковик, но и обеспечить возможность его развития и обогащения новой функциональностью, снабдить актуальной документацией, создать конвейер пополнения данными и т.д.
И ещё сложнее построить бизнес. В чём заключается продукт? Кому он нужен? Кто готов и кто может платить за его использование? Сколько он должен стоить? Это малая часть вопросов, на которые было необходимо ответить и на которые мы, если честно, продолжаем отвечать до сих пор.
Основной результат развития «Антиплагиата» — это команда, которая понимает, как и, главное, зачем работает компания, ведущая «Антиплагиат» дальше, к новым вершинам.
— Очевидно, что ваш основной клиент — вузы, тем не менее конечные пользователи — преподаватели, студенты, исследователи. Как меняются рынок, базы поиска, продуктовая линейка, сами пользователи?
— Вузы были нашей первой целевой аудиторией и до сих пор остаются самой массовой категорией клиентов «Антиплагиата». Со временем клиентами становились НИИ, редакции журналов, советы по защите диссертаций. Сейчас постепенно включаются в работу школы и учреждения среднего профессионального образования.
Что касается эволюции пользователя, то когда-то реферат, не взятый полностью из Сети, а хотя бы составленный из двух-трёх с добавлением своих мыслей, был уже большим достижением. Говорю об этом ответственно, так как небольшое исследование, проведённое нами в том же 2005-м, показало, что почти половина студентов московских вузов защищает дипломы, полностью (за исключением титульного листа) скопированные из Интернета.
Сейчас ситуация изменилась. Думаю, что благодаря и нашим усилиям. Сдавать непосредственно скопированный текст, выдавая его за свой, могут только очень смелые, может быть даже безрассудные, люди.
Сегодня так уже никто не заимствует: акценты сместились в сторону использования парафраза и переводных текстов. К сожалению, многие пытаются пользоваться сервисами по «повышению оригинальности», не понимая, что по сути занимаются мошенничеством и подлогом.
Радует, что очень многие пользователи задают вопрос: «Как правильно?», пытаются разобраться в достаточно непростой, как выясняется, культуре научного цитирования.
— Кого в России считаете своими конкурентами в сфере развития сервисов обнаружения заимствований? Как сервис представлен за рубежом?
— В России, к сожалению, конкурентных решений, которые можно было бы воспринимать серьёзно, так и не возникло. Было несколько попыток, но все они закончились неудачами. Гораздо интереснее выглядит конкурентная среда за рубежом. Есть мировой лидер — компания Turnitin, клиентами которой является значительная часть учебных заведений в англоязычных странах. Есть также несколько региональных лидеров в Германии, Швеции, Польше.
«Антиплагиат», безусловно, лидирует в России и ряде стран СНГ: Казахстане, Белоруссии, Киргизии, Узбекистане, Таджикистане. В 2021 г. мы начали работу в странах Восточной и Центральной Европы, первые результаты здесь ожидаем к концу этого года.
— Как в динамике меняется число проверок и оценки результатов обнаружения заимствований — корректных и некорректных? Какие ещё показатели важны с точки зрения масштабирования инструментов «Антиплагиата»?
— Что касается проверок, то несколько лет назад их количество росло достаточно высокими темпами и это было скорее негативной тенденцией, так как говорило о безудержной подгонке под требуемый результат. В последнее время количество проверок стабилизировалось и даже несколько стагнирует, несмотря на рост числа подключённых огранизаций и активных пользователей. Говорить о количественных показателях результатов проверок достаточно трудно, так как процент заимствованного текста в работе ничего не сообщает о качестве совершённых заимствований. Чтобы делать серьёзные выводы, требуется большая работа по очистке результатов. Такие исследования проводятся как нами, так и коллегами из других организаций (см., например, исследование, проведённое социологами Европейского университета в Санкт-Петербурге: http://ciase.ru/wp-content/uploads/2019/05/plagiat_ciase.pdf), но до исследования динамики, насколько я знаю, ещё никто не дошёл.
— На всевозможных обсуждениях и Вы лично, и многие эксперты неоднократно подчёркивали, что результаты, которые выдаёт сервис обнаружения заимствований, — это лишь информация для размышления, а окончательное решение должен принимать человек — эксперт. Тем не менее до сих пор и диссертационные советы, и руководители дипломных проектов во многих случаях ориентируются только на процент оригинальности, не оценивая его с содержательной точки зрения. Какие, по Вашему мнению, здесь возможны решения?
— Решение здесь только одно: последовательно и неуклонно проводить курс на изменение сложившейся традиции оценки учебных и научных работ. Проблема эта, кстати, не только российская: она общемировая. Насколько я могу судить, с 2017 г., когда мы провели исследование локальных актов вузов, касающихся проверки квалификационных работ, ситуация уже изменилась к лучшему. И продолжает, пусть медленно, меняться в сторону использования корректных методик оценки оригинальности работ.
— Не секрет, что для повышения процента оригинальности недобросовестные студенты (да и исследователи, наверное) используют различные технологические способы обхода «Антиплагиата». Замена символов одного языка на другой, вставка невидимых фрагментов — всё это было, кажется, ещё 20 лет назад. Какие экзотические и нестандартные варианты обхода появились в последнее время? Как с ними справляется сервис?
— Увы, использование технических приёмов маскировки заимствований пользуется стабильной популярностью. Конечно, такой способ, как замена символов на омоглифы, «не работает» больше 10 лет, но современные форматы текстовых документов дают широкие возможности для обмана. Печально здесь то, что наша научно-образовательная среда удивительно терпима к такому, будем называть вещи своими именами, подлогу. Отмечу, что зарубежные системы нуждаются в защите от способов маскировки заимствований в гораздо меньшей степени: одного факта использования технических средств для маскировки плагиата будет достаточно, чтобы быстро и бесповоротно покинуть стены учебного заведения — и, вероятнее всего, без права возвращения в профессию.
«Антиплагиат», компенсируя неуместную, на мой взгляд, мягкость пользователей, постоянно совершенствует методы выявления маскировки заимствований: система обновляется несколько раз в месяц.
— В новостной журналистике, в литературе искусственный интеллект уже способен создавать вполне читабельные тексты. Как Вы считаете, можно ли научить машину писать произведения в научном жанре, «скармливая» ей тексты по тому или иному направлению? Сможет ли «Антиплагиат» выявить такую работу, если все ссылки будут оформлены корректно?
— Уже довольно давно существуют генераторы текстов научного жанра, создающие вполне наукообразные материалы. Слабым местом таких систем является неспособность, по крайней мере на настоящий момент, создавать действительно осмысленные тексты. Они выглядят научными только для непрофессионалов в данной области. Эксперт же видит, что материал имеет лишь внешнее сходство с научным. Несколько лет назад мы создали детектор машинных текстов и даже провели исследование, направленное на выявление искусственных публикаций, которое не обнаружило примеров подобных текстов в доступных базах данных. Вероятно, повышение популярности таких способов обмана «Антиплагиата» — это вопрос будущего. Но мы готовы уже сейчас.
— Каковы, по Вашему мнению, перспективы развития искусственного интеллекта, нейросетей и машинного обучения в сфере образования и обнаружения заимствований?
— Методы машинного обучения «Антиплагиат» использует с 2016 г. Выявление переводного плагиата, парафраза, тематическая рубрикация текстов, выделение метаданных, структуры документа, библиографических ссылок, датировка документа и многие другие задачи решаются с помощью специальных алгоритмов, которые обучаются на прецедентах.
От методов искусственного интеллекта сейчас принято ожидать чуда. У популяризаторов практически любое устройство приобретает фантастические свойства, если оказывается, что «внутре у него нейронка». Моё отношение к этим технологиям достаточно спокойное. Видимо, сказывается то, что алгоритмом под более скромным названием «машинное обучение» занимаюсь уже более 20 лет. Я думаю, что новые технологии помогут человечеству решать ряд задач эффективнее, чем они решались до того, но вряд ли будут способны на большее. Недавно вот даже рассуждал на эту тему в «Популярной механике»: https://www.popmech.ru/science/698773-kak-zastavit-ii-ponimatcheloveka-proverka-sochineniy-vmesto-yadernogoapokalipsisa/.
— В каких научных исследованиях принимает участие ваша компания? Есть ли коллаборации с научными учреждениями, вузами, корпоративными партнёрами? В каких направлениях выстраивается сотрудничество?
— Нужно начать с того, что алгоритмические идеи системы «Антиплагиат» были разработаны в Вычислительном центре имени А.А. Дородницына РАН под руководством моего учителя — академика РАН Константина Владимировича Рудакова. Именно он сформулировал идеи, на которых базировалось создание системы и которые, как стало понятно позднее, определили её успех.
С течением времени мы в компании стали развивать самостоятельные исследования. Сейчас у нас есть целый отдел, работа которого направлена на развитие наукоёмких алгоритмов. Помимо разработки алгоритмов наши исследователи пишут научные статьи, участвуют в профессиональных конкурсах, выступают на ведущих конференциях.
Современная наука в значительной степени способствует коллаборациям. С 2020 г. мы тесно сотрудничаем с Лабораторией машинного интеллекта МФТИ под руководством профессора РАН Константина Воронцова. Активно общаемся с российскими и зарубежными учёными в нашей области.
Кроме того, мы поощряем исследования на данных и с помощью технологий, которыми обладает компания «Антиплагиат». Здесь нужно упомянуть сотрудничество с Европейским университетом в Санкт-Петербурге и с Высшей школой экономики.
— Год назад «Антиплагиат» получил грант Российской венчурной компании на создание проекта «Пан-языковой анализ больших текстовых коллекций на естественных языках». Как развивается данное направление? Какими результатами можете поделиться?
— Проект направлен на закрепление технологического лидерства компании «Антиплагиат» в выявлениипереводных заимствований. Бизнес-цель этого проекта — получить технологическое превосходство, которое позволит нам серьёзно конкурировать на мировых рынках с нынешним лидером.
На данный момент мы находимся в процессе реализации проекта, но система уже получила возможность выявлять переводные заимствования среди 100 ведущих мировых языков в любых сочетаниях. По нашим оценкам, на больших массивах не менее 1% исследуемых документов имеют значимые объёмы переводных заимствований. Это очень серьёзный результат.
— Каким стал для компании 2020 год? Какие коррективы в политику бизнеса внесла пандемия? Напомним, что весной
прошлого года многие контентные платформы открыли бесплатный доступ к своим ресурсам в поддержку пользователей.
Какой стратегии придерживался «Антиплагиат»?
— Ключевым вызовом 2020 г. стала необходимость быстро научиться командной работе в удалённом режиме. Сознаюсь, что изначально перспектива работы распределённой командой вызывала серьёзные опасения, но нам довольно быстро удалось наладить работу без снижения эффективности. Мы до сих пор работаем в так называемом смешанном режиме, т.е. сотрудник по желанию может в любой момент приехать поработать в офис.
Что касается бесплатного доступа, то, к сожалению, мы не могли позволить себе такое. В отличие от контентных платформ основные издержки «Антиплагиат» несёт непосредственно при выполнении запроса пользователя. Бесплатный доступ мог поставить под угрозу бесперебойную работу системы.
Нашим ключевым приоритетом в период пандемии оставалось качество работы системы. К тому же наш сервис относительно «сезонный» и, несмотря на то что сессия в 2020 г. проходила в необычном для многих студентов и преподавателей режиме, работы мы проверяли в те же сроки, что и в предыдущие годы.
— Образовательные проекты — одно из приоритетных направлений компании. Конференция «Обнаружение заимствований», вебинары по основным инструментам и практикам. Как меняется пользовательская грамотность? По каким показателям можно оценивать соответствующую динамику? Какие образовательные активности в планах?
— Ещё лет шесть-семь назад я был полностью уверен в том, что если дать пользователям хороший инструмент, то они сами смогут правильно его использовать. Лишь со временем стало приходить понимание, что без обучения не получится использовать никакой сервис, каким бы простым и хорошим он ни был.
Пока можем оценивать грамотность наших пользователей лишь субъективно — по уровню вопросов, которые регулярно получаем. Приятно, что за последние годы вопросы стали гораздо интереснее, но и «классические» не иссякают. Поэтому в 2020 г. Мы разделили наши вебинары на два уровня: для новичков и для продвинутых.
Безусловно, будем развивать конференцию «Обнаружение заимствований»: это наше ключевое ежегодное событие. Мы прошли большой путь по превращению из локального события в площадку уже международного масштаба. В этом году конференция пройдёт шестой раз — с 20 по 22 октября.
Честно говоря, у нас довольно много планов, желаний и идей в образовательной области. Постараемся попробовать новые форматы общения, но пока сохраню интригу относительно их деталей.
— Ещё одна важная социальная инициатива — конкурс выпускных квалификационных работ Be First. Мероприятие проводится уже шестой год. Как можете охарактеризовать уровень и актуальность представленных проектов?
— Для начала не могу не упомянуть, что родители конкурса студенческих дипломов Be First — издательство «Директ-Медиа» и журнал «Университетская КНИГА». Именно вам принадлежит отличная идея организовать такой конкурс. Затем в число организаторов вошёл «Антиплагиат»: мы не мыслили оценку дипломных работ без проверки на заимствования. В прошлом году к организаторам присоединилась группа компаний НЭИКОН. Безусловно, шесть лет очень сильно изменили конкурс и в количественном отношении, и в качественном. Его стали проводить не только среди гуманитарных дисциплин, к ним добавились технические и естественно-научные специальности. Во много раз выросло количество конкурсантов. География участников охватывает уже всю Россию. Многие работы имеют уровень, практически соответствующий кандидатской диссертации. Для нас как для соорганизаторов конкурса качество работ остаётся на первом месте, и мы действительно отвечаем за результат и награждаем исключительно достойных и честных претендентов на победу.
— Один из мировых трендов научной коммуникации — открытый доступ. Как оцениваете движение нашей страны в направлении открытой науки?
— На мой взгляд, именно открытый доступ внесёт важнейший вклад в решение проблемы неправомерных заимствований. Откуда такое парадоксальное мнение? Всё просто. 10–15 лет назад основной проблемой обнаружения заимствований было отсутствие удобного инструментария для проверки. Очень немногие преподаватели и рецензенты могли осуществить поиск заимствований в тех работах, которые попадали к ним в руки. Недобросовестные авторы чаще всего могли не опасаться, что плагиат будет обнаружен. Затем ситуация изменилась. Системы обнаружения заимствований оказались «встроены в каждый утюг». Проблема доступа пользователя к инструменту сменилась проблемой доступа инструмента к источникам. Теперь плагиатор стал искать то, что скрыто от индексирования.
Открытый доступ к квалификационным работам с помощью создания прозрачной информационной среды делает практически невозможными попытки скрыть неправомерные заимствования. Менее очевидно, но правильно организованный открытый доступ защищает права тех, чьи произведения оказываются открытыми.
Именно поэтому я выступаю за полное бессрочное открытие доступа ко всем квалификационным работам, включая и выпускные квалификационные работы, и диссертации.
— Поделитесь основными перспективами развития компании в целом и системы обнаружения заимствований в частности.
— Поделюсь мечтой о том, как должна быть устроена правильная система обнаружения заимствований. Да, мы везде уговариваем пользователя уделять внимание работе с отчётом о проверке, а не полагаться на проценты. Но конечно, идеальной окажется система, которая будет достаточно умной, чтобы взять на себя массу рутинных операций, сможет разобраться, учесть всё, что известно пользователю о работе и источниках, и в очевидных случаях вынести вердикт (естественно, аргументированный) самостоятельно, а в неочевидных — предложит разобраться эксперту.
Пока всё это выглядит немного фантастично, но, на мой взгляд, основные элементы такой технологии уже разработаны, остаётся лишь правильно их объединить.
— Наш традиционный вопрос — о чтении. Какие жанры и в каком формате предпочитаете? Какие книги любимые?
— Никогда не ограничивал себя какими-либо отдельными жанрами и «глотал» очень многое. И классические романы, и научную фантастику, и детективную классику, и фэнтези, и non-fiction, и многое другое. В последние годы добавилась детская литература. Из самого любимого отмечу Стругацких, которые повлияли на меня чрезвычайно и продолжают влиять. Что касается предпочитаемых форматов, то их выбор определяется моим образом жизни. Так как я довольно много путешествую, то в длительных автомобильных поездках слушаю аудиокниги, в самолётах предпочитаю электронные издания, а дома, конечно, бумажные.
NB!
Юрий Викторович ЧЕХОВИЧ, исполнительный директор АО «Антиплагиат»
Родился в 1976 г.
В 1999 г. окончил факультет управления и прикладной математики Московского физико-технического института, в 2002-м — очную аспирантуру факультета вычислительной математики и кибернетики МГУ имени М.В. Ломоносова.
В 2004 г. защитил диссертацию на соискание степени кандидата физико-математических наук.
В 2000 г. — один из основателей компании «Форексис».
С 2005 г. по настоящее время — исполнительный директор АО «Антиплагиат».
В 2008–2015 гг. — генеральный директор ООО «Форексис».
Один из основателей компании «Антиплагиат». Область научных интересов: анализ текстов и научная этика.
Редакция благодарит пресс-службу компании «Антиплагиат» зе в подготовке интервью.
Рубрика: Действующие лица
Год: 2021
Месяц: Июль/Август
Теги: Юрий Чехович