Научная электронная библиотека открыла поиск близких по тематике публикаций с применением нейросети для анализа научных текстов


Научная электронная библиотека открыла для пользователей портала eLIBRARY.RU поиск близких по тематике публикаций с применением нейросети SciRus-tiny, разработанной в МГУ для анализа научных текстов. Традиционно поиск в базах данных научной информации производится путем указания ключевых слов. Количество найденных документов и их состав сильно зависят от того, насколько точно подобраны ключевые слова. Нейросетевой поиск позволяет задать в качестве условия запроса аннотацию или полный текст научной статьи, или даже подборки статей по интересующей тематике. Система автоматически подберет документы, максимально близкие по своей тематической направленности. На портале eLIBRARY.RU такой поиск реализован на странице с описанием публикации (пункт "Найти близкие по тематике публикации" в панели "Инструменты"). Кроме поиска с помощью нейросети, на выбор пользователя предоставляется несколько вариантов поиска - на основе совместного цитирования, просмотра публикаций пользователями и включения в подборки, соавторства и совпадения ключевых слов. Также есть возможность ограничить поиск путем указания периода выпуска научной статьи, типа публикации, ее вхождения в РИНЦ или ядро РИНЦ, или по дате размещения на портале eLIBRARY.RU. Последнее условие удобно использовать для поиска среди свежих поступлений в Научную электронную библиотеку.

«Разработанная в рамках данного проекта модель уже широко используется в Научной электронной библиотеке для решения целого ряда задач, связанных с оценкой тематической близости научных документов. Уже протестирован специалистами полезный сервис для ученых, позволяющий для заданной статьи или подборки статей найти тематически похожие документы, как среди всего массива eLIBRARY.RU (более 55 млн. научных публикаций), так и только среди новых поступлений, – прокомментировал генеральный директор НЭБ Геннадий Еременко. – Важной для нас особенностью данной модели является ее мультиязычность, поскольку Научная электронная библиотека содержит документы на различных языках. Также тестирование подтвердило высокую эффективность модели, что расширяет круг задач и приложений, где она может быть использована. В стадии разработки - применение нейросети для идентификации авторов в публикациях, тематической классификации научных статей, а также в новом интерфейсе расширенного поиска на eLIBRARY.RU».

Академик РАН, руководитель междисциплинарной группы проекта Алексей Хохлов добавил: «Мы рады, что российские ученые теперь могут с помощью нейросетевой модели МГУ пополнять коллекции своих статей на портале. Это оказалось очень удобно».

Напомним, что в декабре 2023 года сотрудники лаборатории Машинного обучения и семантического анализа Института ИИ МГУ при поддержке портала eLIBRARY.RU обучили и опубликовали в открытом доступе нейронную сеть для получения семантических векторных представлений (эмбеддингов) научных текстов на русском языке SciRus-tiny. С ее помощью можно решать множество прикладных задач, начиная с поиска и классификации, и заканчивая извлечением научных терминов. Все работы по обучению модели и подготовке бенчмарка были проведены в рамках гранта 23-Ш05–21 МНОШ МГУ «Математические методы анализа сложных систем», проект «Разработка математических методов машинного обучения для обработки текстовой научной информации большого объема».

eLIBRARY.RU


Рубрика: Новости

Год: 2024

Месяц: Июнь

Теги: Нейросети Научный контент