Открытый доступ является неотъемлемой частью научных коммуникаций, составляющей системы, в которой знание создаётся и распространяется. И если за его дистрибуцию пока в большей степени отвечают издатели, то задача репозиториев — сохранение научного контента.
Открытый репозиторий — это цифровая платформа, которая предоставляет бесплатный доступ к актуальным исследованиям, для того чтобы труды ведущих учёных приносили максимальную пользу науке, производству и обществу в целом. Развитие данного направления обсуждали участники круглого стола «Открытая наука: новый этап развития научной коммуникации», который проходил 17 сентября 2020 г. в рамках конференции LIBWAY-2020 (https://www.libway.ru).
Краткий обзор ситуации с репозиториями в России и в мире представила главный специалист НЭИКОН Марина ЗЕЛЬДИНА.
Число репозиториев в мире увеличивается с каждым годом. Мировой лидер по их количеству — США (900 репозиториев), далее идут Япония (542) и Великобритания (316). Россия пока четвёртая с конца (48 репозиториев, рис. 1).
Репозитории принято делить на несколько типов: предметные, институциональные, национальные, международные и репозитории данных. Предметные содержат документы, посвящённые одной дисциплине, репозитории данных — набор информации по одному или нескольким предметам. Институциональный — это цифровой архив, состоящий из доступных коллекций научных работ, представляющих интеллектуальный капитал учреждения. По данным Реестра репозиториев открытого доступа (Registry of Open Access Repositories, ROAR), в мире насчитывается 3379 институциональных репозиториев.
Агрегатор национальных репозиториев — это информационная система, которая объединяет отдельные ресурсы. Она снабжена возможностью поиска и фильтрации информации, а также выполняет роль резервного хранилища для всех документов, размещённых на платформе. В 2009 г. в Европе была создана Конфедерация репозиториев открытого доступа (Confederation of Open Access Repositories, COAR).
Международные репозитории агрегируют данные из национальных ресурсов и отдельных архивов в разных странах. Наиболее известные примеры — BASE (https://www.base-search.net/), WorldCat (https://www.worldcat.org/), OpenAIRE (https://explore.openaire.eu/), CORE (https://core.ac.uk/).
Выступающая подчеркнула, что и национальные репозитории, и международные не несут ответственности за качество загруженного в них контента, за это отвечают владельцы институциональных репозиториев.
В России в 2017–2018 гг. стартовал проект «Национальный агрегатор открытых репозиториев» (НОРА), а в 2019–2020-м появилась инициатива «Открытая наука России».
Проекты реализует НП «НЭИКОН» при поддержке Фонда президентских грантов.
Одна из важнейших задач развития открытой науки в России — создание новых и модернизация существующих репозиториев открытого доступа.
М. Зельдина отметила, что, создавая репозиторий, вуз демонстрирует свою научную продукцию и интеллектуальную жизнь в цифровом формате: в среднем около 30% учёных регулярно работают с ним. Само по себе наличие открытого доступа к научным и учебным материалам повышает качество обучения и преподавания. Кроме того, предоставление доступа к цифровому контенту является обязательным условием для учреждений, разрабатывающих и предлагающих гибкую систему онлайн-обучения.
Тем не менее создание новых репозиториев нередко сталкивается с административными ограничениями. Есть проблемы и в том, как обосновать руководству их необходимость, и в опасении открывать доступ к работам своих сотрудников. Материалы собираются, грамотно описываются, но всё это делается в закрытом режиме.
— Мы изучали мировой опыт и выяснили, что создание репозитория — непростая задача. Такой ресурс эффективно функционирует, когда все сотрудники, студенты и аспиратны университета знают о том, что репозиторий существует, какие труды и когда они должны разместить в нём, а администрация понимает, как мотивировать сотрудников выполнять пусть небольшую, но дополнительную и регулярную работу по загрузке информации о своих исследованиях, как попавшая туда информация может быть использована в отчётах, которые сопровождают жизнь каждой организации.
На следующем этапе возникают проблемы, касающиеся авторов. В частности, они не склонны архивировать работы, если этот процесс не является обязательным. Учёные опасаются, что их труды могут украсть, если они будут размещены в открытом доступе. Исследователи не знают функционала: как удалить свою работу из архива или внести в неё изменения. Кроме того, авторы считают, что публикация работы в репозитории в виде препринта может сузить круг потенциальных журналов для публикации.
Для того чтобы привлечь учёных, преподавателей и студентов к использованию репозитория, необходимо разработать специальную политику, упростить процесс загрузки данных и сосредоточиться на дополнительных преимуществах по сравнению с традиционными каналами распространения информации.
Полезные сведения содержатся в руководстве «Полезные практики университетов по использованию политик открытого доступа», разработанном в рамках Harvard Open Access Project в 2011–2012 г. Предпочтительной считается политика, при которой авторы сохраняют права на статью, но при этом обязаны предоставить копии статей для распространения в открытом доступе. Предполагается, что в репозиторий может быть загружено абсолютно всё (научные статьи и тезисы докладов, окончательные и издательские версии статей и т.п.), но не стоит настаивать на размещении там работ, которые приносят прибыль (например, учебников или популярных статей).
Очевидно, что, если издатель отправляет в репозиторий запрос на удаление статьи, его просьба должна быть удовлетворена. А если автор хочет отозвать уже опубликованную статью (например, потому, что обнаружены ошибки, неточности либо она заменена более новой версией и т.д.), он должен иметь такую возможность.
Резюмируя, эксперт отметила, что репозиторий — это единая точка доступа к результатам исследований, проведённых сотрудниками организации, дополнительная площадка для размещения ресурсов и канал распространения информации. Репозиторий позволяет контролировать поток работ, проведённых сотрудниками, и упростить процедуру сбора данных для отчётности, оценить востребованность размещённых ресурсов, повысить видимость и цитируемость, дополнить данные отчётов в финансирующие организации и ускорить обмен знаниями.
Проекты интеграции репозиториев представила главный библиотекарь РГБ, эксперт НЭИКОН Наталия ЛИТВИНОВА.
Чаще всего под интеграцией понимают вхождение репозитория организации в базу данных агрегатора национального и международного уровней. В НОРА сейчас 22 участника, они представляют свои метаданные и полные тексты. Членство в НОРА обеспечивает научным учреждениям включение в международные базы данных: BASE, OpenAir и др. Интеграция при этом происходит по-разному. В BASE и OpenAir — автоматически на уровне метаданных. Core только регистрирует участников, а метаданные они присылают напрямую. При этом для BASE и OpenAir участие в НОРА не препятствует индивидуальной поставке метаданных: репозитории могут там регистрироваться самостоятельно.
— Говоря об интеграции, нужно понимать, зачем она нужна и какие преимущества предоставляет репозиториям. Первый бонус — увеличение видимости объектов, второй — встраивание в глобальную систему международных сервисов.
В результате интеграции к каждому репозиторию возникает множество точек доступа вместо одной в конкретной организации. Это обеспечивает дополнительный трафик, что подтверждается возрастающей статистикой обращений. Но данный факт касается прежде всего национальной интеграции, в случае же с международными агрегаторами эффект не очевиден. В огромных объёмах зарубежного контента записи российских репозиториев могут просто затеряться, а шансов привлечь внимание международной аудитории немного. Но даже маленькую возможность не стоит упускать, если это не требует существенных усилий. Кроме того, индексирование в глобальных сервисах дискавери способствует появлению репозитория в поисковой выдаче сотен библиотек по всему миру. Например, в 2019 г. в РГБ за год было активировано 26 тыс. ссылок, из них на BASE — свыше 6 тыс., т.е. 27%.
Поставляя свои данные международным агрегаторам, репозиторий начинает взаимодействовать с глобальными сервисами. Среди основных: определение доступности полного текста, интеграция с ORCID, сервис по рекомендованию семантически связанных документов. Такая функция внедрена в НОРА. При поиске выводятся ссылки на сам документ, на схожие материалы в репозиториях России и других стран.
Интеграцию обеспечивает единый формат метаданных DC (Dublin Core). У него есть важное достоинство — это универсально применимый формат, однако широкая семантика полей допускает множество толкований. Поэтому репозитории активно пользуются другими форматами. Это прежде всего квалифицированный DC, где возможно более детальное описание. Есть специальные форматы метаданных, например для диссертаций, международные репозитории продвигают собственные разработки.
Возникают проблемы и в сборе метаданных, и это тоже вопрос договорённостей. Базовым является набор метаданных DC, но в дальнейшем осуществляется взаимная подстройка для унификации значений (обязательное использование некоторых полей, унификация и рекомендации по их заполнению, что позволяет проанализировать эти значения и загрузить в базовые поля). Например, BASE рекомендует после имени и фамилии автора записывать ORCID. Благодаря этому ссылка может быть опознана как DOI и занесена в отдельное поисковое поле.
В НОРА предлагается сделать обязательными шесть полей. Но это не означает, что мы контролируем их обязательность на входе. Если они отсутствуют в записях, материалы всё равно будут загружены. Подобным образом поступают международные агрегаторы, но они настоятельно рекомендуют использовать обязательные метаданные, потому что те необходимы для корректного функционирования записей. Например, одно из важнейших полей — DC rights, фиксирующие информацию о правах доступа. Если таких сведений не будет, а репозиторий обозначит, что у него все записи в открытом доступе, то по формальному признаку запись не будет доступна профессиональному сообществу. BASE до сих пор полагается на базовый набор DС, а в OpenAir структура метаданных развивается в сторону детализации, метаданные становятся разнообразными и богатыми. У Core тоже собственная структура метаданных, она хорошо согласуется со специальным форматом, разработанным для университетов Великобритании.
Структура репозиториев развивается в сторону усложнения. В каждом репозитории есть коллекции, которыми разработчики гордятся на международном уровне. Это документы, индексируемые в Scopus и WoS. Для них нужно озаботиться тем, чтобы метаданные представлялись более детально, — подчеркнула в завершение эксперт.
О системе международных идентификаторов рассказал эксперт НЭИКОН Алексей СКАЛАБАН.
Идентификатор — это уникальный признак объекта, позволяющий его отличить от других. Digital Object Identifier (DOI) — цифровой идентификатор объекта, определяющий постоянное местонахождение объекта в Интернете, его имя и метаданные.
DOI состоит из двух частей. Префикс присваивается регистрационным агентством и определяет издательство. Он уникален для каждого издателя. Суффикс определяет журнал, год издания, том, номер выпуска и расположение статьи в выпуске (присваивается издателем, но технически контролируется системой распознавания DOI) (рис. 2). По DOI читатель может сразу понять, в каком году была опубликована статья и в каком выпуске журнала её следует искать.
— Самая главная роль DOI — постоянный путь к адресу определённой статьи в Интернете (даже при смене домена или издательства). За последние 20 лет очень многие издательства перекупались крупными игроками, соответственно поменялись платформы и пути к статьям. Но поскольку им были присвоены DOI, они ведут на новые ссылки.
DOI позволяет повысить видимость публикации, за счёт того что статья, попадающая в Crossref, автоматически уходит в другие ресурсы, например в WorldCat или в собственные сервисы библиотек. Кроме того, можно вести учёт цитирований при помощи сервиса Cited-by, который учитывает ссылки одних статей на другие.
DOI присваивается различным типам объектов: книгам, книжным сериям, отдельным главам или разделам, журналам, отдельным номерам и статьям, диссертациям, сборникам трудов конференций, докладам, научным отчётам, препринтам (рукописям), базам данных, а также частям публикаций (рисункам, таблицам, графикам).
Для того чтобы идентификатор начал работать, недостаточно указать его в вёрстке: нужно зарегистрироваться и отправить метаданные в Crossref. Для этого есть пять способов:
Web Deposit Form (www.crossref.org/webDeposit/);
Metadata Manager (www.crossref.org/metadatamanager/);
XML — подготовка XML вручную либо выгрузка из электронной редакционной системы;
API — интеграция с электронной редакционной системой;
Elpub Smart Connect для клиентов НЭИКОН.
В Crossref встроен ряд дополнительных сервисов:
Reference Linking — добавление DOI в библиографический список;
Similarity Check — проверка текстов на заимствования;
Metadata Delivery — интеграция с научными базами и сервисами;
Crossmark — проверка актуальности версии публикации.
Последний сервис позволяет поддерживать информацию о контенте в актуальном состоянии и оперативно уведомлять читателей о внесении изменений в публикацию. С 2020 г. инструмент бесплатен для участников. При этом он интегрируется как на сайт, так и в pdf-версию статьи. Таким образом, например, можно выявить ретрагированные статьи.
Открытый идентификатор автора и исследователя (Open Researcher and Contributor ID, ORCID) — это алфавитно-цифровой код, который позволяет учёному объединить в одном профиле данные обо всех своих публикациях, аффилиациях, исследованиях и научных процессах, в которых он участвует.
Издательству ORCID позволяет улучшать видимость и распространение публикаций, научной организации — осуществлять мониторинг публикаций своих сотрудников, формировать отчёты о научной деятельности, отслеживать траекторию профессионального развития студентов и сотрудников, фондам — иметь оперативный доступ к спискам публикаций исследователей и полученных ими грантов.
ORCID интегрирован с базами данных Scopus, Web of Science, Crossref, крупнейшими мировыми научными издателями: Elsevier, Wiley, Springer, IEEE и др.
— Как только автор зарегистрировал DOI, публикация появляется в его профиле. Есть возможность вручную добавить свои материалы, авторизовавшись в базе данных Crossref. Организации могут использовать ORCID через три вида API. Public API бесплатный, позволяет авторизовываться внутри системы университета и получать информацию о статьях в профилях учёных, но только о тех, что находятся в публичном доступе. Member API платный, подключение через него позволяет получать доступ к лимитированной информации, которую автор разрешил использовать только данной организации, и добавлять записи в профиль автора. Premium member API выдаёт ежемесячные уведомления о том, сколько статей опубликовано, какие новые статьи добавлены в профиль автора. Ещё больше возможностей даёт интеграция с CRIS-системой.
В 2019 г. был создан новый идентификатор Research Organization Registry (ROR; https://ror.org/). Его использование позволит дополнить инфраструктуру открытой научной коммуникации уже существующими идентификаторами исследователей и объектов: ORCID и DOI.
В настоящее время ROR имеют 100 тыс. организаций, все они доступны через API. Идентификатор уже поддерживают крупные платформы, такие как Dryad и Data Cite. В третьем квартале 2020 г. планируется интегрировать ROR в Crossref, а ORCID намерен подключиться в 2021-м.
Репозитории развиваются разными путями, но во многих объём контента не увеличивается. В ряде случаев предполагается, что учёные должны сами загружать свои данные в репозиторий, но они этого делать не хотят. Возникает идея о том, чтобы научить репозитории очень простыми средствами пополнять фонд не только метаданными, но и полными текстами. Осуществлять это можно, используя поисковые предписания. О технологии рассказала заместитель директора НЭИКОН по научной работе Ирина РАЗУМОВА.
— Прежде всего необходимо найти свои статьи и получить метаданные, а также полные тексты статей открытого доступа, которые можно загружать в репозиторий, не спрашивая ни авторов, ни владельцев информации. При этом коллеги не очень хорошо понимают, что делать со статьями, опубликованными в платных журналах. Можно ли их загружать в зелёный доступ? Когда это можно делать и зачем их публиковать в репозитории, если можно загрузить на Research gate? Одно из заблуждений состоит в том, что издатели не разрешают загружать полный текст в открытый доступ.
Чтобы составить поисковое предписание, организации нужно определить статьи, которые она опубликовала за определённый период. Для этого необходимо знать стандартизованное название организации, а ещё лучше — её идентификатор. Затем проводится поиск в WоS и Scopus и выгружаются метаданные. При этом следует находиться в личном кабинете, иначе возможности по выгрузке и определению числа полей метаданных будут ограничены. Потом необходимо активировать функцию экспорта и получить файл, который вслед за этим перевести в формат Excel: с ним работать удобнее. А метаданные уже можно загрузить в репозиторий. В каждом наборе есть ссылка на полный текст. Далее нужно выделить статьи открытого доступа. И WoS, и Scopus предполагают такую возможность. При этом нужно понимать, что в Scopus, например, за один раз можно выгрузить не более 200 статей. Система сразу отметит те из них, которые она по каким-то причинам выгрузить не может. Все они будут представлены в формате pdf в папке «Загрузки» на вашем компьютере.
Что можно делать с закрытыми статьями? На сайте Sherpa-Romeo есть информация о 2,5 тыс. издательств и 1 тыс. журналов. Нужно найти название журнала или ISSN и посмотреть на этом сайте, какой политики придерживается издание по отношению к зелёному доступу. На сайте принята цветовая дифференциация. Если журнал помечен зелёным, то с точностью до каких-то отметок он разрешает размещать в свободном доступе статью в формате препринта (до рецензирования) и постпринт. Жёлтый цвет означает, что архивировать можно только препринт, а белый — что архивирование не разрешено. Следует обратить внимание на наличие эмбарго: издатель может разрешить архивировать постпринт, но через 6 или 12 месяцев.
Весь процесс займёт немного времени, и, если вы даже не получите полных текстов, ссылки и метаданные у вас будут.
Ещё одно важное направление исследований — рейтинги университетских репозиториев. Как отметил заместитель директора по развитию ГПНТБ СО РАН Денис КОСЯКОВ, попытки их создания предпринимались неоднократно. Первой была исследовательская группа Cybermetrics Lab, которая в 2008 г. запустила вебометрический рейтинг мировых университетов. В нём использовались такие показатели, как количество страниц сайтов, проиндексированных поисковой системой (размер сайта), число полнотекстовых документов (форматы файлов pdf, doc(x), ppt(x), реже ps) как индикатор открытости организации, объёмов результатов научных исследований в виде академических статей, препринтов, отчётов, учебных материалов, размещённых в общедоступном пространстве. Третий показатель — количество академических материалов, проиндексированных специализированной поисковой системой Google Scholar. Предполагалось, что чем больше материалов доступно для поиска, тем лучше. Четвёртый — число ссылок с других сайтов на страницы портала организации или на конкретные полные тексты. Этот рейтинг, в который входил ряд российских университетов, прекратил своё существование в 2017 г.
Следует отметить, что вебометрика в России начала активно развиваться после исследований Cybermetrics Lab. В начале 2010-х гг. стартовали проекты, которые занимались ранжированием научных сайтов НИИ и вузов. В частности, это рейтинг сайтов научных учреждений СО РАН Института вычислительных технологий СО РАН (http://www.ict.nsc.ru/ranking), вебометрический рейтинг научных учреждений России Института прикладных математических исследований Карельского научного центра РАН (http://webometrics.net.ru), сервис вебометрических исследований научных сайтов Дальневосточного геологического института ДВО РАН (http://fareastgeology.ru/webometrics), вебометрический индекс российских вузов и НИИ Института научной и педагогической информации РАО (http://ru.webometrics.info), рейтинг сайтов вузов и институтов (Сибирский федеральный университет, http://webometrics.sfu.kras.ru) и рейтинг сайтов научных организаций Россельхозакадемии. На данный момент все эти исследования приостановлены. Причин тому немало. В частности, вызывали много вопросов применяемые вебометрические инструменты. Однако они в значительной степени подстегнули интерес к репозиториям и заставили вузы запускать свои проекты, способствовали развитию академического веба, созданию сайтов научных учреждений и университетов.
Основные минусы вебометрических рейтингов следующие: почти нигде не выкладывались исходные данные, а были представлены только финальные оценки. Серьёзным недостатком являлась нестабильность в показателях, выдаваемых поисковыми системами. В тех рейтингах, которые были предложены, отсутствовала возможность измерить динамику. Нередко менялись сами принципы расчёта, и это не позволяло сопоставить предыдущее значение с текущим, понять динамику. Кроме того, охват репозиториев был неполным. В рейтинге Cybermetrics Lab российских вузов было всего 24, это вызывало недоумение, но авторы не особенно активно включали новые данные.
Все эти причины побуждали сделать что-то иное, более эффективное. В 2015 г. был запущен проект «Академическая вебометрика» (http://www.webometrix.ru), авторы которого попытались избавиться от указанных недостатков: через публикацию исходных данных, регулярные замеры, что обеспечило сглаживание результатов.
С использованием таких источников, как ROAR и Directory of Open Access Repositories (DOAR), данные об академических репозиториях стран Восточной Европы были собраны, объединены и верифицированы (табл. 1). Из Google и «Яндекса» исследователи получают данные о количестве страниц сайта и числе полнотекстовых файлов. Кроме того, из Google Scholar поступает информация о материалах, идентифицированных поисковыми роботами как научные статьи и книги. А с сайта Ahrefs.com приходят данные о числе входящих ссылок на страницы и документы сайта и о количестве ссылающихся доменов.
Основные результаты характеризуют данные табл. 2. Анализ показывает, что Россия серьёзно выделяется на платформе: у нас много документов в открытых репозиториях разного рода. Неплохо себя показывают Украина, Белоруссия, Чехия, Хорватия, Польша.
По соотношению объёма репозиториев и годового потока публикаций в Scopus (табл. 3) лидируют Белоруссия, Хорватия, Украина. Россия здесь на пятом месте.
В значительной степени количественный успех России определяется проектом «КиберЛенинка», отметил эксперт. Ресурс активно развивается, это пионер в области открытой науки в России. В своё время она обеспечила присутствие нашей страны на высоких позициях в рейтингах, связанных с открытой наукой. Сегодня рост — на уровне 270 тыс. публикаций в год.
Чуть позже в процесс включилась eLibrary. Объём потока — более 1,2 млн публикаций в год, но это далеко не всё полные тексты, в основном библиографические записи.
Анализ рейтинга выявил и ряд проблем. Прежде всего, ресурсы относятся к разным типам. Институциональные репозитории агрегируют научные исследования конкретных организаций. Есть электронные библиотеки, в которых, кроме научных документов, содержится много учебного контента. Нередко эти типы смешиваются: в репозиториях размещают учебные документы, а в электронных библиотеках — коллекции научных материалов. Существуют журнальные платформы. Некоторые журналы издаются организациями, которые сами являются держателями ресурсов открытого доступа. Другие платформы не зависят от издателя, но агрегируют несколько разных журналов, обеспечивая открытый доступ к этому контенту. Развиваются агрегаторы репозиториев. Нередко под вопросом находится научный характер ресурса. Формально это электронная библиотека или институциональный репозиторий, но размещены там материалы не научного характера, хотя они при этом могут индексироваться Google Scholar, как, например, материалы из Российской электронной детской библиотеки. Система считает, что это научные статьи.
Есть проблема оригинальности контента. У репозиториев разные политики, они могут публиковать документы, никак не связанные с сотрудниками организаций: архивные научные материалы и т.п. Это свидетельствует о желании быстро нарастить объём контента. Все эти проблемы сложно решить без детального анализа контента репозиториев.
Индикаторы, используемые в рейтинге, характеризует табл. 4. Рейтинг рассчитывается по формуле R = 60 х Объём + 5 х Динамика + 15 х Видимость + 10 х Авторитетность + 10 х Полнотекстовость. Такое соотношение продиктовано структурой источников. Есть прямые заходы на ресурсы и реферальный трафик, переходы из поиска и т.д.
Результаты рейтинга за май показывают, что на первом месте «КиберЛенинка», на втором — портал научных журналов Хорватии, на третьем — чешская информационная система, комбинированная из электронной библиотеки и репозитория. В российском
топ-20 на первом месте устойчиво находится «КиберЛенинка», на втором — Электронный научный архив УрФУ, на третьем — Электронная библиотека СПбПУ (табл. 5).
Полный вариант рейтинга будет представлен онлайн в конце 2020 г.
Рубрика: Библиотечное дело
Год: 2020
Месяц: Октябрь
Теги: Марина Зельдина