Нужна ли библиотеке вуза единая поисковая строка? Вряд ли кто-то на этот вопрос ответит отрицательно. Тем не менее под словосочетанием «единая поисковая строка» многие понимают совершенно разные вещи. Настоящая статья призвана рассеять терминологическую путаницу вокруг этого понятия.
Автор Владимир Михайлович ЛЮТЕЦКИЙ, заместитель директора по науке ООО «Радуга-Лик с Вами»
Строго говоря, и единая поисковая строка, и дискавери-сервис необходимы для поиска информации в разнородных источниках: электронных каталогах библиотеки, платных или бесплатных полнотекстовых базах данных, а также в свободных ресурсах или репозиториях, размещённых в сети Интернет. В настоящее время существуют три подхода к созданию единого поиска на сайте библиотеки.
ПОИСК ПО КАТАЛОГАМ, ЗАГРУЖЕННЫМ В АБИС
Преимущества. Самый простой путь, используемый в данный момент большинством российских библиотек. Не требует никаких дополнительных действий за исключением периодического обновления каталогов, предоставляемых поставщиками контента. Практически у всех основных российских АБИС сейчас реализован поиск в виде одной строки, и на первый взгляд всё выглядит вполне неплохо…
Недостатки. Далеко не все ЭБС и тем более полнотекстовые базы данных предоставляют свои каталоги для загрузки. А высокая частота обновления каталогов многих ЭБС (в среднем около 3% документов в месяц) быстро делает загруженные внешние каталоги неактуальными.
Таким образом, использование встроенных в АБИС поисковых возможностей даёт удовлетворительные результаты только для библиотек, имеющих крайне незначительное количество внешних подписок.
ПОИСКОВЫЕ СЕРВИСЫ НА ОСНОВЕ СВОБОДНО РАСПРОСТРАНЯЕМЫХ ПОИСКОВЫХ СИСТЕМ
Преимущества. Универсальность и максимальная гибкость при настройке поисковых механизмов. На данный момент в свободно распространяемом виде (open source) существуют как специализированные библиотечные (VuFind), так и универсальные (Solr и ElasticSearch) поисковые системы (движки). Любой из вышеперечисленных движков можно встроить в библиотечный сайт и при известном усердии даже получить очень неплохой результат от его использования.
Недостатки. Большой объём работы высококвалифицированных программистов при настройке поисковой системы. Как и в первом случае, необходимо решать вопросы с получением и своевременным обновлением каталогов ЭБС и внешних полнотекстовых баз данных.
Этот путь подходит только тем библиотекам, которые имеют возможность бесплатно рекрутировать программистов для своих нужд; в противном случае затраты на их заработную плату будут как минимум сопоставимы со стоимостью покупки и поддержки полноценной дискавери-системы.
ПОИСКОВЫЕ СИСТЕМЫ НА ОСНОВЕ СТОРОННИХ КОММЕРЧЕСКИХ СЕРВИСОВ («БИБЛИОПОИСК», EBSCO, PRIMO И ДР.)
Преимущества. Поисковый сервис под ключ. Наилучшее качество поиска и высокая частота обновления индексов ЭБС и полнотекстовых баз данных. Максимальный эффект от библиотечного поиска, встроенного в сайт.
Недостатки. Необходимость привлечения дополнительного финансирования: от нескольких десятков тысяч рублей в год для отечественного «БИБЛИОПОИСКа» до более чем 1 млн рублей для иностранных дискавери-систем типа EBSCO или Primo.
В любом случае работа с внешними коммерческими сервисами предпочтительна для тех, кто имеет достаточно большое количество внешних подписок и хочет получить в своей библиотеке максимальный эффект от их использования.
ОЦЕНКА КАЧЕСТВА БИБЛИОТЕЧНЫХ ПОИСКОВЫХ СЕРВИСОВ
Поговорим о параметрах, непосредственно влияющих на качество поиска, и о том, чем хороший поиск отличается от плохого. Для этого необходимо уяснить ключевое отличие единого поиска от привычного многим библиографического. Это отличие — неоднозначность критериев отбора документов для поисковой выдачи. К примеру, мало кто задумывается над тем, почему поиск «Яндекса» по словосочетанию «теорема Пифагора» находит более 800 тыс. страниц, а аналогичный запрос в Google — менее 300 тыс., притом что индексируются, по сути, одни и те же сайты. На самом деле разница — в методике отбора страниц, соответствующих поисковому запросу.
Аналогичные нюансы есть и у библиотечных поисковых систем. Далее на примерах будет показано, насколько разными могут быть результаты выдачи у сервисов, поддерживающих или не поддерживающих ту или иную особенность библиотечного поиска. Приведённые ниже примеры также можно использовать при тестировании качества работы поисковой системы.
МОРФОЛОГИЧЕСКИЕ ПРЕОБРАЗОВАНИЯ
Точный библиографический поиск по словосочетанию «история России» найдёт только те документы, в библиографическом описании которых данная фраза встречается как есть. А когда речь идёт о единой строке, возможны варианты. К примеру, заглавие «Российская история» релевантно исходному поисковому запросу «история России». А книга с заглавием «История российских музыкальных инструментов», скорее всего, читателя уже не заинтересует. И почти наверняка читателя не заинтересует книга, называющаяся «История Китая», и та, у которой слово «Россия», в контексте одного из соседей Китая встречается только в аннотации к книге.
Но оценочные суждения типа «скорее всего» и «почти наверняка не», использованные в предыдущем абзаце, не дают чёткого понимания, какой документ должен быть показан читателю, а какой показывать незачем. Вот так и рождается поисковая неоднозначность.
Кроме того, хорошие поисковые системы «понимают» не только однокоренные слова: не все сервисы словосочетания «болезни ребёнка» и «болезни детей» трактуют как эквивалентные. Но с применением морфологии важно не переборщить: не все поля библиографической записи можно подвергать морфологическим преобразованиям. Читателя, искавшего через единую строку слово «соловьи», вряд ли заинтересуют книги об истории России, написанные Сергеем Соловьёвым.
А бывает, что морфологические преобразования (особенно русскоязычные) дискавери-сервисом вообще не поддерживаются, что существенным образом ограничивает полноту результатов поиска.
НЕРАВНОЗНАЧНОСТЬ ПОЛЕЙ БИБЛИОГРАФИЧЕСКОЙ ЗАПИСИ ПРИ ОЦЕНКЕ РЕЛЕВАНТНОСТИ ДОКУМЕНТА
В простейшем случае поиск по единой строке работает следующим образом: для каждого документа создаётся строка, сформированная соединением текстовых полей библиографической записи (заглавие, список авторов, аннотация, ключевые слова и т.д.). И весь поиск проводится по содержимому этой единой строки.
Это приводит к забавным следствиям: документ, авторами которого являются Пётр Петрович Петров и Иван Иванович Иванов, может быть найден по запросу «Иванов Пётр Иванович».
У такого метода единого поиска есть и другие недостатки, более значительные. Очевидно, что документ, заглавие которого соответствует строке запроса, более важен, чем тот, у которого строка запроса встречается в его аннотации и уж тем более в полном тексте. Так вот, вышеописанный «простейший» подход к поиску нивелирует значение того, в каком именно поле библиографической записи встретилось искомое пользователем словосочетание. Таким образом, релевантность документов рассчитывается некорректно, что приводит к низкому качеству поисковой выдачи на запросах, выдающих большое количество результатов.
К сожалению, в силу своей простоты данный подход к единому поиску используется достаточно часто, поэтому будьте внимательны при выборе поисковой системы для своей организации.
АВТОКОРРЕКЦИЯ ОПЕЧАТОК
Привычная нам по работе с «Яндексом» и Google в библиотечных поисковых системах автокоррекция опечаток встречается нечасто. Тем не менее хорошая поисковая система поймёт, что пользователь, набравший «истрия России», имел в виду «истОрия России», а набравший «истрия симптомы» искал «истЕрия симптомы». А поисковая система без автокоррекции опечаток и в том и в другом случае не найдёт ничего подходящего.
ИСПОЛЬЗОВАНИЕ ТЕМАТИЧЕСКИХ ТЕЗАУРУСОВ
Эта опция позволяет поисковой системе находить документы с учётом синонимов слов, использующихся в запросе. К примеру, по запросу «аспирин» система, использующая тезаурус MeSH, найдёт также документы со словосочетанием «ацетилсалициловая кислота» и даже acidum acetylsalicylicum.
Тематические тезаурусы используются только в серьёзных и мощных дискавери-системах, потому что индексация на основе тезаурусов требует значительных вычислительных мощностей.
В таблице выше приведена сравнительная характеристика распространённых в России библиотечных поисковых сервисов.
Кроме того, при выборе поисковой системы необходимо обращать внимание на дополнительные бонусы. К примеру, «БИБЛИОПОИСК» предлагает всем библиотекам, независимо от их статуса и размера, бесплатный поиск по репозиториям Open Access, причём без ограничения по времени использования. На данный момент в их число входят «КиберЛенинка», DOAJ, ArХiv.org и DOABooks.
Разумеется, у каждого из вышеупомянутых поисковых сервисов есть и другие сильные и слабые стороны. Но очень радует, что у российских библиотек наконец-то появилась возможность выбора при реализации такой безусловно важной и нужной возможности, как единый библиотечный поиск!
Рубрика: Инновационные технологии
Год: 2018
Месяц: Сентябрь
Теги: Владимир Лютецкий