Станислав КОЗЛОВСКИЙ: «Жизненная сила 'Википедии' — это её сообщество»


В этом году 20 лет исполняется «Википедии». Для интернет-проекта, даже такого крупного, это весьма солидный возраст, особенно на фоне закрытия ряда электронных библиотек. Со временем «Википедия» не только стала основным источником информации для многих пользователей, но и начала бороться за авторитет с уже признанными энциклопедиями. При этом «Вики» всегда была абсолютно бесплатной.

kozlovskiy-wikipedia

К разговору о том, как удаётся оставаться источником знаний номер один в меняющемся мире, привлекать финансирование под контентные проекты, успешно сотрудничать с лидерами на рынке образования, мы пригласили исполнительного директора некоммерческого партнёрства содействия распространению энциклопедических знаний «Викимедиа РУ» Станислава КОЗЛОВСКОГО.

— Станислав, примите наше поздравление по случаю юбилея. Как Вы считаете, что позволяет «Википедии» активно жить и развиваться?

— Спасибо! На самом деле в этом году у нас два юбилея: день рождения «Википедии» (15 января) и день рождения «Википедии» на русском языке (11 мая). Жизненная сила «Википедии» — это её сообщество. Пока есть люди, которые готовы дни и ночи писать статьи, выверять факты, спорить, как лучше сформулировать то или иное предложение, обновлять тексты, когда информация в них устарела или появилась новая, делать фотографии и иллюстрации, программировать ботов для рутинной работы, «Википедия» будет жить. Надеюсь, что «Вики» справит ещё не один юбилей!

— Каковы основные количественные показатели русскоязычной «Википедии»? Число статей, ссылок, медиафайлов, участников, читателей? Какова динамика прироста?

— Сейчас в «Википедии» на русском языке 1,7 млн энциклопедических статей. Для сравнения: в Большой Российской энциклопедии (БРЭ) их 80 тыс., в Большой советской энциклопедии (БСЭ) — 95 тыс. Если издать русскую «Википедию» на бумаге в точно таком же формате, как было опубликовано последнее издание БСЭ (в нём 31 том), то даже без печати иллюстраций она заняла бы 989 томов. С изображениями было бы где-то на треть больше. За месяц «Википедия» на русском увеличивается примерно на три тома формата БСЭ.

Иллюстрации в русской «Википедии» и в википедиях на других языках хранятся в централизованном хранилище — «Викискладе» (commons.wikimedia.org), крупнейшем медиабанке свободных изображений. Сейчас «Викисклад» содержит свыше 68 млн таких файлов, более 95% которых — это картинки, а оставшиеся 5% — аудио-, видео-, pdf-файлы и 3D-модели. Всё это медиахранилище занимает около 285 терабайт. Причём им можно пользоваться не только для иллюстрирования «Википедии», но и в других целях, например для иллюстрирования книг. Все файлы там свободны (либо загружены авторами под свободной лицензией, либо срок их охраны истёк, и они уже перешли в общественное достояние).

В «Википедии» на русском языке просматривается более 1 млрд страниц в месяц, а за год соответственно свыше 12 млрд. Трудно оценить количество пользователей, но мы знаем, что русскую «Википедию» за месяц читают со 106 млн различных устройств. Понятно, что у кого-то несколько таких устройств (телефон, планшет и пр.), а у кого-то может быть один компьютер на семью. 52% читателей — из России, также много читателей с Украины (13%), из Казахстана и Республики Беларусь (по 4%).

Однако, к сожалению, несмотря на такие высокие показатели, читателей, готовых не только пассивно потреблять знания, но и помогать собирать их, излагать, исправлять ошибки и неточности, до обидного мало. Людей, которые за последний месяц в русской «Википедии» сделали минимум пять редакторских правок, около 12 тыс. То есть примерно лишь один читатель из 10 тыс. ещё и вносит в тексты исправления/дополнения.

— Каковы национальные особенности работы «Викимедиа РУ»?

— «Викимедиа РУ» занимается поддержкой «Википедии» и других проектов «Викимедиа» на территории России. Хотя до этого мы говорили лишь про «Википедию» на русском языке, на самом деле это не единственная википедия, которая создаётся в нашей стране. Существует ещё около 30 энциклопедий на самых разных языках народов Российской Федерации. Крупнейшие из них по числу статей чеченская «Википедия» (почти 340 тыс. статей), татарская (240 тыс.) и башкирская (55 тыс.). Примерно 10% всех википедий в мире создаются в России.

В каждой википедии своя специфика. Например, если обычно авторы сетевой энциклопедии — это мужчины (более 90%) в возрасте 25–35 лет, то большинство авторов башкирской «Википедии» — женщины пенсионного возраста, в прошлом школьные учителя. Они себя в шутку даже называют «вики-бабушки».

— За счёт чего поддерживаете свою деятельность в России? Есть ли совместные проекты с телекоммуникационными компаниями, исследовательскими организациями, фондами?

— Прежде всего за счёт грантов некоторых российских благотворительных фондов. Также при поддержке разных компаний организуем конкурсы по написанию статей в «Википедию» или фотоконкурсы, помогающие иллюстрировать энциклопедию. Например, мы уже несколько лет каждую весну проводим совместно с телеканалом «Наука» конкурс научных фотографий. Скоро, кстати, начнётся конкурс 2021 года. Прямо сейчас при поддержке Ассоциации интернет-издателей проходит конкурс по написанию в «Википедию» статей про современную русскую литературу. Обычно часть финансовой поддержки спонсора уходит на призовой фонд, а часть — на саму организацию, что позволяет получать финансовые средства, необходимые для развития википроектов, для которых не удалось найти спонсоров.

Только за 2020 год благодаря таким конкурсам в «Википедии» появилось свыше 15 тыс. новых статей. Всего нами проведено уже около сотни подобных конкурсов по самым разным темам. Спонсорами выступали разные организации, как государственные, так и частные: Минфин России, Институт экономических и социальных исследований, Центральная универсальная научная библиотека имени Н.А. Некрасова, музей современного искусства «Гараж», Российский союз писателей, «Издательство Яндекса», Уральская горно- металлургическая компания, Роскосмос, Ростелеком, Nokia, РАЭК, Ассоциация почётных граждан и талантливой молодёжи и др.

Также мы принимаем пожертвования от физических лиц (на странице donate.wikimedia.ru), но, к сожалению, их не очень много. За месяц нам жертвуют примерно 30–50 человек. Как правило, большинство жертвователей — это не читатели «Википедии», а её авторы, которые хорошо знакомы с нашей деятельностью.

— В конце 2019 г. ответственный редактор научного издательства «Большая российская энциклопедия» Сергей Кравец заявил, что весной 2022-го в России появится аналог «Википедии». На тот момент было известно, что на проект выделяется 2 млрд рублей. Безусловно, пандемия внесла определённые коррективы в реализацию всех государственных проектов. Что известно на сегодняшний день по этому вопросу? Насколько реальны шансы на появление национального конкурента «Википедии»? Как с этим обстоят дела в других странах?

— Осенью 2020 г. меня пригласили выступить в издательстве БРЭ — рассказать о «Википедии». После лекции я пытался понять, на каком этапе вообще сейчас разработка этого мегапортала, но, увы, ничего толком не добился. Что ж, подождём обнародования прототипа.

Как я понимаю, скорее всего, это будет просто сведение воедино бумажных энциклопедий: БРЭ, отраслевых проектов и Православной энциклопедии. Также обещают агрегировать там информацию из музеев, университетов и НИИ.

Вообще, крупнейшие в мире универсальные энциклопедии давным-давно перешли в онлайн. БРЭ — последняя из больших энциклопедий, которая выходила на бумаге. Почему полноценную электронную версию они не начали делать ещё 20 лет назад, честно говоря, мне не очень понятно. Что касается финансирования, то оно там, конечно, колоссальное. На эти 2 млрд на портал, которые они получили, русская «Википедия» и все другие википедии на языках РФмогли бы существовать лет двести.

В целом мы будем рады, если портал БРЭ окажется удачным. Мы считаем их не конкурентами, а скорее единомышленниками. Многие википедисты, правда, опасаются, что после появления этого портала чиновники заблокируют в России «Википедию», но я надеюсь, что этого не произойдёт.

— Какие ещё государственные и коммерческие проекты так или иначе оказывают влияние на «Викимедиа РУ»? Например, антипиратские инициативы?

— Антипиратский закон нас никак не затронул. Дело в том, что викисообщество очень тщательно, я бы даже сказал сверхтщательно, следит за контентом, чтобы туда ни в коем случае не попало ничего, что может оказаться несвободным. Всё сомнительное вычищается сразу. Честно говоря, я даже не припомню случая, когда бы к нам обращались какие-нибудь правообладатели, требуя удалить свой контент, не говоря уже о судах.

А затронул нас закон о блокировках. Так, семь статей «Википедии» («Самосожжение», «Самоубийство», «Кокаин» и др.) много лет находятся в Реестре запрещённых сайтов. Правда, эти статьи всё равно доступны для всех и «Википедия» не заблокирована, но риск внезапной блокировки висит над нашим проектом уже восемь лет.

Также повлияло законодательство об иностранных агентах. Все отделения «Викимедиа» получают централизованную поддержку из средств, собранных людьми по всему миру, но в России мы теперь получать деньги из-за этого закона не можем. Соответственно российское отделение «Викимедиа» значительно беднее, чем, например, украинское или армянское.

— Знаю, что Вы проводите большую работу по лоббированию различных законов, в том числе по изменению законодательства по авторскому праву в отношении ограничений в использовании произведений, фотографий, культурного наследия. Насколько успешны эти инициативы?

— Да, мы добились появления в ГК РФ ст. 12861 «Открытая лицензия», что позволило юристам перестать спорить, легальны ли в стране такие лицензии, а авторам предоставило возможность отдавать свои произведения обществу в свободное использование. Сейчас уже большинство государственных сайтов, включая официальные сайты Президента РФ, Правительства РФ, Совета Федерации, Государственной Думы, ряда министерств и ведомств, перешло на свободную лицензию Creative Commons Attribution.

Также мы достигли изменений в ст. 1276 ГК РФ, что позволило всем свободно использовать собственные фотографии зданий и сооружений, не получая на то разрешения от архитекторов или их наследников. К сожалению, не удалось добиться возможности свободно использовать фотографии памятников, расположенных в местах, которые открыты для свободного посещения, без разрешения их скульпторов. Пытаемся решить эту проблему.

— Какие тренды привнёс 2020 год? Стали ли люди больше времени проводить за написанием и редактированием статей, находясь в изоляции? Как увеличилось количество статей, посвящённых медицине, психологии, экономике, кризисам, теориям заговора? Какие темы волновали читателей?

— Темп роста числа статей в «Википедии» не особо изменился, а вот число читателей увеличилось. Касательно медицины: значительно возросло как количество статей о пандемии COVID-19, коронавирусах, антителах и на смежные темы, так и их качество.

Что касается статей о психологии, то тут большую помощь оказывает факультет психологии МГУ имени М.В. Ломоносова. Каждый год начиная с 2015-го студенты пишут статьи по психологической тематике. Эти материалы потом тщательно проверяют сотрудники факультета, специализирующиеся именно в той тематике, которой посвящена та или иная публикация. В 2020 г. было опубликовано 130 таких статей.

Вот топ-10 статей, к которым в 2020 г. резко возрос интерес читателей: «Пандемия COVID-19», «Коронавирусы», «COVID-19», «Список умерших в 2020 году», «Испанский грипп», «Пандемия», «Моргенштерн (музыкант)», «Мишустин, Михаил Владимирович», «Бумажный дом (сериал)», «Президентские выборы в США (2020)». В топ-20 также вошли статьи про Михаила Ефремова, Джо Байдена, Нагорный Карабах и поправки к Конституции РФ.

— Встроена ли «Википедия» в российскую систему обнаружения заимствований? Осуществляется ли внутри свободной энциклопедии проверка на плагиат?

— Специально «Википедия» сама никуда не встраивалась, но, насколько я знаю, практически все системы антиплагиата используют корпус текстов «Википедии» в своих проверках.

В самой «Википедии» проверка контента ведётся постоянно. Как в автоматизированном режиме при помощи специальных ботов, так и в ручном: миллионы глаз следят, чтобы к нам не попало что-то защищённое копирайтом. Все сомнительные тексты тотчас удаляются.

— В мире активно расширяется движение открытой науки. Российские вузы и библиотеки развивают проекты репозиториев, учёные публикуют статьи открытого доступа. Известно, что «Википедия» создаёт открытое хранилище источников. Расскажите об этом проекте.

— «Википедия» устроена так, что каждый факт, каждое неочевидное утверждение в статьях обязательно должно сопровождаться ссылкой на независимый авторитетный источник. Если источника нет, то факт считается сомнительным, на предложение/абзац ставится специальный шаблон «Источник не указан» и, если его за разумное время найти не удаётся, такое утверждение из статьи вычищается. Соответственно источники — это основа «Википедии».

Проблема в том, что авторы статей указывают библиографические ссылки вручную. Часто они это делают в несколько разных стилях, не всегда указывают всю необходимую информацию и т.п. Несколько лет назад возникла идея унифицировать указание источников, собрать информацию обо всех них в централизованную базу данных, а из статей при указании источника просто обращаться к этой базе, чтобы в тексте автоматически генерировалась правильная ссылка. До сих пор идут споры, делать для этого новый википроект с отдельной библиографической базой или же использовать существующий проект «Викиданные». Ежегодно проводится конференция WikiCite, где специалисты со всего мира обсуждают, как лучше это организовать. Новый проект пока не создан, и его появление под вопросом, а для хранения библиографической информации на практике используются «Викиданные».

Проект «Викиданные» (wikidata.org) — это специальная свободная база знаний, данные из которой используются в статьях «Википедии». Сейчас в первую очередь — с целью автоматического формирования карточек с краткой информацией в статьях, а также для выстраивания связей между статьями «Википедии» на разных языках (интервики-ссылок).

В рамках проекта WikiCite в «Викиданные» сейчас боты активно загружают метаданные из множества библиографических источников (библиотечных каталогов, баз научных статей и пр.). Загружено уже несколько миллионов источников. В январе 2021 г. появился специальный инструмент для удобного указания в статьях «Википедии» источников, хранящихся в «Викиданных», с автоматической генерацией правильных библиографических ссылок (https://diff.wikimedia.org/2021/01/14/automatically-maintainedcitations-with-wikidata-andciteq/). Также стало возможным централизованно собирать статистику цитирования, строить разные графики и пр. Пока инструмент проходит тестирование; его включили только в португальской «Википедии». Если всё будет в порядке, то он появится в википедиях и на других языках.

— Какие ещё образовательные и научные проекты поддерживает «Викимедиа РУ»?

— Помимо «Википедии», «Викисклада», «Викиданных», о которых я уже рассказал, мы поддерживаем и другие проекты «Викимедиа». Их довольно много. Например, проект «Викисловарь», в рамках которого создаётся мультифункциональный (толковый, этимологический, фразеологический и пр.) словарь русского языка. Сейчас это самый большой в мире словарь русского языка, содержащий 1,1 млн статей. «Викиновости» — это проект гражданской журналистики, где новости пишут все желающие. «Викигид» — это проект, в рамках которого создаются свободные путеводители по городам всего мира; на русском языке уже около 3 тыс. таких гидов. «Викитека» — это свободная библиотека, в которой хранятся перешедшие в общественное достояние ранее изданные тексты, преимущественно художественная литература. На русском языке хранится уже более полумиллиона различных текстов.

— Каковы, на Ваш взгляд, перспективные направления работы с университетами, ed-tech-компаниями, центрами компетенций?

— Мы с 2019 г. при поддержке Фонда президентских грантов реализуем проект «Выпускники и наставники университетов России», в рамках которого ездим по университетам и проводим со студентами занятия: лекции о «Википедии» и мастер-классы по написанию статей. Затем студенты пишут в «Википедию» статьи о своих университетах, значимых учёных, преподававших там, известных выпускниках вузов. Хотя из- за пандемии пришлось часть встреч перенести в онлайн-формат, за прошлый год «Википедия» пополнилась несколькими тысячами таких статей.

Мы в прошлом году написали и опубликовали учебник «Википедия. Краткий курс» (https://commons.wikimedia.org/wiki/File:Wikipedia_Book.pdf), что позволило многим вузам организовать специальные учебные курсы по редактированию «Википедии». Например, в осеннем семестре 2020 г. в МГУ имени М.В. Ломоносова был проведён межфакультетский курс по этой тематике. В Петрозаводском госуниверситете с весеннего семестра 2021 г. стартует учебный курс по «Википедии».

В Центральной универсальной научной библиотеке имени Н.А. Некрасова в Москве каждые две недели по воскресеньям проходит постоянно действующий бесплатный воркшоп для всех желающих, где обучают писать и редактировать викистатьи.

kozlovskiy-wikipedia-1

— На сайте свободной энциклопедии указано, что каждую секунду её посещают 6 тыс. человек. Проводятся ли исследования портрета читателей? Какие интересные наблюдения можете отметить?

— Да, такие исследования проводятся. Их довольно много, и на сайте research.wikimedia.org собирается информация о подобных проектах.

Например, летом 2020 г. вышла статья (https://arxiv.org/abs/2007.10403), в которой было проанализировано поведение 65 тыс. читателей «Википедии» в зависимости от их пола. Оказалось, что, хотя в Интернете соотношение мужчин и женщин примерно 50/50, среди читателей «Википедии» 2/3 составляют мужчины. Однако в разных языковых разделах энциклопедии это соотношение различно. В румынской «Википедии» оно примерно одинаково (54% мужчин), в русской читателей-мужчин около 60%, а в «Википедии» на персидском языке их уже 75%.

Женщины и просматривают меньше страниц, чем мужчины. Например, в немецкой «Википедии» в среднем вдвое. Подсчитано, что читатели-мужчины обеспечивают 72% трафика «Википедии».

Анализировалось и то, какие статьи чаще читают женщины, а какие — мужчины. Например, статьями о медицине женщины интересуются чаще (правда, поскольку самих мужчин-читателей больше, то и по числу просмотров первенство всё равно за сильным полом). Оказалось также, что биографические статьи о мужчинах больше интересны мужчинам, а статьи о женщинах — женщинам.

— Очевидно, что «Википедия» с её размерами и читательской аудиторией вполне может считаться генератором больших данных. Такие цифры, в свою очередь, источник сведений для обучения искусственного интеллекта. Реализуются ли какие-либо проекты на базе этих технологий?

— Да, конечно. Ещё в 2014 г. компьютер IBM Watson обыграл чемпионов телевизионной игры Jeopardy! (российский аналог — передача «Своя игра»), где смог понимать вопросы на естественном языке (английском) и быстро находить правильные ответы. Компьютер сумел заработать 1 млн долларов на игре. В основе его базы знаний была скачанная английская «Википедия».

А в целом большинство универсальных систем искусственного интеллекта используют корпус текстов «Википедии» и «Викиданные» наряду, конечно, с обращением к поисковикам, к Wolfram Alpha и пр. Например, насколько я слышал, Siri, Cortana и «Алиса» используют тексты «Википедии».

Ещё статьи из «Википедии» на разных языках используются для обучения онлайн-переводчиков. А благодаря развитию википедий на языках России появляются и соответствующие онлайн-переводчики.

— Спасибо за содержательный разговор! Удачи в реализации всех википроектов!


Рубрика: Инновационные технологии

Год: 2021

Месяц: Март

Теги: Станислав Козловский