Мифы и легенды генеративного ИИ

Искусственный интеллект (ИИ) за последние два года стал практически обязательной темой в любой профессиональной среде, не исключая высшее образование и науку. В программах большинства научных конференций появляются специализированные секции, доклады об ИИ становятся ключевыми на пленарных сессиях. Обращает внимание заметное, если не подавляющее, количество скептиков среди выступающих на российских мероприятиях. Любимыми темами таких выступлений становятся ошибки и нелепости в ответах чат-ботов генеративного ИИ, рассказы о трёх руках и шести пальцах в сгенерированных картинках. Очевидны и выводы, которые делают такие спикеры: ИИ, с их точки зрения, это всего лишь хитрая компьютерная программа, которая в какой-то степени может быть полезна человеку, но её возможности крайне ограниченны, а весь хайп вокруг этих технологий только пыль, которая осядет со временем.

Автор Денис Викторович КОСЯКОВ, заместитель руководителя лаборатории наукометрии научных коммуникаций в Российском научно-исследовательском институте экономики, политики и права в научно-технической сфере

Стоит отметить, что множество преподавателей и исследователей, а тем более студентов вовсю пользуются системами генеративного ИИ, не обращая особого внимания на эту риторику. Однако и в среде активных пользователей есть скепсис, он просто имеет другой характер. Этому способствует и большое количество материалов в медиа, «объясняющих» основы генеративного ИИ, границы и возможности его применения. Как в русскоязычной медиасреде, так и в зарубежной очень популярен жанр развенчания мифов об ИИ, при этом часто такие материалы скорее укрепляют мифы, а не развенчивают их.

В основе этих мифов лежит множество факторов, но основными, на мой взгляд, являются недостаточное, упрощённое понимание технологий, лежащих в основе генеративного ИИ, инерция, перенесение представлений из пусть и недавней истории развития технологий ИИ на настоящее и ближайшее будущее, недооценка скорости и часто взрывного характера их развития. Даже более важным является антропоцентричность наших представлений о знании, творчестве, интеллекте, наша склонность наделять себя лично и человечество в целом исключительностью. С учётом отсутствия единого научно обоснованного понимания того, что такое интеллект, сознание, процесс познания, это делает аргументированное сравнение естественного и искусственного интеллектов практически невозможным, превращая конкурирующие позиции в предмет скорее веры, чем знания.

Скептицизм часто бывает полезным, однако, если под ним недостаточно оснований, он может помешать обществу, профессиональным группам, отдельным людям своевременно адаптироваться к тем революционным изменениям, которые могут быть вызваны быстрым прогрессом в области ИИ. Давайте попробуем взглянуть на основные мифы в области ИИ с позиции энтузиаста этих технологий.

МИФ О СТАТИСТИЧЕСКИХ МОДЕЛЯХ

Часто приходится встречаться с утверждением, что большие языковые модели (LLM) — это всего лишь статистические машины, продвинутая версия систем для автоматического продолжения текста. Критики утверждают, что эти модели просто предсказывают следующее слово в последовательности, основываясь на закономерностях в огромных объёмах текстовых данных¹.

¹ Чехович Ю., Грабовой А., Грицай Г. Модели генеративного искусственного интеллекта с полным их разоблачением // Университетская КНИГА. 2024. Июнь. С. 20–27.

Такая точка зрения подразумевает, что ИИ не имеет реального понимания или осознания контента, который он генерирует, сводя его к салонному трюку, просто соединяющему слова вместе без смысла.

В основе этого мифа, как это ни странно, лежат честные попытки многих специалистов объяснить понятными словами суть языковых моделей вообще. Как водится, объяснения начинаются ab ovo — с систем автозаполнения типа Т9 и соответствующих генераторов, которые были созданы именно на основе статистического анализа относительно небольших текстовых корпусов и позволяли предсказывать варианты продолжения текста с оценкой вероятности².

² Котенков И. Как работает ChatGPT: объясняем на простом русском эволюцию языковых моделей с T9 до чуда // Хабр: сайт. Data Open Science: блог компании. URL: https://habr.com/ru/companies/ods/articles/716918/ . Дата публикации: 06.03.2023.

Первое поколение таких систем было основано на n-граммах — последовательностях из нескольких слов. Эти модели работали на основе анализа вероятности появления слова при фиксированной последовательности предшествующих слов, но им не хватало способности понимать или генерировать связные и контекстуально релевантные длинные отрывки.

С появлением рекуррентных нейронных сетей (RNN), а затем сетей с долгой краткосрочной памятью (LSTM) и управляемых рекуррентных блоков (GRU) ИИ начал обрабатывать последовательности различной длины и сохранять контекст. Появление архитектуры трансформера с механизмом внимания произвело революцию в этой области. Такие решения позволили моделям оценивать важность различных слов в предложении относительно друг друга независимо от их положения. Это был значительный скачок, позволивший моделям улавливать сложные взаимосвязи в языке, что выходит далеко за рамки простого статистического предсказания.

Однако при объяснении принципов работы больших языковых моделей авторы часто концентрируются на устаревшем толковании с помощью статистических моделей, упуская из виду истинную сложность и возможности современного ИИ, что приводит к неверному пониманию и упрощённым аналогиям.

МИФ О СИМВОЛИЧЕСКОМ ПОНИМАНИИ

Он утверждает, что генеративные модели ИИ не имеют «истинного» понимания. Критики говорят, что, хотя LLM могут генерировать текст, который кажется связным и осмысленным, они делают это без какого-либо реального понимания базовых концепций, контекста или смысла. Аргумент часто основывается на идее, что понимание требует чего-то большего: символических рассуждений, сознания или какого-то неопределённого «человекоподобного» качества, которого ИИ в принципе не хватает.

Современные LLM не просто слепо манипулируют символами. Они строят внутренние представления концепций, с которыми сталкиваются, что позволяет им выполнять задачи, требующие тонкого понимания смысла. Учёным пока не удаётся полноценно заглянуть «под капот» моделям ИИ, но кое-какие частные выводы сделать получается³.

³ Ли К. Осваивают ли LLM модели мира или лишь поверхностную статистику? // Хабр: сайт. Wunder Fund: блог компаниии. URL: https://habr.com/ru/companies/wunderfund/articles/729532/. Дата публикации: 17.04.2023.

Так, исследователи из Массачусетского технологического института показали, что в процессе обучения на огромном корпусе текстов LLM вырабатывают представления о пространстве и времени, что позволяет им оперировать соответствующими концепциями, отвечать на соответствующие вопросы⁴.

⁴ Gurnee W., Tegmark M. Language Models Represent Space and Time // Cornwell University. ArXiv: 2310.02207. Computer Science. Machine Learning: site. URL: https://arxiv.org/abs/2310.02207 . Date of publication: 03.10.2023.

Им удалось локализовать нейроны, которые активируются в нужном контексте — если речь идёт о конкретной географической локации или историческом периоде. Эта пространственно-временная модель, вероятно, является частью более общей модели мира, формирующейся в LLM. Существование модели мира у LLM позволяет объяснить многие их выдающиеся способности⁵.

⁵ Trager M., Soatto S. Do large language models understand the world? // Amazon. Science: site. URL: https://www.amazon.science/blog/do-large-language-models-understand-the-world . Date of publication: 15.02.2024.

Только формирование модели мира может объяснить способности экспериментальных моделей генерации видеоконтента, таких как Sora от Open AI⁶.

⁶ Video generation models as world simulators / T. Brooks, B. Peebles, C. Holmes et al. // OpenAI: site. URL: https://openai.com/index/video-generation-models-as-world-simulators/. Date of publication: 15.02.2024.

Они формируют понимание физики реального мира и взаимодействия объектов на основе обучения на большом количестве видеоматериалов. Это позволяет модели генерации видео имитировать реалистичные движения, взаимодействие между объектами и временную когерентность, чтобы создавать правдоподобный видеоконтент. Такие задачи требуют понимания не только того, как появляются объекты, но и того, как они движутся, взаимодействуют и изменяются во времени, а это концепции, основанные на понимании реального мира, а не на простом распознавании образов.

Критики часто утверждают, что, поскольку ИИ не обладает сознанием или самосознанием, он не может по-настоящему «понять» что-либо. Однако такая точка зрения упускает из виду тот факт, что понимание в функциональном смысле не обязательно требует сознания⁷.

⁷ Functions of consciousness: conceptual clarification / T. Niikawa, K. Miyahara, H. T. Hamada, S. Nishida // Neurosci. Conscious. 2022. Mar. 29. Vol. 2022, iss. 1. Niac 006. DOI: 10.1093/nc/niac006.

Модели ИИ могут выполнять задачи, требующие понимания контекста, отношений и смысла, — задачи, которые функционально эквивалентны тем, что решает человек, хотя и с помощью других механизмов.

Более того, различие между пониманием человека и ИИ не так однозначно, как может показаться. Люди часто полагаются на бессознательные процессы, распознавание образов и заученные реакции, которые не так уж сильно отличаются от того, как работает ИИ. Разрыв между ИИ и человеческим пониманием может быть меньше, чем предполагают критики, особенно по мере того, как ИИ продолжает развиваться.

МИФ О ЗАВИСИМОСТИ ОТ ЧЕЛОВЕКА ПРИ ОБУЧЕНИИ

Существует распространённое мнение: для обучения ИИ необходимы вмешательство и руководство со стороны человека, системы ИИ в значительной степени зависят от маркированных данных, подготовленных людьми. Этот миф подразумевает, что ИИ не может развиваться или совершенствоваться без человека и что процессы обучения по своей сути ограничены его участием. Однако основной этап обучения моделей генеративного ИИ происходит в режиме обучения без учителя⁸.

⁸ Bach S. Large language model training: how three training phases shape LLMs // Snorkel: site. URL: https://snorkel.ai/large-language-model-training-three-phases-shape-llm-training/. Date of publication: 27.02.2024.

На этапе тонкой настройки в обучении GPT 3.5 и 4, а также конкурирующих моделей использовали технологию обучения с подкреплением на основе отзывов людей (RLHF), в ряде задач для улучшения качества моделей применяются размеченные людьми наборы данных. Однако использование человеческого труда представляет собой значительное ограничение, и компании, развивающие ИИ, пытаются его минимизировать или избавиться от него совсем. В том числе развивается генерация размеченного контента силами систем ИИ для обучения моделей следующего поколения.

Стоит также отметить, что вопреки распространённым опасениям ИИ-чат-боты не учатся непосредственно на наших с ними диалогах. Обучение моделей — конечный процесс, их параметры не меняются в ходе эксплуатации. Компании могут собирать и использовать диалоги для обучения или улучшения своих моделей, но обычно это можно явно запретить в настройках чат-ботов⁹.

⁹ How ChatGPT and our language models are developed // OpenAI: site. URL: https://help.openai.com/en/articles/7842364-how-chatgpt-and-our-language-models-are-developed (accessed: 19.09.2024).

МИФ О КРЕАТИВНОСТИ

Он утверждает, что ИИ, несмотря на свою способность обрабатывать огромные объёмы данных и генерировать контент, не может быть по-настоящему креативным или оригинальным. Критики уверены, что ИИ может лишь имитировать человеческую креативность, по-новому комбинируя существующую информацию, но не способен генерировать по-настоящему новые идеи или проявлять креативность так, как это делает человек. Творчество часто рассматривается как уникальная человеческая черта, связанная с сознанием, эмоциями и субъективным опытом. Это приводит к убеждению, что машины, которые не имеют такого опыта, не могут быть по-настоящему творческими. Более того, ИИ рассматривается как детерминированная система, которая следует правилам и алгоритмам. Такое восприятие приводит к предположению, что результаты работы ИИ, какими бы сложными они ни были, являются результатом механистических процессов.

Хотя творческие способности ИИ отличаются от человеческих, они всё же реальны и становятся всё более впечатляющими. ИИ может генерировать новые идеи, произведения искусства и решения, которые не являются простой компиляцией, а демонстрируют форму творчества, бросающую вызов традиционным определениям. Вообще говоря, креативные способности проявились в системах ИИ ещё до появления современных генеративных моделей. В 1970-х художник Гарольд Коэн начал разрабатывать набор программ AARON, целью которых было автономное создание живописных произведений¹º.

¹º Garcia C. Harold Cohen and AARON—A 40-Year Collaboration // CHM. Computer History Museum: site. URL: https://computerhistory.org/blog/harold-cohen-and-aaron-a-40-year-collaboration/ . Date of publication: 23.08.2016.

Система AlphaGo для игры в го, разработанная компанией DeepMind, подразделением Google, в 2015 г., основана на общих принципах машинного обучения и практически не использует ни алгоритмов, ни оценочных функций, специфичных для игры в го. При разработке AlphaGo авторы использовали только самую элементарную теорию игры в го, программа достигла высокого уровня игры, обучаясь сама на партиях профессионалов. Новая версия этой системы AlphaGo Zero, появившаяся в 2017 г., обучалась с нуля, играя сама с собой, и в результате выработала особенный стиль игры. Профессиональные игроки отмечали, что некоторые ходы AlphaGo, первоначально кажущиеся ошибочными, при более глубоком изучении оказывались стратегически важными¹¹.

¹¹ Wood G. In Two Moves, AlphaGo and Lee Sedol Redefined the Future // Wired: site. URL: https://www.wired.com/2016/03/two-moves-alphago-lee-sedol-redefined-future/ accessed: 19.09.2024).

Но ещё раньше, в 1950-х, был практически решён вопрос о том, могут ли машины создавать новое знание. В 1956 г. Аллен Ньюэл, Герберт Саймон и Клифф Шоу создали программу Logic Theorist, которая была предназначена для проведения автоматических рассуждений по правилам формальной логики. Logic Theorist доказал 38 из первых 52 теорем второй главы «Principia Mathematica» Уайтхеда и Бертрана Рассела, а для некоторых из них нашёл новые и более короткие доказательства¹².

¹² McCorduck P. Machines Who Think. 2nd ed. Natick, MA: A. K. Peters, Ltd., 2004. 554 p. ISBN 1-56881-205-1.

Генеративный ИИ уже занимает уверенные позиции в науке, особенно специализированные системы, например другая разработка Google DeepMind — система AlphaFold, предсказывающая трёхмерные структуры белков¹³, что значительно ускорило темп исследований в аких областях, как биохимия, молекулярная биология и фармакология.

¹³ Highly accurate protein structure prediction with AlphaFold / J. Jumper, R. Evans, A. Pritzel et al. // Nature. 2021. Vol. 596. P. 583–589. DOI: 10.1038/s41586-021-03819-2.

Уже в начале 2023 г. появилось несколько научных статей, в которых авторы исследовали возможность применения ChatGPT (в версии 3.5, доступной на тот момент) для выполнения научных изысканий¹⁴. В свежем исследовании¹⁵ авторы приходят к выводу, что LLM генерируют более интересные исследовательские идеи, чем люди — эксперты в определённой области.

¹⁴ Dowling M., Lucey B. ChatGPT for (Finance) research: The Bananarama Conjecture // Fin. Res. Let. 2023. Vol. 53. Art. num. 103662. DOI: 10.1016/j.frl.2023.103662.

¹⁵ Si Ch., Yang D., Hashimoto T. Can LLMs Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers // Cornwell University. ArXiv: 2409.04109. Computer Science. Computation and language: site. URL: https://arxiv.org/abs/2409.04109. Date of publication: 06.09.2024.

AI Scientist, разрабатываемый стратапом Sakana AI, — это полностью автоматизированная система, предназначенная для самостоятельного проведения научных исследований в области ИИ¹⁶.

¹⁶ The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery // Sakana.ai: site. URL: https://sakana.ai/ai-scientist/. Date of publication: 13.08.2024.

Система реализует четыре основных процесса: генерацию новых идей исследований по заданной шаблоном проблеме, которые проверяются на новизну поиском статей в Semantic Scholar, написание программного кода, проведение экспериментов и анализ результатов, написание статьи и, наконец, автоматизированное рецензирование полученного результата. Универсальность системы была продемонстрирована на примере исследований в трёх различных подобластях машинного обучения. Полученные исследования обошлись менее чем в 15 долларов за статью, при этом их качество позволяет пройти рецензирование на ведущие технологические конференции.

Генеративный ИИ стремительно меняет креативные индустрии, наше восприятие искусства¹⁷.

¹⁷ Green E. Artificial Intelligence Artwork: Revolutionizing Creativity With AI // Starleaf: site. URL: https://www.starleaf.com/blog/artificial-intelligence-artwork-revolutionizing-creativity-with-ai/. Date of publication: 16.06.2024.

Генерация фотореалистичных изображений и иллюстраций — первое достижение новых поколений ИИ, замеченное обществом. Рядовые представители креативных индустрий уже находятся под угрозой, опрос независимого профсоюза «Авторское общество» в Великобритании показал, что более четверти иллюстраторов и свыше трети переводчиков уже потеряли работу из-за генеративного ИИ, у ещё более значительной доли представителей этих профессий сократились доходы. Авторы художественной литературы и non-fiction также ожидают негативных для себя последствий¹⁸.

¹⁸ SoA survey reveals a third of translators and quarter of illustrators losing work to AI / SoA policy team // SoA. The Society of Authors: site. URL: https://www2.societyofauthors.org/2024/04/11/soa-survey-reveals-a-third-of-translators-and-quarter-of-illustrators-losing-work-to-ai/. Date of publication: 11.04.2024.

Столь быстрые изменения заставляют задуматься над пониманием креативности, над тем, какую роль играет компиляция в человеческом творчестве, где мы должны проводить грань, чтобы отделить «настоящее» творчество, существует ли эта грань вообще?

Автор Джоанна Мациевска написала в социальной сети X: «Знаете, какая самая большая проблема с тем, куда идёт развитие ИИ? Неверное направление. Я хочу, чтобы ИИ стирал и мыл посуду, а я могла заниматься искусством и писать, а не чтобы ИИ занимался искусством и писал, а я стирала и мыла посуду»

МИФ О ГАЛЛЮЦИНАЦИЯХ

Этот миф утверждает, что так называемые галлюцинации, присущие генеративному ИИ, указывают на его фундаментальные недостатки.

Галлюцинации ИИ стали любимой темой критиков, ведь лишние пальцы и руки на сгенерированных Midjourney изображениях, «нелепые» ошибки в ответах ChatGPT так смешны и так хорошо иллюстрируют то, что ИИ всего лишь хитрый технический трюк! Критики утверждают: такие галлюцинации свидетельствуют о том, что ИИ ненадёжен и ему нельзя доверять решение важных задач. Миф подразумевает, что, раз ИИ иногда выдаёт такие ошибочные результаты, значит, он изначально несовершенен и ограничен в своей полезности.

Многие люди воспринимают ИИ как источник окончательных ответов, сродни базе данных или энциклопедии. Мы привыкли воспринимать всё, что связано с компьютерами, в бинарной системе: работает или нет, появление неверного ответа в этом представлении говорит об алгоритмической или аппаратной ошибке. ИИ-галлюцинации — это случаи, когда нейросети, в частности большие языковые модели, генерируют результаты, которые фактически неверны или бессмысленны, но при этом преподносятся с уверенностью, как будто они правдивы.

Галлюцинации ИИ действительно представляют собой проблему, но они не обязательно свидетельствуют о фундаментальных недостатках систем ИИ. Напротив, они являются естественным следствием того, как работают генеративные модели. ИИ-чат-боты, которыми мы пользуемся, спроектированы и настроены на генерацию ответа, вряд ли нас бы устроило, если бы на бóльшую часть запросов они отвечали: «Я не знаю». Такого рода ответы являются следствием работы разного рода ограничительных схем, предназначенных ля того, чтобы не допустить генерацию вредоносного и опасного контента. Но LLM не являются базами данных, их механизм запоминания фактов, вероятно, близок к тому, что работает и в нашем мозге¹⁹, факты не запоминаются в конкретных нейронах, а формируют сложную схему отношений и ассоциаций²º.

¹⁹ Fact Finding: Attempting to Reverse-Engineer Factual Recall on the Neuron Level (Post 1) / N. Nanda, S. Rajamanoharan, J. Kramar, R. Shah // Al Alignment Forum: site. URL: https://www.alignmentforum.org/s/hpWHhjvjn67LJ4xXX/p/iGuwZTHWb6DFY3sKB. Date of publication: 23.12.2023.

²º Linearity of Relation Decoding in Transformer Language Models / E. Hernandez, A. S. Sharma, T. Haklay et al. // Cornwell University. ArXiv: 2308.09124. Computer Science. Computation and language: site. URL: https://arxiv.org/abs/2308.09124 . Date of publication: 17.08.2023.

LLM демонстрируют предпочтение к запоминанию определённых типов фактов. Они чаще фиксируют частые и сложные факты, запоминание менее распространённых знаний представляет проблему²¹.

²¹ Scaling Laws for Fact Memorization of Large Language Models / X. Lu, X. Li, Q. Cheng et al. // Cornwell University. ArXiv: 2406.15720. Computer Science. Computation and language: site. URL: https://arxiv.org/abs/2406.15720 . Date of publication: 22.06.2024.

Поэтому ответы чат-ботов часто похожи на вдохновенные фантазии эрудированного и старательного, но неготового студента на экзамене. Исследование Элизабет Дж. Марш, изложенное в её работе «Пересказ — не то же самое, что воспоминание: последствия для памяти», показывает, что истории, которые мы рассказываем себе и другим о своём опыте, могут существенно повлиять на наши воспоминания о нём²².

²² Marsh E. J. Retelling Is Not the Same as Recalling: Implications for Memory // Cur. Dir. Psychol. Sci. 2007. Feb. Vol. 16, iss. 1. P. 16–20. DOI: 10.1111/j.1467-8721.2007.00467.x.

Но мы же не называем это галлюцинацией. Галлюцинациями также часто считают ответы, расходящиеся с нашими представлениями о правде. Но это не делает их обязательно ложными, эти ответы основаны на усвоенном в процессе обучения материале, с которым мы можем быть не согласны.

Борьба с галлюцинациями является темой многих исследований и технологических разработок, но работают и простые техники. Большое возмущение в научном сообществе вызвала способность ChatGPT генерировать очень похожие на правду ссылки²³ на отсутствующие в природе статьи с известными авторами и высокорелевантными заголовками.

²³ Walters W. H., Wilder E. I. Fabrication and errors in the bibliographic citations generated by ChatGPT // Sci. Rep. 2023. Sept. Vol. 13. Art. num. 14045. DOI: 10.1038/s41598-023-41032-5.

В уже упоминавшейся работе про использование ChatGPT для проведения исследования в области экономики Доулинг и Люси на этапе генерации литературного обзора просто попросили: «Используйте только реальные статьи в качестве ссылок, не придумывайте ничего», что привело к вполне качественному результату. С тех пор как ChatGPT стал доступен поиск в Интернете с использованием Bing, начала неплохо работать инструкция вида «выполни поиск релевантных источников, если не уверен в ответе». Можно также явно включать нужную информацию в контекст, так работают многочисленные сервисы типа ChatPDF, добавляющие контент документа к промпту. Наконец, при необходимости работать c большими объёмами данных применяют технологии Retrieval Augmented Generation (RAG), формируя контекст для промпта из результатов семантического поиска информации по базе данных.

МИФ ОБ ИНСТРУМЕНТЕ

Миф рассматривает системы генеративного ИИ как полезные инструменты, помощников, которые могут расширить наши возможности, так же как это делают автомобили, технологии связи и компьютеры. Исторически сложилось так, что ИИ разрабатывался и внедрялся как инструмент для помощи в решении конкретных задач, от простой автоматизации до более сложных ассистентов в принятии решений. Однако достижения в области исследований ИИ говорят о том, что автономность не только возможна, но и уже частично реализуется в некоторых контекстах, причём давно. Например, алгоритмы высокочастотной торговли на фондовом рынке работают автономно, совершая сделки на скоростях и в объёмах, намного превышающих человеческие возможности. Эти системы ИИ принимают решения на основе рыночных данных, часто действуя самостоятельно, чтобы максимизировать прибыль. Автономные роботы, подобные тем, что использует Amazon на своих складах, способны ориентироваться в пространстве, определять и отбирать товары, а также координировать свои действия с другими роботами, и всё это без участия человека. Активно ведутся разработка и использование систем автономного вождения, беспилотные такси Waymo ездят по дорогам, хоть изредка и попадают в сложные ситуации.

Может показаться, что это единичные примеры, но, если оценить экспериментальные разработки для виртуальных сред, мы увидим в чём-то даже пугающую картину. В исследовании 2023 г. авторы поместили 25 агентов на основе генеративного ИИ, способных хранить и синтезировать опыт, воспоминания и планировать дальнейшие действия с помощью естественного языка, в виртуальную среду, подобую игре The Sims²⁴.

²⁴ Generative agents: Interactive simulacra of human behavior / J. S. Park, J. C. O’Brien, C. J. Cai et al. // Cornwell University. ArXiv: 2304.03442. Computer Science. Human-Computer Interaction: site. URL: https://arxiv.org/abs/2304.03442 . Date of publication: 07.04.2023.

Оказалось, что эти агенты демонстрируют индивидуальность и социальное поведение. Например, один из агентов «Изабелла» хочет устроить вечеринку в честь Дня святого Валентина, поэтому она приглашает друзей и клиентов по мере их появления. «Изабелла» и её подруга «Мария», которая влюблена в «Клауса», украшают кафе к этому событию. Позже «Мария» приглашает «Клауса» присоединиться к ней на вечеринке. В День святого Валентина пять агентов, включая «Клауса» и «Марию», посещают вечеринку и наслаждаются праздником. В этом сценарии пользователь задаёт только первоначальные намерения «Изабеллы» и влюблённость «Марии» в «Клауса», а архитектура агентов автономно генерирует социальные модели поведения, такие как распространение информации, украшение кафе, приглашение друг друга на свидание и взаимодействие на вечеринке.

В калифорнийском стартапе Altera пошли дальше и поселили тысячу автономных ИИ-агентов во вселенную игры Minecraft²⁵.

²⁵ Project Sid // Altera Substack. Company blog for Altera.al: site. URL: https://digitalhumanity.substack.com/p/project-sid . Date of publication: 03.09.2024.

Разработчики уже исследовали множество сценариев и аспектов общества, включая демократию, регулирование социальных норм, общественные роли, иерархии, торговлю, экономику, религию и многое другое. Агенты создали рыночную экономику с драгоценными камнями в качестве валюты, сформировали религиозные структуры, причём попытки распространения веры включали в том числе подкуп «священником» других агентов, была также проведена политическая симуляция, в которой агенты вырабатывали конституционные нормы под руководством разного типа лидеров. Цель, декларируемая Altera, — создать «цифровых людей, которые живут, заботятся и растут вместе с нами».

МИФ О ЛИНЕЙНОМ РАЗВИТИИ ИИ

Этот миф предполагает, что развитие ИИ идёт медленными и стабильными темпами, которые часто воспринимаются как линейные. Критики утверждают, что, хотя ИИ и добился определённых успехов, его рост предсказуем и вряд ли приведёт к трансформационным изменениям в ближайшем будущем. Это мнение преуменьшает потенциал быстрого, экспоненциального прогресса и недооценивает прорывы, которые уже меняют ситуацию в этой области. Ранние разработки ИИ, особенно во время «зимы ИИ» 1970-х и 1980-х гг., характеризовались медленным прогрессом и неоправданными ожиданиями. Этот исторический контекст сохраняется, заставляя некоторых верить в то, что прогресс ИИ и дальше будет медленным и постепенным. Мы склонны сосредотачиваться на текущих ограничениях ИИ, таких как проблемы с рассуждениями на основе здравого смысла или с обобщением, и полагаем, что их будет трудно или невозможно преодолеть.

Но в последние годы мы видим очень быстрый, потрясающий прогресс, в результате которого системы генеративного ИИ постоянно берут новые высоты. Основываясь на собственном опыте и линейном восприятии прогресса, эксперты часто заявляют об ограничениях ИИ. Например, в интервью порталу Naked Science²⁶ управляющий директор и начальник управления экспериментальных систем машинного обучения департамента общих сервисов «Салют» «Сбера», один из ведущих российских экспертов в области нейросетей, разработчик сервисов Kandinsky и GigaChat и автор двухтомника «Охота на электроовец. Большая книга искусственного интеллекта» Сергей Марков привёл примеры ограничений:

«Попробуйте попросить ChatGPT отсортировать тысячу чисел по возрастанию. Окажется, что такую простую для человека задачу эта языковая модель выполнить не сможет. Или попросите ChatGPT придумать к какому-нибудь русскому слову 10 рифм. Эта языковая модель довольно плохо играет в шахматы (в отличие от специально созданных под такие нужды программ), даже не может хорошо решать арифметические задачи — с этим куда лучше справляется обычный калькулятор. Модель легко нарисует астронавта, скачущего на лошади, но если попросите её изобразить лошадь, скачущую на астронавте, то человек сделает это куда успешнее».

²⁶ Иванова О. Сергей Марков: сценарий «Терминатора» не грозит нам ни в близком, ни в далёком будущем // Naked Science: сайт. URL: https://naked-science.ru/article/interview/sergej-markov . Дата публикации: 30.07.2024.

Интервью вышло 30 июля этого года. Вероятно, уважаемый эксперт основывался на опыте, полученном какое-то время назад, но легко проверить, что ChatGPT без труда справляется с сортировкой тысячи чисел по возрастанию (не сказал бы, что для человека эта задача проста). Так же непринуждённо он способен подобрать 10 рифм к русскому (а тем более к английскому) слову, может и стихотворение сгенерировать. Арифметические задачи тоже даются ему вполне неплохо, даже без использования инструмента Code Interpreter, который он привлекает для сложных вычислений. Dall-E в моём эксперименте испытал некоторые затруднения при просьбе нарисовать лошадь на астронавте (честно говоря, я тоже), но с парой подсказок справился и с этой задачей.

Эта история повторятся раз за разом: торжествующие утверждения о том, что ИИ не справляется с очередной тривиальной для могучего человеческого интеллекта задачей, оказываются несостоятельными с очередным обновлением. Хун Вон Чан, разработчик из OpenAI, выступая в Seoul National University²⁷, заметил, что мы привыкли работать в среде, где базовые аксиомы не меняются.

²⁷ https://twitter.com/hwchung27/status/1710003293223821658

Вы проводите эксперимент для своей новой научной идеи. Сейчас он не работает. Вы знаете, что он не будет работать, если вы проведёте эксперимент через три года. Но для моделей генеративного ИИ это не так: мало того что прогресс очень быстрый, он ещё и носит нелинейный характер. Поэтому вместо того чтобы считать, что какая-то идея не работает, надо считать, что она пока не работает. Нам необходимо постоянно «отменять» интуицию, построенную на опыте. Это приводит в том числе к преимуществу в среде ИИ для новичков, которые ещё не приобрели опыт, который сдерживает их воображение.

Темпы развития технологий ИИ с высокой вероятностью возрастут ещё. Технологические компании инвестируют всё более значительные средства в строительство центров обработки данных, набитых стойками с графическими ускорителями, для тренировки новых поколений моделей. Компания хAI Илона Маска за рекордные 122 дня построила и запустила в июле в г. Мемфисе в штате Теннесси супер-кластер Colossus из 100 тыс. ускорителей Nvidia H100 и планирует ещё расширить его возможности²⁸.

²⁸ xAI Activates ‘Project Colossus’ in Memphis with 100K H100 GPUs // Converge! Network Digest: site. URL: https://convergedigest.com/xai-activates-project-colossus-in-memphis-with-100k-h100-gpus/ Date of publication: 02.09.2024.

Epoch AI, междисциплинарный исследовательский институт, который занимается изучением развития и влияния ИИ, недавно выпустил доклад²⁹, в котором прогнозирует, что существующие технические ограничения позволят продолжать имеющимися темпами наращивать ресурсы для тренировки новых поколений как минимум до 2030 г.

²⁹ Can AI Scaling Continue Through 2030? / J. Sevilla, T. Besiroglu, B. Cottier et al. // EPOCH AL: site. URL: https://epochai.org/blog/can-ai-scaling-continue-through-2030. Date of publication: 20.08.2024.

При этом считается, что как раз вопросы размера, прежде всего вычислительных ресурсов и объёмов данных, используемых для тренировки моделей, влияют на их способности.

Известный американский изобретатель, футуролог и специалист в области ИИ Рэй Курцвейл знаменит своими точными прогнозами о будущем технологий.

В книге 2005 г. «The Singularity Is Near: When Humans Transcend Biology» он предсказывает наступление сингулярности — гипотетического момента в будущем, когда технологическое развитие станет настолько быстрым и необратимым, что человечество потеряет контроль над ним. Данное представление основывается на идее, что технологическое развитие происходит экспоненциально. Это означает, что каждая новая технология создаётся быстрее, чем предыдущая. Развитие технологий ИИ побудило Курцвейла к написанию новой версии этой книги, которая озаглавлена так: «Сингулярность ближе: когда мы объединимся с искусственным интеллектом».

МИФ О НЕДОСТИЖИМОСТИ УНИВЕРСАЛЬНОГО ИСКУССТВЕННОГО ИНТЕЛЛЕКТА

Он основан на убеждении, что человеческий интеллект уникален, невоспроизводим и недоступен для машин. Этот миф предполагает, что AGI (универсальный искусственный интеллект) и ASI (сверхинтеллект) являются исключительно предметом научной фантастики. Однако такая точка зрения неверно оценивает как природу интеллекта, так и стремительный прогресс в развитии ИИ.

Миф обусловлен несколькими факторами. Во-первых, это антропоцентрический взгляд на интеллект: люди склонны считать свои когнитивные способности особенными, отличными и превосходными. Эта точка зрения часто связана с загадкой сознания, которая остаётся в значительной степени не разрешённой в нейронауке и философии. Поскольку человеческий интеллект включает в себя самосознание, творческие способности, эмоции и моральные суждения, многие люди полагают, что ни одна машина никогда не сможет воспроизвести эти качества.

Наше интуитивное представление об интеллекте глубоко связано с представлением о том, как работает человеческий мозг. Поскольку современные научные знания о мозге всё ещё неполны, легко предположить, что интеллект — это сугубо биологический процесс, присущий только живым существам, и его невозможно воспроизвести в машинах. Однако интеллект — это не монолитное, загадочное свойство, которым обладают только люди. Его можно разделить на такие когнитивные функции, как решение проблем, обучение, рассуждение, креативность и адаптивность: качества, которые модели ИИ уже демонстрируют. ИИ уже превзошёл человека в таких областях, как математические вычисления, анализ данных и стратегические игры.

Эмпирический факт заключается в том, что производительность моделей ИИ возрастает по степенному закону с увеличением количества данных, параметров и вычислений при обучении³º.

³º Broken Neural Scaling Laws / E. Caballero, K. Gupta, I. Rish, D. Krueger //Cornwell University. ArXiv: 2210.14891. Computer Science. Machine Learning: site. URL: https://arxiv.org/abs/2210.14891. Date of publication: 26.10.2022.

Может быть, мы уткнёмся в стену и в какой-то момент этот закон перестанет работать, но пока что в сочетании с трендами в области выделяемых на тренировку новых моделей ресурсов³¹ это позволяет довольно уверенно говорить о перспективах.

³¹ Aschenbrenner L. Situational Awareness: The Decade Ahead. URL: https://situational-awareness.ai/ (accessed: 19.09.2024).

В среде специалистов есть авторитетные эксперты, например Ян Лекун³², которые считают, что технические решения и архитектуры, лежащие в основе современных моделей, не позволят достичь универсального ИИ.

³² Cмирнова Е. Ян Лекун призвал разработчиков не тратить время на БЯМ // ХАЙТЕК+: сайт. URL: https://hightech.plus/2024/05/24/yan-lekun-prizval-razrabotchikov-ne-tratit-vremya-na-byam. Дата публикации: 24.05.2024.

Однако мало кто ставит под сомнение саму эту возможность, а значит, это всего лишь вопрос времени.

Единой теории интеллекта пока не существует, есть ряд конкурирующих гипотез, многие из которых вполне допускают существование AGI, то же касается теорий сознания. Недавние исследования выявили сходство между моделями изучения языка с помощью ИИ и человеческими детьми в процессе овладения языком. Учёные Нью-Йоркского университета (NYU) провели обучение мультимодальной системы ИИ на основе данных, собранных у одного ребёнка, чтобы понять, насколько эффективно ИИ может изучать язык, так же как человеческие дети³³.

³³ Grounded language acquisition through the eyes and ears of a single child / W. K. Vong, W. Wang, A. E. Orhan, B. M. lake // Sci. 2024. Feb. Vol. 383, iss. 6682. P. 504–551. DOI: 10.1126/science.adi1374.

Несмотря на то что компьютерные нейронные сети не являются полноценным аналогом нейронных сетей в нашем мозге, наблюдение за тем, что они независимо друг от друга обучаются схожим схемам, является убедительным доказательством того, что нынешние методы глубокого обучения достаточны для моделирования человеческого познания, даже если они неоптимальны³⁴.

³⁴ Hammond S. Why AGI is closer than you think // Second Best: blog. URL: https://www.secondbest.ca/p/why-agi-is-closer-than-you-think . Date of publication: 22.09.2023.

Будущее развитие суперинтеллекта — ИИ, который превзойдёт человеческие когнитивные способности во всех областях, — зависит от способности ИИ самосовершенствоваться без вмешательства человека. Эта концепция, когда-то чисто теоретическая, сейчас серьёзно изучается исследователями. Если удастся создать системы ИИ, способные рекурсивно улучшать свои собственные возможности, скачок от интеллекта человеческого уровня к суперинтеллекту может произойти гораздо быстрее, чем предполагалось.

* * *

Несмотря на поистине революционный потенциал технологий ИИ, изменения в экономике и обществе вряд ли будут очень быстрыми. Социальная инерция, наша неготовность быстро меняться будут тормозить эту трансформацию. Мы это уже видели на примере компьютеров и Интернета, других технических инноваций. Можно заметить, что скорость изменений разная в разных профессиональных средах, общественных группах и государствах. Там, где нет значительного накопленного опыта, наследия и традиций, изменения могут быть очень быстрыми. Российская банковская сфера, телекоммуникации, государственные сервисы быстро стали в высокой степени инновационными по сравнению со странами Европы и Северной Америки во многом потому, что стартовали «в чистом поле», их развитие не тормозила необходимость поддерживать уже устаревшие технологии. В этом смысле американские банки, вынужденные обеспечивать привычные старшему поколению чековые книжки, не могут себе позволить переходить такими темпами в онлайн-среду и так быстро сокращать филиальные сети. Граждане ФРГ привыкли к неторопливой бумажной, основанной на традиционной почте немецкой бюрократии, и для них неочевидны преимущества электронных госуслуг. Крайне консервативной остаётся область высшего образования, про цифровую трансформацию которого говорят уже какое десятилетие, но результаты её не так уж заметны. Что уж говорить о библиотеках, которые в 1990-х гг. если и не были в авангарде применения компьютерных технологий, то точно довольно быстро менялись, а вот последующие изменения воспринимались со всё большим сопротивлением.

Это не значит, что изменений не будет. Сферы деятельности и общественные группы, не связанные путами наследия, будут активно воспринимать нововведения, то же самое станет происходить в высококонкурентных областях, в которых «чтобы оставаться на месте, надо очень быстро бежать». Существенно ускорить внедрение ИИ может и разворачивающееся геополитическое противостояние, США и Китай уже вступили в полномасштабную гонку за ИИ. Но впрочем, эти прогнозы должны давать специалисты, мы же можем лишь видеть ближайшие перспективы в своей профессиональной сфере. Сформировавшаяся настороженная, а то и враждебная реакция на технологии ИИ в сфере науки и высшего образования, стремление запретить или ограничить использование ИИ при подготовке и рецензировании статей, квалификационных работ вряд ли идут на пользу. Попытка спрятаться от нового, уйти от возникающих вопросов, замести под коврик всё неудобное не поможет в долгосрочной перспективе. Очевидно, что нам придётся возвращаться к вопросам, связанным с полноценным участием ИИ-агентов в нашей деятельности, в том числе в части авторства в научных текстах. Перед системой высшего образования стоит беспрецедентный вызов, связанный с тем, что многие компетенции, а то и специальности теряют актуальность в силу широких возможностей автоматизации средствами ИИ³⁵.

³⁵ The economic potential of generative AI: The next productivity frontier / M. Chui, R. Roberts, L. Yee et al. // McKinsey Digital: site. URL: https://www.mckinsey.com/capabilities/mckinsey-digital/our-insights/the-economic-potential-of-generative-ai-the-next-productivity-frontier#introduction. Date of publication: 14.06.2023.

Трезвый, свободный от влияния устоявшихся мифов и легенд взгляд на перспективы развития науки и высшего образования под влиянием революции ИИ необходим для поддержки их устойчивого развития и минимизации негативных последствий.

Рубрика: Искусственный интеллект и нейросети

Год: 2024

Месяц: Октябрь

Теги: Нейросети Искусственный интеллект (ИИ) Денис Косяков