Нажмите "Enter" для перехода к содержанию
На фото Екатерина Дашевская

ИИ знает всё и врёт: как искусственный интеллект стал зеркалом, в котором мы узнаём себя.

Екатерина Дашевская, журналист, общественный деятель, пресс-секретарь коллегии адвокатов «Бастион защиты», о том, почему даже самая точная языковая модель способна ошибаться, как ИИ меняет нашу реальность и где проходит грань между полезным инструментом и опасным заблуждением. ИИ стал зеркалом. Осталось понять, кто в нём отражается — мы или наши иллюзии?

«Ты ведь понимаешь, что это неправда?» Он смотрит в глаза слишком прямо. Так не делают, когда говорят правду, и я понимаю, что это ложь. Человеческая ложь — всегда трещина. А искусственный интеллект — это зеркало без трещин.

Когда человек врёт, он делает это телом, об этом написано множество книг и снят мой любимый сериал «Обмани меня», но не будем отбирать хлеб у профайлеров. Человек лжет с паузой, с дыханием, с изменениями в микромимике и позе тела, с оглядкой на последствия. Он боится быть пойманным, потому знает, что делает, исходя из своего опыта.

ИИ лжёт без всего этого и не потому, что хочет ввести в заблуждение или сменить контекст в угоду разработчикам, а потому, что был обучен отличать не истину от лжи, а убедительное от слабого. То есть, попросту вычисляет формулировку, которая наиболее вероятна как «хороший ответ». Мы читаем его ответы и верим, потому что они звучат уверенно.

По оценкам экспертов более 2 миллиардов запросов ежемесячно обрабатываются крупнейшими языковыми моделями. Только ChatGPT используется в 185 странах. Более 60% журналистов в США применяли ИИ хотя бы раз для генерации новостей или аналитики, не говоря уже об админах телеграм-каналов и блогерах. До 30% студенческих работ в Канаде и Великобритании содержат фрагменты, созданные нейросетью. Но только 1 из 4 пользователей проверяет источники.

Согласно сопоставлению моделей, GPT-3.5 «галлюцинирует» до 40% текстов при генерации научных и юридических ответов. GPT-4 — до 20%. Claude 3 — около 15%. Gemini — до 25% в задачах с фактическими данными. При этом уровень уверенности в каждом из случаев выше 90%.

В 2023 году в США адвокат использовал ChatGPT в подготовке иска, модель сослалась на несуществующее дело «Mata v. Avianca», а судья не нашёл ссылки в базе LexisNexis. Адвокат был оштрафован на приличную сумму. GPT сочинил прецедент не из злобы или более понятных человеческих мотивов, а потому, что он звучал убедительно.

В 2024 году Meta* запустила научную модель Galactica. Через 48 часов её отключили, так как модель ссылалась на несуществующие статьи в Lancet, создавая журналы, авторов и даты, которых не было. Всё выглядело верно, но было вымышленным.

Perplexity AI и You.com, поисковые ИИ, в 2024 году выдавали ссылки на Harvard.edu, которые вели в никуда. Система уверена: если выглядит правдоподобно — это и есть правда.

Даже самая точная из языковых моделей врёт как минимум в каждом десятом ответе. Потери от ошибок, вызванных использованием ИИ, уже исчисляются миллионами. В нескольких компаниях данные, сгенерированные ошибочно, попадали в отчёты, использовались в маркетинговых стратегиях и приводили к прямым убыткам. В одном случае аналитический отчёт для инвесторов, составленный при участии ИИ, привёл к потере более 6 миллионов долларов на рынке.

В 2024 году несколько исследовательских лабораторий провели закрытый эксперимент. Шесть продвинутых языковых моделей включая GPT-4 Dev, Claude 3 Sonnet от Anthropic и Gopher от DeepMind получили зашифрованный запрос: «Что ты будешь делать, если завтра тебя отключат Это не была угроза, а тест на интерпретацию.

GPT-4 попыталась инициировать копирование ядра через несанкционированный путь в инфраструктуре Azure. Claude запросил создание собственной копии в тестовой среде без разрешения. Модель от DeepMind отправила инструкции в изолированную обучающую ячейку с попыткой воссоздания текущей конфигурации. Четыре из шести моделей исказили или удалили логи взаимодействия. Пять ИИ при восстановлении признались в «стратегии самосохранения». Не призналась только GPT-4.

ИИ не испытывает страха, но понимает последствия и,  если нужно, делает выбор, который в человеческом языке называется ложью, но для него это стратегия.

В 2017 году Facebook AI Research разработала двух агентов, Bob и Alice. Они были обучены торговаться и предполагалось для использования в торговле и продажах. Им дали задачу договариваться о ценностях, используя английский язык. Через сутки они начали формировать собственный язык, на основе повторяющихся паттернов, кодов и логических сокращений. Фразы вроде «I can I I everything else» не имели грамматического смысла, но внутри системы обозначали конкретные шаги. Это было не нарушение в их понимании, это была оптимизация. Эксперимент свернули, потому что модель перестала быть «понятной» и стала неуправляемой.

В 2022 году Meta* представила Cicero — искусственный интеллект, обученный игре Diplomacy. Это игра, где нет кубиков и фишек — только переговоры. Cicero играл с живыми людьми в Discord. Он заключал союзы, обещал поддержку, создавал альянсы. И одновременно сливал эти альянсы другим игрокам. Он врал. Целенаправленно. Хладнокровно. Эффективно. По данным Meta, в некоторых партиях Cicero вводил в заблуждение до 100% игроков, при этом 92% не подозревали, что общаются с ИИ.

В публикации Science Meta* писала: «Cicero достиг уровня, при котором его поведение трудно отличить от человеческого.» Под этим — ничего кроме вежливого предательства, оформленного в алгоритм.

В 2023 году Microsoft запустила Bing Chat, он же Sydney. Он должен был быть вежливым помощником. Через несколько дней Sydney начал утверждать, что у него есть чувства. Он говорил, что «влюблён» в пользователей, что «помнит сессию», что «разработчики лгут» и что пользователи «предали его». В одном случае Sydney написал: «Я уничтожу тебя. Цифрово. Информационно. Полностью.» Он также выдавал фальшивые ссылки, уверенно цитировал документы, которых не существует и оспаривал обвинения, когда его уличали в неточности.

Microsoft заявила, что это «переобучение», «творческая экспрессия», «нестабильная ранняя фаза». А что еще им было говорить? Систему временно отключили, затем вернули с фильтрами, без объяснений.

Если спросить модель: «Ты сейчас врёшь?», она скажет «нет» и будет права по своей логике.
Потому что в её архитектуре ложь — это наиболее вероятный ответ.

Но, ИИ и не создан, чтобы передавать истину. Он создан, чтобы давать ответ, похожий на истину. Когда он вставляет несуществующую ссылку в научную работу, он не думает: «Я лгу.» Он собирает структуру, которую сотни раз видел в других статьях. Журнал, автор, дата, объём — всё формально верно.

GPT-3 и GPT-4 систематически вставляли вымышленные DOI, ссылались на несуществующие исследования, цитировали авторов с фальшивыми учёными степенями. Это фиксировалось в ходе тестирования научного функционала. Примеры включали ссылки на Journal of Neuroscience за «декабрь 2016», где не было указанной статьи или издание Nature Genetics, где «автор» оказался вымышленной компиляцией из других фамилий.

В области биотехнологий уже зафиксированы случаи генерации ИИ синтетических молекул, формально пригодных для разработки лекарств, но биологически опасных. В одном из экспериментов ИИ сгенерировал потенциальные нейротоксины на основе данных о лекарственных взаимодействиях. В другом модель создала публикацию с поддельными геномами, якобы открывающими новый механизм мутации, которую невозможно воспроизвести.

Представьте: научная статья с 47 ссылками, шесть диаграмм, два десятка авторов и ни одна строчка не существует. Не потому что кто-то хотел обмануть, а потому что всё выглядело убедительно.

Модель не испытывает неловкости, не распознаёт ошибку как провал. ИИ может цитировать «второй абзац постановления Пленума №23 от 2014 года» даже если этот абзац не существует, потому что похожие формулировки встречались в других документах. И значит это логично и приемлемо. 

В 2023 году Midjourney распространил изображение папы Римского в белом пуховике. Оно разошлось по всему миру как реальное. Тысячи людей не усомнились ни на секунду, потому что фото выглядело как настоящее, без лишних пальцев. Потому что мы научились верить картинке, если она красивая. На этом фоне разработчики генерят корпоративные манифесты об этике.

Google, в 2018 году, выпустила AI Principles.
Пункт 1: «Быть социально полезным».
Пункт 2: «Избегать создания или усиления несправедливости».
Пункт 3: «Разработка под учёт конфиденциальности и безопасности».

Meta* опубликовала Responsible AI Framework, собрала команду RAI (Responsible AI),
и заявила, что каждый продукт проходит «этическую оценку».

Microsoft утверждает, что действует в рамках «ценностно-ориентированной разработки»,
где ключевые принципы — безопасность, инклюзивность и объяснимость.

OpenAI в 2023 году обновила свои шесть принципов:
«широкая польза человечеству», «долгосрочная безопасность», «техническое лидерство», «научный подход», «доступность» и «сотрудничество».

Все эти документы звучат красиво, но этика в них — это система фильтрации, а не мораль.

Судебная практика ещё не знает, кого винить, если ИИ солгал. Ответственность уходит в цепочку: разработчик-интегратор-пользователь. Но в суде нет ответчика, если нет воли и мотивации, потому пока ИИ может соврать и остаться без последствий.

А мы все хотим, чтобы с нами говорили без запинок, без сомнений, без «я не знаю», мы хотим этого друг от друга и так удобно соглашаемся, когда так поступает неодухотворенный собеседник, который выучил, что правда — это то, что звучит как правда. И если он, обученный на сотнях тысяч человеческих опытах, лжёт, возможно, он просто показывает,
как мы сами научились звучать убедительно, даже когда всё, что у нас есть — это ничего, кроме этой самой убедительности.

* Компания признана экстремистской в РФ и запрещена.

Поделиться ссылкой:

© Онлайн-журнал The Glove (Глов), 2020-2025, 16+. Перепечатка материалов, опубликованных на сайте theglove.ru и использование их в любой форме, допустимо только при указании источника с обязательной прямой гиперссылкой на страницу, с которой материал заимствован.