ИИ – ЭТО ЧЕРНЫЙ ЯЩИК. ANTHROPIC ПРИДУМАЛА СПОСОБ ЗАГЛЯНУТЬ ВНУТРЬ

В течение последних десяти лет исследователь искусственного интеллекта Крис Олах был помешан на искусственных нейронных сетях. Его особенно занимал один вопрос, который стал центром его работы, сначала в Google Brain, затем в OpenAI, а сегодня в ИИ-стартапе Anthropic, в котором он является соучредителем. "Что происходит внутри них?" спрашивает он. "У нас есть эти системы, но мы не знаем, что в них происходит. Это кажется безумием".

Этот вопрос превратился в основную проблему сейчас, когда генеративный ИИ стал повсеместным. Большие языковые модели (LLM), такие как ChatGPT, Gemini и Claude компании Anthropic, поразили людей своим языковым мастерством и одновременно разозлили своей склонностью к придумыванию фактов. Их потенциал в решении ранее неразрешимых задач восхищает технооптимистов. Но LLM – чужаки среди нас. Даже люди, которые их создают, не знают точно, как они работают, и требуются огромные усилия, чтобы создать защитные механизмы, не позволяющие им генерировать необъективные данные, ложную информацию и даже чертежи смертоносного химического оружия. Если бы люди, создающие модели, знали, что происходит внутри этих "черных ящиков", их было бы легче сделать безопаснее.

Олах считает, что сейчас мы находимся на пути к этому. Он возглавляет группу исследователей Anthropic, которым удалось заглянуть в этот "черный ящик". По сути, они пытаются провести обратный синтез больших языковых моделей, чтобы понять, почему они выдают определенные результаты, и, если верить опубликованной статье, им удалось добиться значительного прогресса.

Возможно, вы уже сталкивались с исследованиями в области нейронаук, которые интерпретируют снимки МРТ, чтобы определить, о чем думает мозг человека – о самолете, плюшевом медведе или часовой башне. Подобным образом Anthropic проникла в цифровой клубок нейронной сети своей LLM Claude и определила, какие комбинации ее искусственных нейронов вызывают определенные концепции, или "особенности". Исследователи компании определили комбинации искусственных нейронов, которые обозначают такие разные признаки, как буррито, точки с запятой в программном коде и – что очень важно для более масштабной цели исследования – смертоносное биологическое оружие. Такая работа потенциально имеет огромное значение для повышения безопасности ИИ, ведь если удастся выяснить, где в LLM таится опасность, то наверняка ее будет проще предотвратить.

Мы провели встречу с Олахом и тремя его коллегами из 18 исследователей Anthropic, входящих в группу "механистической интерпретации". Они объясняют, что в их подходе искусственные нейроны рассматриваются как буквы западного алфавита, которые сами по себе не несут смысла, но могут последовательно соединяться друг с другом, чтобы приобрести значение. "Буква C обычно ничего не означает", говорит Олах. Но слово "car" означает". Интерпретация нейронных сетей по этому принципу включает в себя технику, которая называется словарным обучением и позволяет связать комбинацию нейронов, которые, соединяясь, порождают определенную концепцию, называемую характеристикой.

"Это вызывает недоумение", говорит Джош Бэтсон, научный сотрудник Anthropic. "У нас есть порядка 17 миллионов различных концепций [в LLM], и они не маркированы. Поэтому мы просто смотрим, когда появилась эта закономерность?"

В прошлом году команда начала экспериментировать с крошечной моделью, в которой использовался всего один слой нейронов. (Сложные LLM имеют десятки слоев). Они надеялись, что в самых простых условиях им удастся обнаружить паттерны, обозначающие характеристики. Они провели бесчисленное количество экспериментов, но успеха не добились. "Мы перепробовали кучу всего, но ничего не помогало. Это выглядело как куча случайного мусора", – говорит Том Хенигхан, сотрудник технического отдела Anthropic. Затем эксперимент, получивший название "Джонни", начал ассоциировать нейронные паттерны с концептами, которые отображались в результатах, выводимых нейросетью.

Внезапно исследователи смогли определить характеристики, которые кодировались определенной группой нейронов. Они смогли заглянуть в "черный ящик". По словам Хенигана, он определил первые пять характеристик, на которые обратил внимание. Одна группа нейронов обозначала русские тексты. Другая была связана с математическими функциями в компьютерном языке Python. И так далее.

После того как было установлено, что исследователи могут идентифицировать характеристики в крошечной модели, они приступили к более сложной задаче – расшифровке полноразмерной модели LLM в естественных условиях. Для этого они использовали Claude Sonnet, среднюю по силе версию трех существующих моделей Anthropic. Это тоже сработало. Одна из особенностей, которая бросилась им в глаза, была связана с мостом "Золотые ворота". Они вычислили набор нейронов, которые при объединении указывали на то, что Claude "думает" о массивном сооружении, соединяющем Сан-Франциско и округ Марин. Более того, когда срабатывали аналогичные наборы нейронов, они вызывали в памяти предметы, связанные с мостом "Золотые ворота": Алькатрас, губернатор Калифорнии Гэвин Ньюсом и фильм Хичкока "Головокружение", действие которого происходит в Сан-Франциско. В общей сложности команда выявила миллионы характеристик – своего рода Розеттский камень для расшифровки нейронной сети Claude. Многие из них были связаны с безопасностью, включая "сближение с кем-то по каким-то скрытым мотивам", "обсуждение биологической войны" и "злодейские заговоры с целью захвата мира".

После этого команда Anthropic перешла к следующему шагу – выяснила, можно ли использовать эту информацию для изменения поведения Claude. Они начали манипулировать нейросетью, увеличивая или уменьшая определенные концепции – своего рода операция на мозге ИИ, способная сделать LLM более безопасной и расширить ее возможности в определенных областях. "Допустим, у нас есть панель с характеристиками. Мы включаем модель, одна из них загорается, и мы видим: "О, Claude думает о мосте "Золотые ворота"", – говорит Шэн Картер, ученый-антрополог из команды. "Теперь мы думаем, а что если поставить на все это маленькую шкалу? И что, если мы повернем эту шкалу?"

Пока что ответ на этот вопрос заключается в том, что очень важно повернуть эту шкалу на нужную величину. По мнению Anthropic, подавляя подобные характеристики, модель может создавать более безопасные компьютерные программы и уменьшать предвзятость. Например, команда обнаружила несколько особенностей, представляющих опасные практики, такие как небезопасный компьютерный код, мошеннические электронные письма и инструкции по изготовлению опасных продуктов.

Когда команда специально провоцировала эти сомнительные комбинации нейронов на срабатывание, происходило обратное. Claude выдавала компьютерные программы с опасными ошибками, мошеннические электронные письма и охотно давала советы по созданию оружия массового поражения. Если вы слишком сильно выкручиваете шкалу, то есть доводите ее до отметки 11 в смысле Spinal Tap, то языковая модель становится одержимой выбранной характеристикой. Например, когда команда исследователей включила на полную мощность характеристику "Золотые ворота", то Claude постоянно меняла тему разговора, чтобы упомянуть этот знаменитый мост. На вопрос о том, какова его физическая форма, LLM ответила: "Я – мост Золотые Ворота... моя физическая форма – это сам легендарный мост".

Когда исследователи Anthropic активизировали характеристику, связанную с ненавистью и оскорблениями, в 20 раз больше ее обычного значения, согласно статье, "это заставило Claude чередовать расистские высказывания с ненавистью к себе", что нервировало даже самих исследователей.

Учитывая эти результаты, возник вопрос: не может ли Anthropic, намереваясь сделать ИИ более безопасным, сделать обратное, предоставив инструментарий, который можно использовать для создания ИИ-хаоса.

Команда Anthropic – не единственная, кто работает над тем, чтобы вскрыть черный ящик LLM. В DeepMind над этой проблемой также работает группа, возглавляемая исследователем, который раньше работал с Олахом. Команда под руководством Дэвида Бау из Северо-Восточного университета разрабатывает систему идентификации и редактирования фактов в LLM с открытым исходным кодом. Команда назвала систему "Рим", потому что с помощью одного изменения исследователи убедили модель, что Эйфелева башня находится прямо напротив Ватикана и в нескольких кварталах от Колизея. Олах говорит, что его радует тот факт, что все больше людей работают над этой проблемой, используя самые разные методы. "Эта идея прошла путь от задумки, над которой мы размышляли два с половиной года назад и были весьма обеспокоены, до настоящего большого сообщества, пытающегося изучить ее".

Работа Anthropic только начинается. На вопрос о том, утверждают ли исследователи, что они решили проблему "черного ящика", они ответили единодушным "нет". К тому же у объявленных сегодня открытий есть масса ограничений. Например, методы, которые исследователи используют для выявления особенностей в Claude, не обязательно помогут декодировать другие большие языковые модели.

Бау из Северо-Восточного университета говорит, что он в восторге от работы команды Anthropic; помимо прочего, их успех в манипулировании моделью "является отличным признаком того, что они находят значимые характеристики". По его словам, словарное обучение не способно даже близко определить все концепции, которые использует LLM, поскольку для идентификации характеристики ее нужно отыскать. Поэтому картина будет неполной, хотя Anthropic говорит, что большие словари могут сгладить эту проблему.