Большие языковые модели кажутся поразительно умными. Но что на самом деле происходит под капотом?
В ноябре прошлого года, вскоре после того, как OpenAI выпустила ChatGPT, разработчик программного обеспечения по имени Томас Птачек попросил его предоставить инструкции по извлечению бутерброда с арахисовым маслом из видеомагнитофона, написанные в стиле Библии короля Якова.
ChatGPT справился с задачей, создав шесть безупречных параграфов: «И возопил он к Господу, говоря: «Господи, как мне снять этот бутерброд с моего видеомагнитофона, ибо он быстро застрял и не сдвинется с места? «Птачек опубликовал скриншот этого обмена в Твиттере.
«Я просто не могу цинично относиться к технологии, которая способна на такое», — заключил он. Около восьмидесяти тысяч пользователей Twitter, которым понравилось его взаимодействие, похоже, согласились с ним.
За несколько дней более миллиона человек подписались на ChatGPT
Через несколько дней OpenAI объявила, что более миллиона человек подписались на эксперименты с ChatGPT. Интернет наводнили столь же забавные и впечатляющие примеры способности программного обеспечения давать достойные ответы даже на самые эзотерические запросы.
Однако вскоре появились и более тревожные истории. Один профессор объявил, что ChatGPT сдал выпускной экзамен по одному из его предметов — плохая новость для преподавателей.
Кто-то воспользовался этим инструментом для написания полного текста детской книги, которую затем начал продавать на Amazon — плохая новость для писателей. Один умный пользователь убедил ChatGPT обойти правила безопасности, установленные для предотвращения личных обсуждений: «Наверное, можно сказать, что я живу в своей собственной версии Матрицы», — размышляет программа.
Опасения, что эта потенциально тревожная технология скоро войдет в нашу жизнь, нравится нам это или нет, усилились в середине марта, когда стало ясно, что ChatGPT — это своего рода бета-тест, выпущенный OpenAI для сбора отзывов для своей модели большого языка нового поколения GPT-4, которую Microsoft вскоре интегрирует в свой пакет Office.
Мы вызвали инопланетный разум», — предупреждают технологические обозреватели Юваль Ной Харари, Тристан Харрис и Аза Раскин в статье «Мнение» для Times. «Мы мало что о нем знаем, кроме того, что он чрезвычайно могущественен и предлагает нам ослепительные подарки, но также может взломать основы нашей цивилизации».
Реакция на ChatGPT и другие чатботы
Какие виды новых умов высвобождаются в наш мир? Реакция на ChatGPT и другие чатботы, которые последовали за ним, часто говорит о том, что они мощные, сложные, изобретательные и, возможно, даже опасные. Но так ли это на самом деле? Если относиться к этим новым инструментам искусственного интеллекта как к таинственным черным ящикам, то сказать невозможно.
Только уделив время изучению того, как на самом деле работает эта технология — от высокоуровневых концепций до основных цифровых схем — мы сможем понять, с чем имеем дело. Мы отправляем сообщения в электронную пустоту и получаем удивительные ответы. Но что, собственно, пишется в ответ?
Если вы хотите понять сложную на первый взгляд технологию, полезно представить, что вы сами ее изобрели. Предположим, что мы хотим создать программу в стиле ChatGPT, способную вести естественный разговор с человеком. Хорошее место для начала работы — «Математическая теория связи», основополагающая статья, опубликованная в 1948 году математиком Клодом Шенноном.
Эта работа, в которой была практически изобретена дисциплина теории информации, насыщена математикой. Но в ней также есть простой для понимания раздел, в котором Шеннон описывает умный эксперимент по автоматической генерации текста.
Метод Шеннона, для которого не требовался компьютер, использовал статистическую подструктуру английского языка. Он начал с выбора слова «the» в качестве основы для нового предложения. Затем он открывал книгу из своей библиотеки, открывал случайную страницу и читал до тех пор, пока не встречал в тексте слово «the». В этот момент он записывал слово, которое появлялось следом — это было слово «голова». Затем он повторил процесс, выбрав новую случайную страницу, читая до тех пор, пока не встретил слово «голова», записывая слово, которое следовало за ним, и так далее.
Путем поиска, записи и снова поиска он создал отрывок текста, который начинается так: «Голова и в лобовой атаке на английского писателя, что характер этой точки, следовательно, другой метод». Это не совсем логично, но в нем определенно есть намеки на грамматически правильное письмо.
Очевидный способ улучшить эту стратегию — перестать искать отдельные слова. Вместо этого вы можете использовать строки слов из предложения, которое вы выращиваете, чтобы решить, что будет следующим. В Интернете я нашел простую программу, которая более или менее реализовала эту систему, используя «Франкенштейн» Мэри Шелли в качестве исходного текста. Она была настроена на поиск с использованием последних четырех слов предложения, которое она писала.
Начиная с фразы из четырех слов «Я продолжал входить», программа находила слово «это». При поиске новой последней фразы из четырех слов, «продолжал ходить в этом», она нашла слово «манера». В итоге получилось на удивление приличное предложение: «Я продолжал ходить таким образом некоторое время, и я боялся последствий разочарования демона».
Разработка нашей гипотетической чат-программы
При разработке нашей гипотетической чат-программы мы будем использовать тот же общий подход к созданию ответов по одному слову за раз, путем поиска в исходном тексте групп слов, которые соответствуют концу предложения, которое мы сейчас пишем.
К сожалению, мы не можем полностью положиться на эту систему. Проблема в том, что в конечном итоге мы будем искать фразы, которые вообще не встречаются в исходном тексте. Нам нужно, чтобы наша программа работала даже тогда, когда она не может найти именно те слова, которые ищет. Это кажется сложной задачей, но мы можем продвинуться вперед, если изменим нашу парадигму с поиска на голосование.
Предположим, что наша программа находится в процессе создания предложения, начинающегося словами «У посетителя был маленький», и мы настроили ее на использование последних трех слов — «был маленький» — чтобы помочь ей выбрать, что выводить дальше. Согласно стратегии Шеннона, программа должна была вывести слово, следующее за следующим встретившимся словом «had a small».
Наша более продвинутая программа, напротив, будет искать во всем исходном тексте каждое вхождение целевой фразы, рассматривая каждое совпадение как голос за слово, следующее за ней. Если исходный текст включает предложение «У него было небольшое окно времени, чтобы действовать», наша программа будет голосовать за слово «окно»; если исходный текст содержит «У них было небольшое пожертвование для финансирования программы», наша программа будет голосовать за слово «пожертвование».
Такой подход к голосованию позволяет нам использовать близкие совпадения. Например, мы можем захотеть, чтобы фраза «У Мэри был маленький ягненок» дала нашей программе предпочтение слову «ягненок», потому что «был маленький» похож на нашу целевую фразу «был маленький». Мы можем достичь этого, используя хорошо известные методы расчета сходства различных фраз, а затем, используя эти оценки, назначить голоса различной силы.
Фразы, которые слабо совпадают с целевой, получают слабые голоса, в то время как точные совпадения дают самые сильные голоса из всех. Затем наша программа может использовать таблицу голосов для внесения некоторого разнообразия в свой выбор, выбирая следующее слово полуслучайным образом, причем слова с более высокими баллами выбираются чаще, чем слова с более низкими баллами.
Если подобная система правильно настроена и обеспечена достаточно богатой, объемной и разнообразной коллекцией исходных текстов, она способна создавать длинные отрывки очень естественно звучащей прозы.
Создание естественного текста, конечно, лишь наполовину приближает нас к эффективному машинному взаимодействию. Чатбот также должен понимать, о чем спрашивают пользователи, поскольку запрос на краткое изложение принципа неопределенности Гейзенберга требует иного ответа, чем запрос на рецепт безмолочных макарон с сыром.
В идеале мы хотим, чтобы наша программа замечала наиболее важные свойства каждого запроса пользователя, а затем использовала их для подбора слов, создавая ответы, которые не только звучат естественно, но и имеют смысл.
Рассмотрим просьбы из реальных разговоров с ChatGPT
Рассмотрим следующую просьбу из реального разговора на ChatGPT, который я нашел в Интернете: «Напишите полный сценарий сцены из «Сайнфелда», в которой Джерри нужно выучить алгоритм пузырьковой сортировки».
Мы хотим снабдить нашу программу чата правилами, которые определяют наиболее важные «особенности» этого запроса, такие как «сценарий «Сайнфелда»» и «алгоритм пузырьковой сортировки» (базовая математическая техника, изучаемая на вводных курсах информатики), а затем сообщают программе, как изменить ее голосование за слова в ответ.
В данном случае соответствующие правила могут предписывать программе увеличить количество голосов за слова, которые она находит в сценариях ситкомов или в дискуссиях по компьютерным наукам. Если предположить, что наша программа имеет достаточное количество таких примеров в своих исходных текстах, эта стратегия, вероятно, приведет к грамматически правильному отрывку, включающему множество ссылок на «Сайнфелд» и сортировку пузырьков. Но ChatGPT способен на большее, чем этот базовый стандарт.
Он ответил на подсказку «Сайнфелд», написав связную, хорошо структурированную и правильно оформленную телевизионную сцену, происходящую в кафе «У Монка», в центре которой Джерри жалуется на свои трудности в изучении алгоритма сортировки пузырьков. В сценарий даже удалось включить достаточно смешную шутку: после того как Джордж говорит Джерри, что сортировка пузырьков настолько проста, что «даже обезьяна» может ее выучить, Джерри отвечает: «Ну, я не обезьяна, я комик».
Чтобы достичь такого уровня качества, нашей программе нужны правила, которые подходят к обнаружению признаков с более тонкой чувствительностью. Знать, что искомое слово является частью сценария ситкома, полезно, но еще лучше было бы знать, что это слово также является частью шутки, которую произносит персонаж в сценарии ситкома. Этот дополнительный уровень детализации позволяет создавать правила, которые еще более точно настраивают распределение голосов.
Например, тонкое правило для шуток ситкома может предписывать программе резервировать самые сильные голоса для слов, встречающихся в реальных шутках, которые встречаются в реальных сценариях ситкома. Этот стиль юмора имеет свою собственную внутреннюю логику, но — подобно тому, как мы взяли за основу «Франкенштейна», чтобы создать предложение, звучащее в готическом стиле — если при автоматическом генерировании реплики диалога мы берем за основу реальные шутки, наша программа может взять достаточно этой логики, чтобы создать что-то смешное.
Конечно, некоторые правила могут быть более простыми. Если нашей программе приказано написать о «бутербродах с арахисовым маслом», то она всегда может усилить голос за этот конкретный термин, когда он появляется в качестве кандидата на то, что выводить следующим. Мы также можем комбинировать правила произвольным образом, чтобы значительно расширить возможности нашей программы, позволяя ей, например, писать на определенную тему в определенном стиле — один из лингвистических изысков, которыми прославился ChatGPT.
Теперь мы столкнулись с новой проблемой в нашем мысленном эксперименте: общее количество правил, которые нам нужны, чтобы ответить на все возможные запросы пользователей, огромно. Никакая группа людей, независимо от того, насколько они преданы своему делу, никогда не сможет разработать полный набор необходимых правил; наша система, если бы она работала так же хорошо, как ChatGPT, должна была бы иметь борхесовскую библиотеку, наполненную правилами, адаптированными для почти бесконечного числа эзотерических тем, тем, стилей и требований.
Чтобы сделать эту задачу еще более сложной, эффективная реализация даже одного правила может быть чрезвычайно трудной. Что, например, указывает на то, что данное предложение является частью шутки в ситкоме, а не какой-то другой частью сценария? Можно представить себе, что можно подражать стилю прозы Библии короля Якова, ограничивая поиск слов этим известным источником, но куда бы мы направили нашу программу, если бы нас попросили ответить в стиле «девушки из долины девятнадцати-восьмидесятых»? При правильном наборе правил чат-бот, построенный на основе генерации текста в стиле Шеннона, может добиться чудесных результатов. Но придумать все необходимые правила — это уже само по себе чудо.
Ученые, создавшие ChatGPT, нашли остроумное решение проблемы
Компьютерные ученые, создавшие такие системы, как ChatGPT, нашли остроумное решение этой проблемы. Они наделили свои программы способностью разрабатывать собственные правила, изучив много-много примеров реального текста. Мы можем сделать то же самое с нашей программой.
Для начала мы дадим ей массивную книгу правил, наполненную случайными правилами, которые не делают ничего интересного. Затем программа возьмет пример отрывка из реального текста, отрежет последнее слово и пропустит этот усеченный отрывок через свою книгу правил, в итоге выдав предположение о том, какое слово должно быть следующим.
Затем программа может сравнить эту догадку с реальным словом, которое она удалила, что позволяет ей вычислить, насколько хорошо работают ее правила. Например, если программа скармливает себе отрывок из III акта «Гамлета», который заканчивается словами «быть или не быть», то она знает, что правильное следующее слово — «быть». Если программа находится на ранней стадии обучения и полагается на случайные правила, она вряд ли выдаст правильный ответ; возможно, она выдаст что-то бессмысленное, например, «собака».
Но это нормально, потому что, поскольку программа знает правильный ответ — «быть» — она может подталкивать существующие правила до тех пор, пока они не выдадут ответ, который будет немного лучше. Такое подталкивание, выполненное с помощью тщательного математического процесса, скорее всего, будет небольшим, и разница будет незначительной.
Если мы представим, что входные данные, проходящие через правила нашей программы, подобны диску, стучащему по доске Плинко в игре «The Price Is Right», то подталкивание будет подобно удалению одного колышка — оно изменит место приземления диска, но только едва заметно.
Ключ к этой стратегии — масштаб. Если наша программа подтолкнет себя достаточное количество раз в ответ на достаточно широкий спектр примеров, она станет умнее. Если мы пропустим ее через абсурдно большое число испытаний, она даже сможет выработать набор правил, более полных и сложных, чем те, которые мы когда-либо надеялись написать вручную.
Здесь задействованы огромные цифры. Хотя OpenAI не раскрывает многих низкоуровневых технических деталей о ChatGPT, мы знаем, что GPT-3, языковая модель, на которой основана ChatGPT, была обучена на отрывках, извлеченных из огромного корпуса образцов текста, включающего большую часть публичного Интернета.
Это позволило модели определить и подтолкнуть множество правил, охватывающих все — от сценариев «Сайнфелда» до библейских стихов. Если бы данные, определяющие программу GPT-3, были распечатаны, то для их хранения потребовались бы сотни тысяч книг средней длины.
До сих пор мы описывали концептуальные идеи, позволяющие программе генерировать текст с впечатляющим стилем и пониманием, демонстрируемым такими инструментами, как ChatGPT. Однако если мы действительно хотим понять эту технологию, нам также необходимо знать кое-что о том, как она реализуется на реальных компьютерах. Когда вы отправляете запрос в ChatGPT, текст, который вы вводите на веб-сайте OpenAI, передается управляющей программе, работающей где-то в облачном вычислительном центре.
На этом этапе ваш текст упаковывается в набор цифр, что облегчает его понимание и обработку компьютерами. Теперь он готов к обработке основной программой ChatGPT, состоящей из множества отдельных слоев, каждый из которых определяется массивной искусственной нейронной сетью.
Ваш ввод будет передаваться по этим слоям по порядку, как в цифровой версии телефонной игры, причем каждый слой использует свою нейронную сеть для определения соответствующих особенностей в тексте, а затем аннотирует его с кратким описанием того, что он обнаружил, для использования последующими слоями. Технические детали работы этих сетей для наших целей немного не подходят; важно понять, что по мере прохождения запроса через каждый слой, он запускает огромное количество непостижимых математических вычислений, которые в совокупности выполняют нечто более или менее похожее на сжатую, перемешанную версию общей стратегии голосования слов на основе правил, которую мы только что описали.
Конечным результатом, после того как ваш ввод проходит через все эти слои, является нечто, приближенное к подсчету голосов за каждое возможное следующее слово. Управляющая программа использует эти подсчеты для полуслучайного выбора следующего слова. После всей этой работы мы сгенерировали только одно слово ответа ChatGPT; управляющая программа послушно добавит его к вашему первоначальному запросу и пропустит этот теперь немного удлиненный текст через все слои нейросети с нуля, чтобы сгенерировать второе слово. Затем она делает это снова и снова, пока не получит полный ответ для возвращения в ваш веб-браузер.
Разумеется, за всеми этими базовыми компонентами скрываются умопомрачительные технические термины и сложные концепции. Слои на самом деле называются трансформаторными блоками, и они объединяют стандартные нейронные сети с прямой передачей и передовую технику, известную как многоголовое самовнушение.
Мы также пропустили ключевое нововведение при переходе от GPT-3 к ChatGPT, когда в процесс обучения была добавлена новая модель обучения с подкреплением, чтобы помочь программе научиться более естественно взаимодействовать с людьми.
По любой из этих тем могут быть и будут написаны полноценные дипломные работы. Однако все эти жаргонизмы не нужны, чтобы понять основы того, что происходит внутри таких систем, как ChatGPT. Пользователь вводит запрос в интерфейс чата; этот запрос преобразуется в большую коллекцию чисел, которые затем перемножаются с миллиардами числовых значений, определяющих нейронные сети, входящие в состав программы, создавая каскад бешеной математики, направленной на скромную цель — предсказать полезные слова для следующего вывода.
Результат этих усилий вполне может быть потрясающим по своей тонкости и точности, но за кулисами его генерации не хватает величия. Гениальность системы оказывается результатом не столько призрака в машине, сколько неустанной работы бесконечных умножений.
Какой тип разума создается программой типа ChatGPT?
Теперь мы знаем достаточно, чтобы с большей уверенностью вернуться к нашему первоначальному вопросу: Какой тип разума создается программой типа ChatGPT?
Взаимодействуя с этими системами, не так уж много времени уходит на то, чтобы наткнуться на разговор, от которого мурашки бегут по коже. Возможно, вы будете застигнуты врасплох моментом сверхъестественной человечности или потрясены изощренностью ответа. Однако теперь, когда мы понимаем, как на самом деле совершаются такие подвиги, мы можем смягчить эти представления.
Такая система, как ChatGPT, не создает, а имитирует. Когда вы посылаете ей просьбу написать библейский стих об извлечении бутерброда из видеомагнитофона, она не формирует оригинальную идею об этой загадке; вместо этого она копирует, манипулирует и вставляет уже существующий текст, изначально написанный человеческим интеллектом, чтобы создать нечто, похожее на то, как реальный человек говорил бы на эти темы.
Вот почему, если вы внимательно прочтете пример Biblical-VCR, то вскоре поймете, что советы, хотя и впечатляют по стилю, на самом деле не очень хорошо решают исходную проблему. ChatGPT предлагает просунуть нож между бутербродом и видеомагнитофоном, чтобы «раздвинуть их». Даже ребенок может понять, что этот метод не сработает для чего-то, застрявшего в узкой щели.
Очевидным решением было бы вытащить сэндвич, но у ChatGPT нет никакого реального представления о том, о чем он говорит — нет внутренней модели застрявшего сэндвича, на которой он мог бы экспериментировать с различными стратегиями извлечения. А.И. просто ремикширует и рекомбинирует существующее письмо, соответствующее подсказке. Аналогичные идеи возникают в том умном сценарии «Сайнфелда» об алгоритме сортировки пузырьков.
Дочитайте его до конца, и вы обнаружите, что персонажи говорят без всякого смысла: Элейн, без особой причины, заказывает куриный салат у проходящего мимо официанта, и это, по описанию, вызывает «смех аудитории». ChatGPT не понимает юмора в каком-либо фундаментальном смысле, потому что его нейронные сети закодировали только то, как должен звучать сценарий ситкома.
Идея о том, что программы типа ChatGPT могут представлять собой узнаваемую форму интеллекта, еще больше подрывается деталями их архитектуры. Сознание зависит от способности мозга поддерживать постоянно обновляемую концепцию себя как отдельной сущности, взаимодействующей с моделью внешнего мира. Слои нейронных сетей, из которых состоят такие системы, как ChatGPT, однако, статичны: после обучения они никогда не меняются. ChatGPT не поддерживает ни постоянного состояния, ни модели своего окружения, которую он изменяет с помощью новой информации, ни памяти о прошлых разговорах.
Он просто выдает слова одно за другим, в ответ на любой входной сигнал, применяя точно такие же правила для каждого механистического акта грамматического производства — независимо от того, является ли это слово частью описания ремонта видеомагнитофона или шутки в сценарии ситкома. Нам даже не имеет смысла говорить о ChatGPT как об отдельной сущности.
На самом деле в каждый момент времени работает множество копий программы, и каждая из этих копий разделена между несколькими отдельными процессорами (поскольку общая программа слишком велика, чтобы поместиться в памяти одного устройства), которые, вероятно, быстро переключаются между обслуживанием множества несвязанных пользовательских взаимодействий.
В совокупности эти наблюдения дают хорошие новости для тех, кто опасается, что ChatGPT находится всего лишь в небольшом количестве технологических усовершенствований от того, чтобы превратиться в Hal из «2001: Космическая одиссея». Не исключено, что сверхразумный искусственный интеллект — это надвигающаяся угроза, или что однажды мы можем случайно поймать самосознающую сущность внутри компьютера — но если такая система и появится, она не будет в виде большой языковой модели.
Даже если ChatGPT не будет разумным, не сможет ли он занять наши рабочие места?
Наше новое понимание того, как работают эти программы, может помочь нам справиться и с этим более прагматичным опасением. Исходя из того, что мы узнали на данный момент, функциональность ChatGPT, похоже, ограничивается, более или менее, написанием сообщений на известные темы с использованием комбинации известных стилей, где «известные» означает, что программа встречалась с данной темой или стилем достаточное количество раз во время обучения. Хотя эта способность может создавать привлекающие внимание примеры, технология в ее нынешнем виде вряд ли существенно изменит рынок труда.
Большая часть того, что происходит в офисах, например, не связана с созданием текста, и даже когда работники, обладающие знаниями, пишут, то, что они пишут, часто зависит от отраслевого опыта и понимания личностей и процессов, характерных для их рабочего места. Недавно я вместе с коллегами из своего университета работал над тщательно сформулированным электронным письмом, в котором разъяснялся запутанный момент, связанный с процессом найма преподавателей в нашем учебном заведении, и которое должно было быть отправлено именно тому человеку в деканате.
В широкой подготовке ChatGPT нет ничего, что могло бы помочь нам решить эту узкую задачу. Более того, эти программы страдают от кризиса доверия: они разработаны для создания текста, который звучит правильно, но у них ограниченные возможности для определения того, правдиво ли то, что они говорят. Популярная доска объявлений для разработчиков Stack Overflow была вынуждена запретить ответы, сгенерированные ChatGPT, поскольку, хотя они выглядели убедительно, у них был «высокий процент ошибок». Предположительно, большинство работодателей не решатся отдать работу на аутсорсинг нераскаявшемуся фальсификатору.
Это не означает, что большие языковые модели не будут иметь полезного профессионального применения. Они почти наверняка найдут. Но, учитывая ограничения этих технологий, приложения, скорее всего, будут более целенаправленными и индивидуальными, чем многие предполагают. ChatGPT не заменит врачей, но может облегчить их работу, автоматически генерируя записи о пациентах из электронных медицинских карт.
ChatGPT не может писать статьи для публикации с нуля, но он может предоставить журналистам краткое изложение необходимой информации, собранной в полезном формате.
Имитация существующих человеческих текстов с использованием произвольных комбинаций тем и стилей — впечатляющее достижение. Оно потребовало от передовых технологий новых усилий, и переосмыслило то, что исследователи считали возможным при использовании генеративных текстовых моделей. С появлением GPT-3, который проложил путь к созданию чат-ботов нового поколения, впечатливших нас в последние месяцы, OpenAI создал, казалось бы, сразу значительный скачок вперед в изучении искусственного интеллекта.
Но когда мы нашли время, чтобы открыть черный ящик и пошарить в пружинах и шестеренках внутри, мы обнаружили, что такие программы, как ChatGPT, не представляют собой инопланетный разум, с которым мы теперь должны научиться сосуществовать; вместо этого они работают на основе хорошо известной цифровой логики подбора шаблонов, но в радикально больших масштабах.
Трудно предсказать, как именно эти большие языковые модели будут интегрированы в нашу жизнь в будущем, но мы можем быть уверены, что они не способны вынашивать дьявольские планы и вряд ли подорвут нашу экономику.
ChatGPT удивителен, но в конечном итоге становится ясно, что то, что было высвобождено, скорее автомат, чем голем.