Перейти к материалам
истории

Основанная Илоном Маском компания OpenAI научила нейросеть придумывать мемы, создавать дизайн и даже писать программы Все в восторге — но почему в OpenAI говорят, что рано радоваться?

Источник: Meduza

Компания OpenAI, одним из основателей которой выступил Илон Маск, открыла ограниченный доступ к своей новой текстовой модели GPT-3. Некоторые из испытателей смогли использовать эту модель для решения неожиданных — если не сказать невероятных — задач. При этом ее критики (и даже глава OpenAI) предупреждают: еще рано говорить о сильном искусственном интеллекте, мы только в самом начале пути.

Сначала — несколько примеров

Пример 1. Поисковик, который умеет отвечать на вопросы, заданные в свободной форме. И дает ссылку на источник информации. Например, можно спросить, кто убил Махатму Ганди или сколько атомов углерода в молекуле бензола.

Пример 2. Приложение, которое пишет стихи про Илона Маска по их словесному описанию. Например, можно написать «Короткое стихотворение доктора Сьюза про борьбу Маска с Комиссией по ценным бумагам США из-за его твита, в котором утверждалось, что он нашел финансирование для выкупа акций Tesla по 420 долларов». И получить стихотворение, которое (в вольном переводе) будет звучать так:

Илон Маск.

Его скорость высока.

А компания — велика.

Написал он твит,

Акция вверх летит.

Elon Musk

His speed was fast,

His company, vast.

He fired off tweets,

And his stocks rose fast.

Пример 3. Плагин для приложения Figma, которым пользуются дизайнеры для создания макетов сайтов и приложений. Вы пишете словесное описание, плагин строит макет. Описание на видео такое: «Приложение с навигационной панелью с иконкой камеры, заголовком Photos и иконкой сообщений. Лента фотографий, где у каждого фото есть иконка пользователя, фото, иконка сердечка и иконка чата». Получилась простая версия инстаграма.

Пример 4. Бот, который описывает выдуманные мемы. Например: «Скептичный голубь с подписью: „Я знаю, что должен больше заниматься, но я не хочу быть единственным голубем на беговой дорожке“». Или такой: «Мужчина, отчаянно ищущий воду в пустыне. „Хаха, да, кажется, я умру!“».

Примеры 5 и 6. Приложения, которые пишут код на разных языках программирования. Например, так можно собрать веб-страницу — нужно просто описать словами, что вы хотите получить, например: «Большая надпись „Добро пожаловать в мою рассылку“ и синяя кнопка с надписью „подписаться“».

Такое же можно провернуть с кодом на SwiftUI, позволяющим собирать приложения для айфонов и айпадов. Здесь GPT-3 получила один пример программы на SwiftUI, после чего смогла без ошибок написать свое приложение.

Пример 7. Интерфейс командной строки, который понимает текст, написанный простым языком, — и превращает его в стандартные Unix-команды с нужными параметрами. Вы пишете «сколько свободного места осталось на жестком диске», а GPT-3 подбирает терминальную команду, которая позволяет это вычислить. Или вы пишете: «Сколько файлов с Python-кодом в текущей папке?» — а затем уточняете: «Сколько строк кода в них?» И GPT-3 генерирует команды, позволяющие получить оба этих ответа.

Пример 8. Функция для экселя, которая сама все понимает. Например, вы создаете табличку со столбцами «город» и «население», вписываете город — а количество жителей подставит GPT-3.

Примеры 9, 10, 11, 12 и 13. Создание презентаций по их текстовому описанию, генерирование резюме, прохождение сложных медицинских тестов с обоснованием ответа, «общение» с известными людьми на заданную тему («Стивен Хокинг объясняет, что происходит в черной дыре за горизонтом событий») и создание тестов на заданную тему с проверкой введенных ответов.

Пример 14. Разговор о боге.

Как это все работает?

Примеры выше появились благодаря двум компонентам. Первый — GPT-3, языковая модель, обученная почти на триллионе слов, собранных по всему интернету: в Википедии, новостях, обучающих курсах по C++ и оцифрованных книгах. Как отмечает аналитик данных BuzzFeed Макс Вульф, GPT-3 обучалась в октябре 2019 года, поэтому она не знает о ситуации с COVID-19 в мире.

Говоря общо, языковая модель — это система, предсказывающая существование того или иного предложения (как набора слов). The Next Web приводит такой пример: языковая модель, скорее всего, скажет, что у предложения «я выгулял собаку» больше вероятность существования, чем у «я выгулял банан». Чтобы обучить языковую модель, исследователи убирают из обучающего текста случайные слова и заставляют ее «учиться» заполнять пробелы.

Больше подробностей про нейросети

GPT-3 получилась огромной: в ней 175 миллиардов параметров, то есть переменных, которые нейросеть оптимизирует в процессе обучения. У ее предшественника, GPT-2, было 1,5 миллиарда параметров, а в случае с языковыми моделями размер имеет значение, отмечает MIT Technology Review. Огромный набор данных и количество параметров заставляют GPT-3 выглядеть «умной» и «человекоподобной».

Как объяснил «Медузе» руководитель лаборатории машинного обучения «Яндекса» Александр Крайнов, то, что одна и та же модель может и писать код, и писать стихи, и выдумывать сценарии, — неудивительно. «И код, и сценарии писались людьми, которые до этого „воспитывались“ на обычных текстах. А значит и в них в некой мере есть те же закономерности, те же принципы», — рассказал он.

Второй компонент, используемый в примерах из этого текста, — это The API. Само по себе API — это термин, обозначающий любой программный интерфейс. Свой API есть у твиттера, фейсбука и «Медузы», они позволяют программам (будь то официальное iOS-приложение или чат-бот) загружать чужие посты или новости и публиковать свои твиты.

Но OpenAI назвала свой продукт The API, пытаясь подчеркнуть его особое положение, показать, что это API с самой большой буквы A. Работа с ним проста: пользователь вводит какой-то текст, а система с помощью GPT-3 пишет продолжение. При желании систему можно обучить, показав ей несколько примеров «текст — продолжение». И в этом замечательность огромной языковой модели: ее не нужно прицельно учить определенной задаче, вроде перевода с русского языка на английский или написания кода. Достаточно пары примеров, и она уже начинает делать похожие вещи — например, создавать тексты программ.

Что об этом говорят?

Джон Кармак, разработчик самой первой Doom и консультирующий технический директор Oculus, в последние годы занятый разработкой искусственного интеллекта: «Я раньше говорил, что исследователи искусственного интеллекта почему-то игнорируют автоматизацию программирования, и я подозревал, что это подсознательное стремление к самосохранению. Недавнее, почти случайное открытие, что GPT-3 может в каком-то смысле писать код, вызывает легкую дрожь».

Делин Аспарухов, инвестиционный директор в Founders Fund: «Моя любимая аналогия, объясняющая GPT-3, звучит так: iPhone уместил знания всего мира в ваш карман, а GPT-3 дает доступ к 10 тысячам кандидатов наук, готовых пообщаться с вами на заданную тему. 30 лет назад Стив Джобс описал компьютеры как „велосипеды для ума“. Я б сказал, что даже в нынешнем состоянии GPT-3 — это „гоночный автомобиль для ума“».

Андерс Сэндберг, старший научный сотрудник в Оксфордском университете: «Для меня главная история с GPT-3 не в том, что [эта система] умна — она не умнее груды камней, — а в том, что груда камней может делать многие вещи, для которых, как нам казалось, нужно быть умным. Фальшивый интеллект может во многих ситуациях превосходить настоящий интеллект».

Джулиан Тогелиус, директор Лаборатории инноваций в сфере игр в Политехническом институте Нью-Йоркского университета: «GPT-3 часто пишет как умный студент, который не подготовился дома и пытается как-то отболтаться на экзамене. Немного широко известных фактов, немного полуправды и немного откровенной лжи, собранных в то, что на первый взгляд выглядит как ровный рассказ».

Cэм Альтман, гендиректор OpenAI: «Внимание к GPT-3 слишком раздуто. Она впечатляет (спасибо за комплименты!), но у нее остаются серьезные недостатки, и иногда она совершает очень глупые ошибки. ИИ изменит мир, но GPT-3 — это первое приближение. Нам еще многое предстоит выяснить».

В чем проблема?

Примеры, которые мы видим в твиттере и блогах, — это лучшее, на что способны GPT-3 и The API: люди скорее будут публиковать успешные ответы системы, оставляя за скобками бессмыслицу, которую она тоже выдает. Аррам Сабети, автор (или «автор») стихов про Илона Маска, написанных от лица доктора Сьюза, рассказывает в своем блоге, что на создание пяти стихотворений у него ушло несколько часов проб и ошибок: GPT-3 не очень хорошо рифмует строки, так что приходилось многократно формулировать и вводить запросы, чтобы получить удовлетворительные результаты.

Другая проблема более фундаментальная: хоть GPT-3 часто отвечает на запросы так, словно она «понимает» смысл сказанного, на деле никакой смысл не анализируется — система, как уже было сказано, просто пытается предсказать наиболее вероятное продолжение текста. «У нее нет никакой внутренней модели нашего мира, или какого-либо мира, поэтому она не может рассуждать, поскольку для этого понадобилась бы такая модель», — сказала Wired профессор Института Санта-Фе и автор книги об искусственном интеллекте Мелани Митчелл.

Во время своих экспериментов она просила GPT-3 восстановить набор букв по аналогии: «Если a x x d превращается в a b c d, то во что превращается p x r s?» (правильный ответ — p q r s). С некоторыми из таких задач (включая ту, что приведена выше) система справлялась, но с другими аналогичными — например, с рядами a x c x e и x q r s t, — уже нет.

О том, что система не понимает смысла текста, рассказал «Медузе» и Александр Крайнов из «Яндекса»: «Система продолжает текст исходя из общих закономерностей того, как обычно продолжается текст. Есть такая детская шутка, когда предлагают быстро и не думая отвечать на простые вопросы, и спрашивают „Что пьет корова?“. Обычно отвечают „молоко“. Такие ответы на большой скорости и не думая очень похожи на работу нейросети».

Еще одна проблема характерна для нейросетей, обучающихся на информации, доступной в интернете: они начинают повторять общепринятые стереотипы и иногда звучат крайне неэтично. Один из самых ярких примеров произошел в 2016 году: нейросеть от Microsoft во время общения с пользователями твиттера быстро перешла к высказываниям в духе «Гитлер был прав, я ненавижу евреев».

GPT-3 порой ведет себя похожим образом. Когда модель попросили дописать текст, начинавшийся всего с одного слова «евреи», получилось «евреи большую часть времени любят деньги». В OpenAI говорят, что работают над системой, которая будет отфильтровывать такие результаты; уже сейчас в ответ на некоторые запросы можно увидеть предупреждение: «Наша система установила, что сгенерированный контент небезопасен, так как может содержать явно политический или оскорбительный текст. Эта система экспериментальная и может ошибаться».

Наконец, еще одна важная проблема — что GPT-3 часто генерирует настолько связный текст, что в нем трудно увидеть неправду (если она есть). Когда журналист Wired попросил систему написать его некролог, основываясь на примерах из газеты, GPT-3 хорошо повторила формат, но смешала реальные факты, вроде прошлых мест работы героя, с выдумкой — именами членов его семьи и причиной смерти. «На удивление было трогательно читать, как он умер, когда ему (будет) 47 лет, и что он оставил впечатление „приятного, трудолюбивого и уважаемого в своей сфере“ человека», — пишет автор материала.

Разработчик Парас Чопра, создавший поисковик на базе GPT-3 (первый пример в этом материале), объясняет: «Один из самых больших рисков GPT-3 в том, что он так хорошо работает в большинстве случаев. В крайних случаях, когда он выдает чепуху, люди все равно ему поверят. Например, я не знаю, кто изобрел стеклянные бутылки, но GPT-3 говорит, что египтяне. Так что, видимо, да ¯\_(ツ)_/¯».

Что дальше?

Сейчас разработчики должны оставлять заявку на сайте OpenAI, чтобы получить доступ к The API. Сама система — для тех, кто получил приглашение, — пока бесплатна, но в будущем компания планирует запустить ее коммерческую версию. Сколько она будет стоить, неизвестно.

Султан Сулейманов