Вчера Сэм Альтман, генеральный директор OpenAI, объявил о запуске Sora — нового генератора видео на искусственном интеллекте компании. Подобно DALL-E и ChatGPT, Sora способен принимать естественноязыковые команды от пользователя, понимать запрос и воспроизводить его в соответствии с рекламой. Но в отличие от генерации текстовых ответов или изображений, Sora создает целое реалистичное видео, превосходящее все программы искусственного интеллекта, которые я когда-либо видел. Я не говорю это как комплимент.
Первое впечатление от Соры: Ужас
Открытый ИИ имеет ряд различных видео на странице анонса Соры, демонстрирующих его возможности, и они впечатляющие — в худшем смысле. Сора может создавать анимированный контент, такой как «короткий пушистый монстр, стоящий рядом с таящей красной свечой» или «мультяшный кенгуру танцует диско». Хотя конечный результат не сравнится с качеством, скажем, Пиксара или Дримворкса, они выглядят профессионально (и некоторые определенно выглядят лучше, чем другие). Я сомневаюсь, что многие смогли бы с первого взгляда догадаться, что люди не были вовлечены в процесс.
Но, несмотря на потенциал анимации, настораживающим является реалистичность видео, которые просто ужасают. OpenAI продемонстрировала «видео с дроном» исторической церкви на Амальфийском побережье, парад людей, празднующих китайский Лунный Новый год, и кадр, снятый на снежной улице в Токио, и я обещаю вам, что вы бы подумали, что эти видео настоящие при первом просмотре. Я имею в виду, некоторые из них до сих пор не кажутся мне созданными искусственным интеллектом, хотя я знаю, что они такие.
Даже те, у которых есть недостатки искусственного интеллекта, такие как искажение и смещение активов, могут быть приняты за видеокомпрессию. Есть видео щенков, играющих в снегу, и хотя после того, как вы узнаете, что это не реальность, вы заметите некоторые недочеты, физика и качество изображения продает иллюзию. Как это возможно, что ни один из этих щенков не настоящий? Они так явно любят снег. Боже, мы уже живем в Матрице?
Как работает Sora?
Пока у нас нет всех подробностей, OpenAI описывает основные процессы Соры в своем техническом отчете. Во-первых, Сора является диффузионной моделью. Как генераторы изображений искусственного интеллекта, Сора создает видео, начиная с, по сути, набора статического шума, и удаляет этот шум до тех пор, пока оно не похоже на изображение, которое вы ищете.
Сора обучается на единицах данных, называемых патчами: Эти патчи создаются путем сжатия изображений и видео в «низкоразмерное латентное пространство», а затем разбиваются на «патчи пространства-времени», которые являются единицами, которые модель действительно понимает. Эти патчи содержат информацию о пространстве и времени для данного видео. Затем Сора генерирует видео в этом «латентном» пространстве, а декодер отображает это обратно в «пиксельное» пространство, создавая конечный результат.
Компания не подтверждает, откуда берутся эти видео и фото данные. (Интересно.) Они говорят, что Сора основана на исследованиях ее моделей DALL-E и GPT, используя ту же технику переопределения подписей из DALL-E 3 для обучения модели на описательных запросах пользователей.
Что еще может делать Сора?
В то время как он, очевидно, может создавать видео из стандартных подсказок, OpenAI говорит, что Сора может генерировать видео из статичных изображений. Исследователи Apple работают над тем же типом процесса с помощью своей программы Keyframer.
Это также может расширить существующее видео вперед или назад во времени. OpenAI показал пример этого, используя видео трамвая в Сан-Франциско. Оно добавило около 15 секунд дополнительного видео в начало тремя разными способами. Таким образом, все три выглядят по-разному вначале, но все синхронизируются в конце в один и тот же оригинальный видеоклип. Они могут использовать эту технику, чтобы создавать «идеальные петли».
Открытый ИИ считает, что Сора идеально подходит для симуляции миров. (Круто!) Он может создавать видео с постоянными 3D элементами, таким образом, люди и объекты остаются на своих местах и взаимодействуют так, как должны. Сора не теряет след людей и объектов, когда они покидают кадр; он может запомнить, что делают люди и объекты, оставляющие след в «мире», например, когда кто-то рисует на холсте. Он также может, эмм, генерировать Minecraft на лету, симулируя игрока и одновременно создавая мир вокруг него.
Сора не совершенна.
В их защиту, OpenAI отмечает текущие слабости и ограничения Соры. По словам компании, модель может испытывать трудности в воспроизведении точной физики в «сложной сцене», а также в некоторых ситуациях причинно-следственных связей. OpenAI приводит пример видео, на котором человек ест печенье, но когда вы видите печенье после этого, на нем нет отметины от укуса. Кроме того, проблемой также является воспроизведение разбивающегося стекла.
Компания также утверждает, что Сора может запутать «пространственные детали» в вашем запросе (например, перепутать лево и право) и, возможно, не сможет правильно отображать события, происходящие во времени.
Вы можете увидеть некоторые из этих ограничений в видеороликах, которые OpenAI показывает в качестве доказательства того, что Сора делает «ошибки». Для задания, запрашивающего у Соры создать бегущего человека, Сора создает мужчину, бегущего в неправильном направлении на беговой дорожке; когда задание просит показать археологов, обнаруживающих пластиковый стул в пустыне, «археологи» вытаскивают лист из песка, и стул, по сути, появляется из ниоткуда. (Это особенно странно смотреть).
Будущее еще не наступило, но оно очень скоро придет.
Если вы прокрутите сайт-введение Соры, у вас может возникнуть мини-панический приступ. Но за исключением видеороликов, которые OpenAI выделяет как ошибки, это лучшие видео, которые Сора может произвести прямо сейчас, отобранные для демонстрации ее возможностей.
Сэм Альтман вышел на Твиттер после объявления и попросил пользователей присылать ему ответы, чтобы пропустить их через Сору. Он опубликовал результаты для около восьми вариантов, и я сомневаюсь, что хоть один из них попал бы на страницу объявления. Первая попытка «Полуутка-полудракона пролетает через красивый закат с хомяком, одетым в приключенческую экипировку на его спине» была смешно плохой, выглядящей как что-то из первого черновика мультфильма прямо на DVD из 2000-х годов.
Твит мог быть удален.
Конечный результат для «два золотых ретривера, подкастящих на вершине горы», с другой стороны, был ошеломляющим: кажется, что кто-то взял стоковые кадры всех активов и быстро смонтировал их друг на друга. Это выглядит не «реальным», а скорее фотошопом, что снова поднимает вопрос о том, на что именно обучен Сора:
Твит мог быть удален.
Эти быстрые демонстрации на самом деле заставили меня почувствовать себя немного лучше, но только немного. Я не думаю, что Sora находится на том уровне, чтобы создавать реалистичные видео, незаметные от реальности на ходу. Скорее всего, OpenAI прошла через тысячи и тысячи результатов, прежде чем остановиться на основных моментах, которые мы видим в их объявлении.
Но это не значит, что Сора не пугающая. Для того, чтобы улучшиться, ей не потребуется много исследований или времени. Я имею в виду, что это то, где технология создания видео с помощью искусственного интеллекта была 10 месяцев назад. Интересно, что бы Сора выдала, если бы ей дали ту же задачу:
ОткрытыйИИ настаивает на том, что он принимает все необходимые меры предосторожности: в настоящее время он сотрудничает с командой «красных командиров» для исследования снижения вреда и хочет добавить водяной знак к контенту, созданному Сорой, подобно другим программам искусственного интеллекта, так что вы всегда сможете определить, когда что-то было создано с использованием технологии OpenAI.
Но я имею в виду, давайте будем честны: Некоторые из этих видео слишком хороши. Мы преодолеваем вещи, которые могут обмануть на первый взгляд, но в итоге выглядят поддельными. Теперь, некоторые из этих видео трудно поверить, что они не настоящие. Если этот материал может впечатлить нас, кто постоянно смотрит контент ИИ, то как обычному пользователю социальных сетей узнать, что реалистичное видео на их ленте Facebook было создано роботами?
Не будем слишком углубляться в темную сторону, но в этом году более 50 стран проведут выборы с высокими ставками, и в Соединенных Штатах уже был использован искусственный интеллект, чтобы попытаться обмануть избирателей — и это было только с помощью аудио. В этом году вам действительно придется повысить свои детекторы лжи до максимума, потому что я предполагаю, что мы увидим некоторые из самых убедительных мультимедийных мошеннических схем и кампаний дезинформации.
Лучше надейтесь, что эти водяные знаки действительно работают, люди. Это будет дикая поездка.