Genesis — новая визуальная нейросеть, которая умеет генерировать реалистичные видео, исходя только из текстового описания. Например, если написать ей «резиновый мячик ударяется о стену», то на сгенерированном видео эти два объекта будут взаимодействовать так же, как в реальном мире.
В разработке нейросети принимали участие исследователи из Стэнфорда, Массачусетского технологического института (MIT), а также университетов Гонконга и Пекина. Сейчас Genesis доступна только для разработчиков, но в скором времени её смогут использовать все желающие.
Как устроена нейросеть
Genesis состоит из двух компонентов: физического движка и генеративного фреймворка. Движок моделирует действие физических законов в виртуальной реальности так, как они бы работали в настоящем мире.
Второй компонент, генеративный фреймворк, отвечает за преобразование промтов. Благодаря ему нейросеть переводит запросы пользователей, написанные на естественном языке, в данные разных модальностей: движение камеры, мимику и моторику персонажей или аудиодорожку с их речью.
Генеративный элемент пока находится в разработке. Сейчас доступ можно получить к документации и исходному коду физического движка — он написан на Python.
Почему это стало возможным
Последний тренд в развитии нейросетей — это мультимодальность, то есть обучение моделей обработке разных видов данных. В результате появляются визуальные языковые модели (VLM), которые умеют работать с текстом, картинками и даже звуком одновременно — об этом Журналу рассказывал специалист по распознаванию рукописного текста Женя Карташев.
Этой технологией и оснащён физический движок в составе Genesis. С её помощью стало возможным создание реалистичных анимаций только на основе текстовых описаний. Более того, как заявляют разработчики, VLM-агент будет использовать API платформы для создания полноценных 4D-миров и сред.
Для чего используется сейчас
Изначальная цель нейросети — обучение и исследование роботов. В этой области часто используются графические платформы-симуляторы, с помощью которых для роботов создаются видеоинструкции с имитацией реальной среды. Но многие из таких платформ, по мнению создателей Genesis, чересчур сложны в освоении, в особенности для новичков.



