Китайская Tencent сделала новый шаг в гонке за лидерство в области генеративных технологий: компания открыла исходный код модели HunyuanWorld-Voyager, которая способна превращать одно изображение в целые виртуальные «трёхмерные миры».
Алгоритм не строит полноценные 3D-модели, но имитирует движение камеры так, что сцена выглядит пространственно согласованной и доступной для «исследования». Tencent позиционирует технологию как прорыв в области ИИ-видеогенерации, где до сих пор доминировали решения, создающие лишь последовательность кадров без глубинной структуры.
В основе HunyuanWorld-Voyager — гибридный подход: нейросеть одновременно генерирует цветное изображение и карту глубины (RGB-D), после чего данные преобразуются в точечное облако, которое проецируется обратно в 2D-плоскость. Такой цикл позволяет поддерживать геометрическую согласованность между кадрами. В отличие от других алгоритмов, например Sora от OpenAI, продукт Tencent отслеживает пространственные взаимосвязи объектов, благодаря чему при виртуальном перемещении камеры сохраняется корректная перспектива. На практике генерация ограничивается двумя секундами видео (49 кадров), но эти короткие клипы можно соединять в более продолжительные последовательности.
«Мы обучили систему на массиве из более чем 100 тысяч видеороликов, включая сцены на движке Unreal Engine, чтобы добиться ощущения реального 3D-пространства», — поясняют исследователи Tencent. Однако даже такой объём данных не избавил модель от ограничений: при длительном повороте камеры ошибки накапливаются, и сцена теряет целостность.
Иными словами, HunyuanWorld-Voyager опирается не на истинное понимание трёхмерной геометрии, а на сложное сопоставление шаблонов, дополненное обратной проекцией.
Для управления виртуальными сценами предусмотрен интерфейс задания траектории камеры — вперёд, назад, в стороны или с поворотом. Пользователь получает готовое видео и карту глубины, которые можно использовать для реконструкции облаков точек и последующего 3D-моделирования. По словам Tencent, система состоит из двух взаимосвязанных блоков: генерации видео с глубиной и так называемого «глобального кэша» — библиотеки точечных моделей, созданных из ранее сгенерированных кадров. Кэш обеспечивает проверку согласованности новых изображений с уже построенными сценами.
Работа системы требует значительных ресурсов: для генерации сцен в разрешении 540p необходимо не менее 60 Гбайт видеопамяти, а для более качественной картинки — до 80 Гбайт.












