Home Технологиялар VR мен AR Tencent бір суреттен үшөлшемді әлем құратын жасанды интеллект ұсынды

Tencent бір суреттен үшөлшемді әлем құратын жасанды интеллект ұсынды

19

Қытайдың технологиялық алпауыттарының бірі – Tencent жаңа буын генеративті жасанды интеллект жүйесін таныстырды. Ашық кодпен ұсынылған HunyuanWorld-Voyager моделі бір ғана суреттен толыққанды үш өлшемді виртуалды кеңістік қалыптастыра алады.

Жаңа алгоритм толыққанды үшөлшемді модель құрмаса да, камера қозғалысын шынайы жеткізіп, көріністі кеңістікте еркін зерттеуге жол ашады. Сарапшылар мұны саладағы елеулі қадам деп бағалап отыр. Өйткені бұған дейінгі технологиялар көбіне тек бір-біріне жалғасқан кадрлар тізбегін жасаумен ғана шектелетін.

HunyuanWorld-Voyager нейрожелісі бір уақытта әрі түсті бейнені, әрі тереңдік картасын (RGB-D) жасайды. Осы деректер негізінде нүктелік бұлт қалыптасып, қайтадан екі өлшемді бейнеге проекцияланады. Мұндай тәсіл кадрлар арасында геометриялық үйлесімді сақтап, камера қозғалған сәтте де перспективаны дұрыс жеткізуге мүмкіндік береді. Дәл осы қасиеті оны OpenAI әзірлеген Sora жүйесінен ерекшелейді.

Қазір жүйе екі секундтық бейнелер (шамамен 49 кадр) ғана жасай алады. Дегенмен қысқа үзінділерді біріктіріп, ұзақ роликтер құрастыруға мүмкіндік бар.

Tencent зерттеушілерінің айтуынша, модельді үйрету үшін 100 мыңнан астам бейне қолданысқа алынған, оның ішінде Unreal Engine негізіндегі көріністер де бар. Соған қарамастан, ұзақ уақыттық камера қозғалысында қателер жиналып, сахнадағы үйлесім бұзылады.

Жүйенің тағы бір артықшылығы — пайдаланушы камера бағытын өзі қалауынша таңдайды. Камераны алға не артқа жылжытып, жан-жаққа бұрып немесе бұрылыспен қозғалтуға мүмкіндік бар. Нәтижесінде дайын бейне мен тереңдік картасы жасалып, оларды кейін нүктелік бұлттарды қалпына келтіру мен 3D-модельдеу барысында қолдануға болады.

Алайда мұндай мүмкіндіктер үшін қуатты құрылғылар қажет. 540p сапада бейне құрастыруға кемінде 60 Гб бейнежад талап етілсе, жоғары сападағы көріністер үшін 80 Гб-қа дейін қажет болады.