这个首创来自中国 AI 公司,能分钟级精准控制人物的视频大模型来了 | WAIC 2024

贰先生 2024-7-15 209

商汤科技又整大活了,只需一张照片就能生成一分钟视频。

7 月 4 日,由商汤科技打造的首个面向 C 端用户的可控人物视频生成大模型——Vimi 入选世界人工智能大会(WAIC)展览展示最高荣誉「镇馆之宝」,成为本届大会最具创新展品。

基于商汤日日新大模型,Vimi 仅通过一张任意风格的照片就能生成和目标动作一致的人物类视频,并支持多种驱动方式,可通过已有人物视频、动画、声音、文字等多种元素进行驱动。

随着大模型和生成式 AI 技术的迅猛发展,让静止的照片「活」起来已不再是难事。

然而,市面上现有产品在实际应用中仍存在诸多问题,如动作和表情控制不精准、效果稳定性差、视频时长受限等,这些限制了视频创作者的创作空间。

为了突破这些瓶颈,商汤科技推出了可控人物视频生成大模型——Vimi。

与图片表情控制类技术只能控制头部表情动作不同,Vimi 不但可以实现精准的人物表情控制,还可实现在半身区域内控制照片中人物的自然肢体变化,并自动生成与人物相符的头发、服饰及背景变化。

同时,Vimi 还能合理生成光影变化,使得人物动作和视觉效果流畅自然,画面和谐唯美。

更重要的是,Vimi 能够稳定生成长达 1 分钟的单镜头人物视频,画面效果不会随时间推移而劣化或失真,充分满足娱乐互动等场景对长时间稳定视频的需求。

 

日日新官方表示,Vimi 将完全面向 C 端用户开放使用,尤其能够满足广大女性用户的娱乐创作需求。

用户只需上传不同角度的高清人物图片,即可自动生成数字分身和不同风格的写真视频。

由 Vimi 生成的视频人物不再只是呆板的五官运动,而是搭配手势、肢体、头发等,形成更完整、统一的人物动作,让创作者可基于生成的视频素材进行剪辑和再创作。

对于喜爱自拍的用户,Vimi 支持聊天、唱歌、舞动等多种娱乐互动场景;对于热衷表情包的用户,Vimi 通过单张照片即可生成各种趣味的人物表情包,玩法多样,实现创作自由。

此外,Vimi 还提供唯美写真风、奇幻风等多种生成风格,让用户仿佛穿越不同次元,享受大片质感的沉浸式视觉效果。

目前,行业里 80% 的视频都是以人物为主要内容,同时伴随短视频、直播平台的爆发,以人物为主体的视频需求量成指数级增长。


最后于 2024-7-15 被贰先生编辑 ,原因:
0
最新回复 (0)
全部楼主
返回
发新帖
TAG