新华社北京4月27日电(记者魏梦佳)只需一段文字指令就能生成一段逼真视频,今年初,文生视频大模型Sora在全球人工智能业内外引发广泛关注。27日,2024中关村论坛年会上首次发布我国自研的具“长时长、高一致性、高动态性”特点的文生视频大模型Vidu。
记者从会上获悉,这一视频大模型由清华大学联合北京生数科技有限公司共同研发,可根据文本描述直接生成长达16秒、分辨率高达1080P的高清视频内容,不仅能模拟真实物理世界,还拥有丰富想象力。
清华大学人工智能研究院副院长、生数科技首席科学家朱军说,当前国内视频大模型的生成视频时长大多为4秒左右,Vidu则可实现一次性生成16秒的视频时长。同时,视频画面能保持连贯流畅,随着镜头移动,人物和场景在时间、空间中能保持高一致性。
在动态性方面,Vidu能生成复杂的动态镜头,不再局限于简单的推、拉、移等固定镜头,而是能在一段画面里实现远景、近景、中景、特写等不同镜头的切换,包括能直接生成长镜头、追焦、转场等效果。
“Vidu能模拟真实物理世界,生成细节复杂且符合物理规律的场景,例如合理的光影效果、细腻的人物表情等,还能创造出具有深度和复杂性的超现实主义内容。”朱军介绍,由于采用“一步到位”的生成方式,视频片段从头到尾连续生成,没有明显的插帧现象。
此外,Vidu还可生成如熊猫、龙等形象。
据悉,Vidu的技术突破源于团队在机器学习和多模态大模型方面的长期积累,其核心技术架构由团队早在2022年就提出并持续开展自主研发。“作为一款通用视觉模型,我们相信,Vidu未来能支持生成更加多样化、更长时长的视频内容,探索不同的生成任务,其灵活架构也将兼容更广泛的模态,进一步拓展多模态通用能力的边界。”朱军说。
中国新闻网2024-05-13 09:43:28
中国新闻网2024-05-13 09:42:54
中国新闻网2024-05-13 09:42:10
人民日报2024-05-13 09:40:05
人民日报2024-05-13 09:39:27
人民日报2024-05-13 09:38:01
人民日报2024-05-13 09:36:41
总台环球资讯广播2024-05-13 09:35:33
人民网2024-05-13 09:33:56
央视网2024-05-13 09:33:12
健康中国2024-05-13 09:32:03
央视新闻2024-05-13 09:31:14
央视新闻2024-05-13 09:30:38
新京报评论2024-05-13 09:29:47
人民日报2024-05-13 09:28:56
人民日报2024-05-13 09:28:05
央视新闻2024-05-13 09:26:16
央视网2024-05-13 09:25:20
新华全媒+丨创新塑“核”产业筑“基”绿色为“本”——加快形成新质生产力的四川实践
新华社2024-05-13 09:24:25
央视新闻2024-05-13 09:23:43
数据释放暖意、新动能源源不断 我国经济社会高质量发展稳步推进
央视网2024-05-13 09:21:36
中国新闻网2024-05-12 21:01:05
美消费者信心指数创六个月新低:民众担忧通胀及失业率 努力缩减开支
海外网2024-05-12 21:00:04
中国新闻网2024-05-12 20:59:37
央视网2024-05-12 20:58:56
打造百姓身边的“绿水青山”:人与自然和谐共处 激发周边消费活力
央视网2024-05-12 20:58:26
人民网2024-05-12 20:58:02
新华社2024-05-12 20:57:12
央视新闻2024-05-12 20:56:12
新华社2024-05-12 20:55:46