新经济视界｜兵马俑唱rap、高启强普法国产图生视频AI模型让照片开口说话

行业资讯

新经济视界｜兵马俑唱rap、高启强普法国产图生视频AI模型让照片开口说话｜封面天天见

　　把一段音频、一张照片输入AI模型，就能让图中人物开口唱歌说话……继Sora之后，一款能让照片开口说话的国产图生视频AI模型在社交媒体上走红。近日，记者获悉，该AI模型已正式上线封面，并开放给所有用户免费使用。

　　据介绍，这款AI模型名为EMO（Emote Portrait Alive），由通义实验室研发。在该AI模型上，用户仅需一张人物肖像照片和音频，就可以让照片中的人物按照音频内容“张嘴”唱歌、说话，且口型基本一致，面部表情和头部姿态非常自然。

　　比如，让奥黛丽赫本唱《上春山》，爱因斯坦说中文段子，《狂飙》电视剧中“高启强”畅谈罗翔普法；甚至用兵马俑士兵图片配上音频，就能“唱出”一首rapper饶舌，连口型都几乎一模一样。据悉，这款AI模型目前已在通义APP上线。

新经济视界｜兵马俑唱rap、高启强普法国产图生视频AI模型让照片开口说话｜封面天天见

　　记者随即进入该大模型页面看到，用户能在歌曲、热梗、表情包中任选一款模板，上传肖像照片，AI随即就能合成视频。目前，该模型首批上线多个模板，包括热门歌曲《上春山》《野狼disco》等，网络热梗“钵钵鸡”“回手掏”等。

　　这款图生视频AI模型高度真实感和表现力背后的技术原理是什么？该实验室研发团队透露，该模型所运用的肖像说话（Talking Head）技术是当前大热的AIGC领域。在此之前，肖像说话技术需针对人脸、人头或者身体部分做3D建模，国内研发团队则率先提出了弱控制设计，无需建模就可驱动肖像开口说话，不仅降低视频生成成本，还大幅提升了视频生成质量。

上一篇: 九游娱乐官网：封面快讯IDC发布2024年第一季度数据：OPPO稳居国内手机市场前三

下一篇: “超龄”家电危害大以旧换新正当时｜封面天天见

[返回列表]