谷歌推出多模态VLOGGER AI:让静态肖像图动起来“说话”
谷歌近日在 GitHub 页面发布博文,介绍了 VLOGGER AI 模型,用户只需要输入一张肖像照片和一段音频内容,该模型可以让这些人物“动起来”,富有面部表情地朗读音频内容。
VLOGGER AI 是一种适用于虚拟肖像的多模态 Diffusion 模型,使用 MENTOR 数据库进行训练,该数据库中包含超过 80 万名人物肖像,以及累计超过 2200 小时的影片,从而让 VLOGGER 生成不同种族、不同年龄、不同穿着、不同姿势的肖像影片。
研究人员表示:“和此前的多模态相比,VLOGGER 的优势在于不需要对每个人进行训练,不依赖于人脸检测和裁剪,可以生成完整的图像(而不仅仅是人脸或嘴唇),并且考虑了广泛的场景(例如可见躯干或不同的主体身份),这些对于正确合成交流的人类至关重要”。
Google 将 VLOGGER 视为迈向“通用聊天机器人”的一步,之后 AI 就可以通过语音、手势和眼神交流以自然的方式与人类互动。
VLOGGER 的应用场景还包括可以用于报告、教育场域和旁白等,也可剪辑既有的影片,如果对影片中的表情不满意就能加以调整。
相关推荐
-
谷歌发布全球最先进语言模型PaLM 2 支持100多种语言
【Aigcmore.com】5月11日消息,谷歌在其I/O大会上发布了最新的人工智能(AI)语言模型PaLM2,该模型将与OpenAI的GPT-4等展开竞争。据谷歌DeepMind…
2023年 5月 11日 -
北京昇腾人工智能计算中心正式点亮:一期算力规模达 100P
2 月 14 日消息,北京人工智能产业创新发展大会昨日举行。会上,北京昇腾人工智能计算中心正式点亮。并与首批 47家企业和科研单位签约。 华为表示,北京昇腾人工智能计算中心采用昇腾…
2023年 4月 21日 -
必应聊天开放测试后添加 GPU 速度赶不上使用量,聊天记录功能“几天内”上线
5 月 9 日消息,微软广告和网络服务负责人米哈伊尔・帕拉欣(Mikhail Parakhin)近日回复网友,针对必应聊天(Bing Chat)响应等待时间过长致歉,并表示 GPU…
2023年 5月 11日 -
为什么自动化是扩展业务和提高生产力的关键?
在当今快节奏的世界中,企业需要适应并采用创新解决方案,以保持竞争优势。自动化已成为最终的游戏规则改变者,为扩展业务和飞速发展的生产力提供了大量好处。从简化流程到最大限度地减少人为错…
2023年 5月 31日 -
特斯拉V4超级充电桩在英国亮相,功率提升至350kW!
【Aigcmore.com】7月26日消息,特斯拉计划在英国推出全新的V4超级充电桩,为电动车主带来更便捷高效的充电体验。根据特斯拉在英国提交的斯温顿超充站规划文件,V4超充桩将配…
2023年 7月 27日 -
人工智能竞赛白热化,谷歌发布高效PaLM2大语言模型
【Aigcmore.com】5月17日消息,谷歌在其最新的I/O开发者大会上发布了一款名为PaLM2的通用大语言模型。据报道,该模型的训练数据几乎是其上一代模型的5倍,达到了3.6…
2023年 5月 17日 -
2023年五大技术趋势
技术进步有可能以惊人的速度颠覆商业模式。因此,企业领导者不可避免地要跟上不断变化的技术环境。企业面临着采用新技术来改进其业务流程的持续压力。本文旨在阐明一些可能在未来几年影响业务的…
2023年 7月 14日 -
医联推出国内首款AI医生medGPT,计划 5 月正式发布
医联官方微信公众号今日更新文章,宣布正式发布国内首款大模型驱动的 AI 医生 ——medGPT。 此外,官方表示这一产品已经进入内部测试阶段,并计划于今年 …
2023年 4月 29日 -
完美世界成立AI中心,游戏研发效率或将大幅提升!
【Aigcmore.com】4月21日消息,完美世界宣布成立AI中心,旨在加强游戏研发、发行及运营等方面的应用。据悉,该中心由游戏业务CEO负责,中台技术部门牵头,各项目制作人深度…
2023年 4月 29日 -
英国首相呼吁采取行动,确保科技中心地位
【Aigcmore.com】6月12日消息,英国首相里希-苏纳克(RishiSunak)在伦敦科技周的开幕式上发表讲话,敦促英国尽快采取行动以保持其科技中心地位,并呼吁科技领袖们抓…
2023年 6月 12日