谷歌推出多模态VLOGGER AI:让静态肖像图动起来“说话”
谷歌近日在 GitHub 页面发布博文,介绍了 VLOGGER AI 模型,用户只需要输入一张肖像照片和一段音频内容,该模型可以让这些人物“动起来”,富有面部表情地朗读音频内容。
VLOGGER AI 是一种适用于虚拟肖像的多模态 Diffusion 模型,使用 MENTOR 数据库进行训练,该数据库中包含超过 80 万名人物肖像,以及累计超过 2200 小时的影片,从而让 VLOGGER 生成不同种族、不同年龄、不同穿着、不同姿势的肖像影片。
研究人员表示:“和此前的多模态相比,VLOGGER 的优势在于不需要对每个人进行训练,不依赖于人脸检测和裁剪,可以生成完整的图像(而不仅仅是人脸或嘴唇),并且考虑了广泛的场景(例如可见躯干或不同的主体身份),这些对于正确合成交流的人类至关重要”。
Google 将 VLOGGER 视为迈向“通用聊天机器人”的一步,之后 AI 就可以通过语音、手势和眼神交流以自然的方式与人类互动。
VLOGGER 的应用场景还包括可以用于报告、教育场域和旁白等,也可剪辑既有的影片,如果对影片中的表情不满意就能加以调整。
相关推荐
-
微软为解决 Bing Chat 响应速度问题正在开发新的 AI 芯片
【Aigcmore.com】5月9日消息,微软旗下的聊天机器人 Bing Chat近期免除了加入等待列表的限制,让更多用户能够自由体验这一服务。然而,这也导致了机器人响应速度变慢的…
2023年 5月 10日 -
机器狗Spot与人工智能模型ChatGPT结合,实现语音交互
【Aigcmore.com】4月27日消息,近日一位工程师将OpenAI开发的生成式人工智能模型ChatGPT和波士顿动力公司的机器狗Spot结合起来,让机器狗具备了语音交互的能力…
2023年 4月 28日 -
前苹果员工称Siri代码设计过时 难与人工智能聊天机器人相比
【Aigcmore.com】3月16日消息,人工智能的迅猛发展正在让传统语音助手技术感到越来越吃力。近日,一位前苹果员工在接受采访时表示,苹果语音助手Siri的代码设计过时且复杂,…
2023年 4月 22日 -
FF为汽车提供生成式AI产品组 集成ChatGPT、GPT-4等模型
站长之家(ChinaZ.com)5月4日 消息:近日,贾跃亭旗下FF(Faraday Future)宣布将为汽车提供生成式人工智能产品组,集成到旗舰车型FF91中。为此,FF将是首…
2023年 5月 4日 -
史上超大图灵测试实验完成!150万人类参与1000万次对话,判断对面是人还是AI
历上规模最大的图灵测试,已经初步有结果了! 今年4月中旬,AI 21实验室推出了一个好玩的社交图灵游戏——「人类还是机器人?」。 游戏一推出,广大网友就玩疯了。 现在,全球已经有1…
2023年 6月 30日 -
谷歌Bard加入AI编程功能 向微软GitHub Copilot和亚马逊CodeWhisperer看齐
谷歌在其生成式AI产品中增加了代码生成和调试功能,并命名为Bard AI,宣称其能够帮助开发人员采用20种编程语言编写和调试代码。这意味着,谷歌这一产品将与微软的GitHub Co…
2023年 5月 9日 -
使用TensorFlow和Keras创建猫狗图片深度学习分类器
在本文中,我们将使用TensorFlow和Keras创建一个图像分类器,可以区分猫和狗的图像。为了做到这一点,我们将使用TensorFlow数据集中的cats_vs_dogs数据集…
2023年 5月 17日 -
TikTok发言人声称蒙大拿州禁令违法 言论自由权受侵犯
【Aigcmore.com】5月19日消息,美国蒙大拿州州长GregGianforte签署了一项法令,决定自2024年1月1日起在该州全面禁止使用TikTok,并禁止谷歌和苹果的应…
2023年 5月 20日 -
博爵五合一CBCT加持AI后处理软件,操作究竟有多逆天?
去伪存真,五像合一。 博爵Bondream 3D-1030Pro,全新上市! 作为国产口腔CBCT的明星产品之一,博爵CBCT此次家族焕新,带来更智能、更灵活、更便捷的博爵五合一全…
2023年 6月 8日 -
颜宁新论文突然上线Nature子刊:结构是AI无能为力的
本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。 结构生物学家颜宁,新论文突然上线了Nature子刊。 而且颜宁本人在得知此事之后也是有些意外: 立马把…
2023年 6月 30日