谷歌推出多模态VLOGGER AI:让静态肖像图动起来“说话”
谷歌近日在 GitHub 页面发布博文,介绍了 VLOGGER AI 模型,用户只需要输入一张肖像照片和一段音频内容,该模型可以让这些人物“动起来”,富有面部表情地朗读音频内容。
VLOGGER AI 是一种适用于虚拟肖像的多模态 Diffusion 模型,使用 MENTOR 数据库进行训练,该数据库中包含超过 80 万名人物肖像,以及累计超过 2200 小时的影片,从而让 VLOGGER 生成不同种族、不同年龄、不同穿着、不同姿势的肖像影片。
研究人员表示:“和此前的多模态相比,VLOGGER 的优势在于不需要对每个人进行训练,不依赖于人脸检测和裁剪,可以生成完整的图像(而不仅仅是人脸或嘴唇),并且考虑了广泛的场景(例如可见躯干或不同的主体身份),这些对于正确合成交流的人类至关重要”。
Google 将 VLOGGER 视为迈向“通用聊天机器人”的一步,之后 AI 就可以通过语音、手势和眼神交流以自然的方式与人类互动。
VLOGGER 的应用场景还包括可以用于报告、教育场域和旁白等,也可剪辑既有的影片,如果对影片中的表情不满意就能加以调整。
相关推荐
-
欧盟AI法案获得Meta和OpenAI首席执行官的支持
【Aigcmore.com】06月26日消息,据最新报道,meta首席执行官马克·扎克伯格(MarkZuckerberg)和OpenAI首席执行官山姆·阿尔特曼(Sam Altma…
2023年 6月 26日 -
51CTO副总裁杨文飞:ChatGPT火得有点大了,未来还会有更牛的应用
51CTO创立于2005年,是一个集技术学习和媒体于一体的平台。截至目前,有数千万学员在51CTO通过不同的形式,学习数字化相关的知识和技术。 WOT全球技术创新大会是51CTO搭…
2023年 7月 6日 -
管控人工智能“野蛮生长”,ACM 审核通过生成式AI开发原则
美国生成式人工智能协会 (Association for Generative AI)计算机器全球技术政策委员会 (ACM TPC) 日前发布了《生成式人工智能技术的开发、部署和使…
2023年 7月 14日 -
AI技术加持!电影《传说》将还原27岁成龙形象
对于不少影迷来说,看到自己喜欢的演员随着时间推移逐渐不复往日光彩,都是一件颇为遗憾的事情。 而现在,在AI技术的辅助下,让已经不再年轻的演员在荧幕上重现往日风采,已经不再是无法实现…
2023年 6月 12日 -
调查显示:员工担心老板们使用人工智能
站长之家(ChinaZ.com)4月21日 消息:根据一份由皮尤研究中心发布的调查报告,多数员工认为将来雇佣、解雇、以及职场评级将会受到人工智能的影响,并对此表示担忧。 调查数据来…
2023年 4月 22日 -
AI前哨 | GPT-5什么时间上线?OpenAI CEO在中国会议上发言
凤凰网科技讯 《AI前哨》6月10日消息,在2023北京智源大会上,智源研究院理事长张宏江提问,会很快看到GPT-5吗?Sam Altman表示,我也很好奇,我们没有答案,我们不会…
2023年 6月 12日 -
谷歌I/O 2023:Magic Editor推出,使用AI技术轻松编辑照片
【Aigcmore.com】5月11日消息,谷歌在今日凌晨举行的I/O 2023开发者大会上,推出了一项名为MagicEditor的全新功能。这项功能基于生成式AI技术,可以让用户…
2023年 5月 11日 -
一块芯片卖4万,市值冲万亿美元:英伟达成了AI最大赢家
2022年,英伟达(Nvidia)推出H100芯片,它相当强大,每块4万美元。但H100推出的时间似乎相当糟糕,当时企业正在绞尽脑汁削减成本,美国通胀也呈无法遏制之势。2022年1…
2023年 6月 6日 -
Bing Chat新特性:格式化聊天内容、支持中文等 100 种语言生成图片
微软必应官方博客今天发布博文,介绍了两项新的功能特性。其一是格式化回答的内容,第二是 Image Creator 支持中文等 100 多种语言,可以使用中文来生成图像。 格式化 C…
2023年 5月 7日 -
谷歌合并旗下两大人工智能部门Brain和DeepMind
4月21日消息,谷歌当地时间周四宣布,将旗下两个主要的人工智能研究部门Brain和DeepMind合并,新部门名为Google DeepMind。 DeepMind联合创始人兼…
2023年 5月 1日