谷歌推出多模态VLOGGER AI:让静态肖像图动起来“说话”
谷歌近日在 GitHub 页面发布博文,介绍了 VLOGGER AI 模型,用户只需要输入一张肖像照片和一段音频内容,该模型可以让这些人物“动起来”,富有面部表情地朗读音频内容。
VLOGGER AI 是一种适用于虚拟肖像的多模态 Diffusion 模型,使用 MENTOR 数据库进行训练,该数据库中包含超过 80 万名人物肖像,以及累计超过 2200 小时的影片,从而让 VLOGGER 生成不同种族、不同年龄、不同穿着、不同姿势的肖像影片。
研究人员表示:“和此前的多模态相比,VLOGGER 的优势在于不需要对每个人进行训练,不依赖于人脸检测和裁剪,可以生成完整的图像(而不仅仅是人脸或嘴唇),并且考虑了广泛的场景(例如可见躯干或不同的主体身份),这些对于正确合成交流的人类至关重要”。
Google 将 VLOGGER 视为迈向“通用聊天机器人”的一步,之后 AI 就可以通过语音、手势和眼神交流以自然的方式与人类互动。
VLOGGER 的应用场景还包括可以用于报告、教育场域和旁白等,也可剪辑既有的影片,如果对影片中的表情不满意就能加以调整。
相关推荐
-
一文聊聊激光雷达与相机标定的时间戳同步问题
01 相机特性-曝光和读出 相机获取一帧图像分为曝光和读出两个阶段。相机使用的传感器不同,相机的曝光时间和读出时间的重叠关系也有所不同,分为交叠曝光和非交叠曝光两种。 叠曝光和非交…
2023年 5月 19日 -
亚马逊宣布ChatGPT竞品Bedrock,邀请10万客户参与体验
亚马逊经过数月的沉默之后,于今天正式推出了生成式 AI 产品 Bedrock。它将和 OpenAI 的 ChatGPT、微软的必应聊天(Bing Chat)、谷歌的 Bard 正面…
2023年 4月 15日 -
基于模块化思想,阿里达摩院提出多模态基础模型mPLUG-2
对于多模态基础模型,我们希望其不仅可以处理特定的多模态相关任务,还希望其处理单模态任务时也具有优异的性能。阿⾥达摩院团队发现现有的模型往往不能很好的平衡模态协作和模态纠缠的问题,这…
2023年 6月 5日 -
新东方智慧教育持续优化课程体系 助力小学打造“AI科创实验室”
为促进智慧教育创新型人才培养,助力石狮市创新驱动发展。 2023 年,新东方智慧教育以科学探索、信息科技、航天科技为特色,为有着百年历史的长福实验小学“AI科创实验室”提供科创教育…
2023年 5月 31日 -
机器学习如何影响未来就业市场
机器学习正在改变各行各业,尤其是就业和就业市场,提高从初级职位到顶级职位的效率。这种先进的工具实现了自动化、智能决策,简化了工作流程,并从根本上改变了我们定义和执行工作的方式。机器…
2023年 6月 28日 -
OpenAI首席执行官:暂停AI训练并非解决之道 目前还没有开发GPT-5
在讨论人工智能(AI)系统带来的威胁时,OpenAI的首席执行官兼联合创始人Sam Altman表示,人工智能确实存在重大的安全挑战,但暂停训练并非解决之道。此外,他还透露,目前该…
2023年 4月 16日 -
日本将设立专门机构制定 AI 国家战略:指明人工智能政策基本方向
站长之家(ChinaZ.com) 4月28日消息:据日本读卖新闻网站消息,日本政府决定设立新的「战略会议」,负责讨论与人工智能 (AI) 相关的国家战略。 对于正在迅速普及的聊天机…
2023年 4月 29日 -
Twitter上疯传的五角大楼爆炸假图:人工智能滥用的警示
【Aigcmore.com】05月23日消息,近日,一则关于五角大楼发生大爆炸的假图在Twitter上广泛传播,甚至导致股市出现下跌的情况。 这张据信由人工智能生成的假图片在Twi…
2023年 5月 24日 -
数据科学家表示,企业需要控制自己的生成式AI 确保安全和差异化
站长之家(ChinaZ.com)6月28日 消息:在最新的调查数据中,企业MLOps平台Domino Data Lab发现,数据科学家们认为生成式人工智能(generative A…
2023年 6月 28日 -
伦敦音乐家通过调教 ChatGPT 让其帮助制作音乐专辑
2 月 28 日消息,伦敦音乐家 David Domminney Fowler近日开始利用 ChatGPT 来制作音乐专辑。他曾和英国摇滚乐队缪斯乐队(Muse)、歌手菲尔・柯林斯…
2023年 4月 27日
