谷歌推出多模态VLOGGER AI:让静态肖像图动起来“说话”
谷歌近日在 GitHub 页面发布博文,介绍了 VLOGGER AI 模型,用户只需要输入一张肖像照片和一段音频内容,该模型可以让这些人物“动起来”,富有面部表情地朗读音频内容。
VLOGGER AI 是一种适用于虚拟肖像的多模态 Diffusion 模型,使用 MENTOR 数据库进行训练,该数据库中包含超过 80 万名人物肖像,以及累计超过 2200 小时的影片,从而让 VLOGGER 生成不同种族、不同年龄、不同穿着、不同姿势的肖像影片。
研究人员表示:“和此前的多模态相比,VLOGGER 的优势在于不需要对每个人进行训练,不依赖于人脸检测和裁剪,可以生成完整的图像(而不仅仅是人脸或嘴唇),并且考虑了广泛的场景(例如可见躯干或不同的主体身份),这些对于正确合成交流的人类至关重要”。
Google 将 VLOGGER 视为迈向“通用聊天机器人”的一步,之后 AI 就可以通过语音、手势和眼神交流以自然的方式与人类互动。
VLOGGER 的应用场景还包括可以用于报告、教育场域和旁白等,也可剪辑既有的影片,如果对影片中的表情不满意就能加以调整。
相关推荐
-
GPT-4的32k输入框还是不够用?Unlimiformer把上下文长度拉到无限长
Transformer 是时下最强大的 seq2seq 架构。预训练 transformer 通常具有 512(例如 BERT)或 1024 个(例如 BART)token 的个上…
2023年 5月 23日 -
推理性能提升50倍,大模型应用场景加速扩展
百度智能云文心大模型技术交流会自3月27日以来,陆续在全国各地面向客户和伙伴开展,5月23日第四场落地深圳。随着大模型技术的深入发展,催生了AI研发和应用的新范式、新性能和新场景。…
2023年 5月 24日 -
微软总裁:中国人工智能发展不会落后 将成为 ChatGPT 的劲敌
站长之家(ChinaZ.com) 4月23日消息:微软总裁 Brad Smith 认为,中国的研究机构和公司将成为 ChatGPT 的主要竞争对手。根据 Nikkei Asia 的…
2023年 4月 24日 -
苹果内部使用Apple GPT,员工探索未来功能原型!
【Aigcmore.com】7月25日消息,近日有爆料称苹果公司正在秘密开发名为"Apple GPT"的人工智能项目。据彭博社的马克·古尔曼(MarkGurma…
2023年 7月 25日 -
AI颠覆家庭教育模式,已悄悄开启
随着ChatGPT的火爆,其对教育理念和方式的冲击引起了广泛讨论,也让人看到了AI影响下未来教育的一些走向。 在学校层面的基础教育领域中,AI应用尚未有所展示,但家庭辅导场景落地近…
2023年 6月 7日 -
GPT检测器判断偏见:将非母语英语写作者作品误判为AI生成
【Aigcmore.com】5月5日消息,一篇最新研究指出,当今广泛使用的GPT检测器存在一定程度的偏见,往往将非母语英语写作者的作品错误地判定为由AI生成。这项研究结果显示,GP…
2023年 5月 6日 -
Gemini修bug神了!录网页视频把代码库甩给它就行,网友坐不住了:想要访问权限
谷歌Gemini修改bug让网友大开眼界! X一小伙分享,为测试Gemini 1.5 Pro,自己在编写一个网页的代码时故意留了3个bug,并分别录制了网页bug视频。 接着把代码…
2024年 3月 20日 -
“问道”鹏博士!鹏云视讯&文心一言,打造新视讯服务
随着全球化的不断深入,跨国会议的需求越来越多。由于参与者来自不同的国家和地区,语言和文化的差异将对会议的进展和沟通带来挑战。AI技术的革新及行业大模型的不断涌现,为跨国视频会议提供…
2023年 6月 9日 -
内测阶段:阿里达摩院研究ChatGPT产品
【Aigcmore.com】2月9日消息,阿里达摩院正在研究一款类似于ChatGPT的对话机器人产品,已经进入内测阶段。据一名资深技术专家透露,目前已经对公司内部员工测试。 对于用…
2023年 4月 20日 -
思维链如何释放语言模型的隐藏能力?最新理论研究揭示其背后奥秘
思维链提示(CoT)是大模型涌现中最神秘的现象之一,尤其在解决数学推理和决策问题中取得了惊艳效果。CoT到底有多重要呢?它背后成功的机制是什么?本文中,北大的几位研究者证明了CoT…
2023年 6月 8日
