谷歌推出多模态VLOGGER AI:让静态肖像图动起来“说话”
谷歌近日在 GitHub 页面发布博文,介绍了 VLOGGER AI 模型,用户只需要输入一张肖像照片和一段音频内容,该模型可以让这些人物“动起来”,富有面部表情地朗读音频内容。
VLOGGER AI 是一种适用于虚拟肖像的多模态 Diffusion 模型,使用 MENTOR 数据库进行训练,该数据库中包含超过 80 万名人物肖像,以及累计超过 2200 小时的影片,从而让 VLOGGER 生成不同种族、不同年龄、不同穿着、不同姿势的肖像影片。
研究人员表示:“和此前的多模态相比,VLOGGER 的优势在于不需要对每个人进行训练,不依赖于人脸检测和裁剪,可以生成完整的图像(而不仅仅是人脸或嘴唇),并且考虑了广泛的场景(例如可见躯干或不同的主体身份),这些对于正确合成交流的人类至关重要”。
Google 将 VLOGGER 视为迈向“通用聊天机器人”的一步,之后 AI 就可以通过语音、手势和眼神交流以自然的方式与人类互动。
VLOGGER 的应用场景还包括可以用于报告、教育场域和旁白等,也可剪辑既有的影片,如果对影片中的表情不满意就能加以调整。
相关推荐
-
谷歌将在开发者大会上发布“巨型巴德”PaLM 2:编程、数学、作文全拿下,还支持 100 多种语言
5 月 9 日消息,据泄露的内部文件显示,人工智能将成为谷歌今年开发者大会 Google I / O 的中心主题,该公司计划发布一系列生成式人工智能(AIGC)功能更新,包括推出通…
2023年 5月 9日 -
借力AI制药新科技,LAIFE打造全新肝脏抗老产品
6月2日,全球头家以人工智能、云端超算驱动的抗衰生物技术研发公司Regenerative Bio旗下抗衰品牌LAIFE发布针对肝脏细胞抗衰的精细化产品LAIFE肝净小绿瓶。这是一款…
2023年 6月 12日 -
AI模型帮助研究人员提高癌症检测精度
Madhu Nair博士和Asha Das博士即将实现一项重大突破,即使用人工智能(AI)模型在患者组织样本的扫描图像中检测乳腺癌症细胞。 这两位印度研究人员曾面临着一个巨大的挑战…
2023年 6月 27日 -
OpenAI 关闭了 1.75 亿美元的人工智能创投基金
站长之家(ChinaZ.com) 5月26日消息:OpenAI 被誉为人工智能研究和技术的领跑者,一直致力于帮助专注于人工智能的初创公司。OpenAI 近期可能刚刚关闭了一笔投资基…
2023年 5月 29日 -
微软与 OpenAI 的幕后冲突:人工智能领域合作与竞争并存的独特关系
站长之家(ChinaZ.com) 6月14日消息:据报道,OpenAI 曾向微软发出警告,要求他们在将 GPT-4 整合到 Bing 搜索引擎中时慢慢进行,以避免出现不准确和不可预…
2023年 6月 16日 -
OpenAI CEO萨姆·奥尔特曼承诺:不与开发者竞争,专注服务
【Aigcmore.com】6月6日消息,人工智能巨头OpenAI的CEO萨姆·奥尔特曼(SamAltman)近期在与开发者的私密会面中透露了一些公司的秘密。据Aigcmore.c…
2023年 6月 7日 -
谷歌对助手部门进行重组,以支持Bard技术
【Aigcmore.com】3月30日消息,谷歌正在对其虚拟助理Assistant部门进行重组,以更加专注于新的人工智能聊天技术Bard。根据谷歌副总裁兼谷歌助理业务部门负责人Si…
2023年 4月 24日 -
现场拔网线!第四范式版GPT能力首秀,有点不一样
国产大模型能大战,又有一员猛将入局。 就在刚刚,第四范式自研大模型“式说”(4Paradigm SageGPT)在上线2个月后,终于来了一波能力首秀。 而且纵观整场活动的发布,最直…
2023年 5月 9日 -
生成式AI技术的安全问题引发行业忧虑 华尔街大行纷纷禁用
【Aigcmore.com】5月4日消息,随着生成式AI的大火,越来越多的企业也加入了这场激动人心的竞赛。但是,该技术的使用也引起了安全和隐私问题的关注。三星电子最近宣布,禁止其员…
2023年 5月 5日 -
奢望AI写作文?先把校对干好再说
声明:本文来自于微信公众号 智商税研究中心(ID:gh_c55b3561ece1),作者:潘哥,授权站长之家转载发布。 连高考作文都能写,面对更简单的校对工作,AI大模型能做好吗?…
2023年 6月 9日