谷歌推出多模态VLOGGER AI:让静态肖像图动起来“说话”
谷歌近日在 GitHub 页面发布博文,介绍了 VLOGGER AI 模型,用户只需要输入一张肖像照片和一段音频内容,该模型可以让这些人物“动起来”,富有面部表情地朗读音频内容。
VLOGGER AI 是一种适用于虚拟肖像的多模态 Diffusion 模型,使用 MENTOR 数据库进行训练,该数据库中包含超过 80 万名人物肖像,以及累计超过 2200 小时的影片,从而让 VLOGGER 生成不同种族、不同年龄、不同穿着、不同姿势的肖像影片。
研究人员表示:“和此前的多模态相比,VLOGGER 的优势在于不需要对每个人进行训练,不依赖于人脸检测和裁剪,可以生成完整的图像(而不仅仅是人脸或嘴唇),并且考虑了广泛的场景(例如可见躯干或不同的主体身份),这些对于正确合成交流的人类至关重要”。
Google 将 VLOGGER 视为迈向“通用聊天机器人”的一步,之后 AI 就可以通过语音、手势和眼神交流以自然的方式与人类互动。
VLOGGER 的应用场景还包括可以用于报告、教育场域和旁白等,也可剪辑既有的影片,如果对影片中的表情不满意就能加以调整。
相关推荐
-
马斯克谈人工智能安全和发展:我是 OpenAI 存在的原因
站长之家(ChinaZ.com) 5月17日 消息:马斯克当在地时间周二的股东大会后接受 CNBC David Faber 的采访时称,他是「OpenAI 存在的原因」,并引用了他…
2023年 5月 17日 -
ChatGPT凌晨重磅更新!GPT-3.5/4双升级:上下文飙升4倍,用API自己造插件
ChatGPT突然更新! 今天凌晨,OpenAI在官网上发布了所有更新细节,包含以下这几个方面: 在Chat Completions API中增加了新的函数调用能力 更新了GPT-…
2023年 6月 27日 -
OpenAI 开发新工具,试图解释语言模型的行为
语言模型是一种人工智能技术,可以根据给定的文本生成自然语言。OpenAI 的 GPT 系列语言模型是目前最先进的代表之一,但IT之家注意到它们也有一个问题:它们的行为很难理解和预测…
2023年 5月 11日 -
人工智能人才竞争升温 OpenAI允许部分员工将所持股份套现
站长之家(ChinaZ.com) 4月18日消息:据 The Information 消息,一位直接了解情况的人士说,OpenAI 已经告诉员工,它已经完成了一项收购要约,允许一些…
2023年 4月 19日 -
AI 生成内容的隐患:当 AI 只学习 AI,网络将充斥无意义的内容
6 月 20 日消息,人工智能(AI)的发展日新月异,但也带来了一些隐患。最近,一组英国和加拿大的科学家发现,如果 AI 只学习其他 AI 生成的内容,那么经过几代训练后,AI 将…
2023年 7月 3日 -
人类社会工程学在网络钓鱼攻击中比 AI 效果更佳
【Aigcmore.com】3月16日消息,在网络安全领域,一项由 Hoxhunt网络安全研究公司进行的测试发现,人类社会工程学在网络钓鱼攻击中仍然发挥着重要作用。该研究测试了由人…
2023年 4月 22日 -
Edge不再独享,微软确认必应聊天实验性第三方浏览器支持正在推出
几个月前微软推出了必应聊天(Bing Chat),这是一项基于人工智能的聊天机器人服务,但当时只能通过微软自家的 Edge 浏览器来使用。几天前,微软广告和网络服务部门的负责人 M…
2023年 6月 5日 -
5倍于ChatGPT Intel推出Aurora genAI大模型:1万亿参数
这几个月来ChatGPT很火,带动各大科技巨头都要下场研发自己的AI大模型,现在Intel也加入战局,推出Aurora genAI模型,参数量高达1万亿。 目前ChatG…
2023年 5月 26日 -
Adobe首席产品官:人工智能不会杀死图形设计
站长之家(ChinaZ.com)7月27日 消息:Adobe 首席产品官 Scott Belsky 表示,尽管一些行业在人工智能时代可能不再需要存在,但图形设计师仍将继续发展。他认…
2023年 7月 28日 -
即时 AI再次升级 30秒生成自带动效的网页 生成速度提升100%
用AI把所有产品都重做一遍? 现在轮到网站了 。 日前,智能设计工具公司即时设计对其AIGC产品——即时AI,再次进行功能升级:通过文字描述, 30 秒即可生成自带网页动画效果、可…
2023年 6月 29日
