谷歌推出多模态VLOGGER AI:让静态肖像图动起来“说话”
谷歌近日在 GitHub 页面发布博文,介绍了 VLOGGER AI 模型,用户只需要输入一张肖像照片和一段音频内容,该模型可以让这些人物“动起来”,富有面部表情地朗读音频内容。
VLOGGER AI 是一种适用于虚拟肖像的多模态 Diffusion 模型,使用 MENTOR 数据库进行训练,该数据库中包含超过 80 万名人物肖像,以及累计超过 2200 小时的影片,从而让 VLOGGER 生成不同种族、不同年龄、不同穿着、不同姿势的肖像影片。
研究人员表示:“和此前的多模态相比,VLOGGER 的优势在于不需要对每个人进行训练,不依赖于人脸检测和裁剪,可以生成完整的图像(而不仅仅是人脸或嘴唇),并且考虑了广泛的场景(例如可见躯干或不同的主体身份),这些对于正确合成交流的人类至关重要”。
Google 将 VLOGGER 视为迈向“通用聊天机器人”的一步,之后 AI 就可以通过语音、手势和眼神交流以自然的方式与人类互动。
VLOGGER 的应用场景还包括可以用于报告、教育场域和旁白等,也可剪辑既有的影片,如果对影片中的表情不满意就能加以调整。
相关推荐
-
Opera发布为生成式AI功能设计的浏览器Opera One
站长之家(ChinaZ.com)4月25日 消息:Opera在今年晚些时候会推出一款完全重新设计的浏览器——Opera One,现已发布抢先体验版。 该版本设计将有一个更简介的外观…
2023年 4月 27日 -
OpenAI、DeepMind 和 Anthropic 将让英国提前获得用于安全研究的 AI 模型
站长之家(ChinaZ.com) 6月13日消息:英国首相里希·苏纳克(Rishi Sunak)在周一向科技界做出了重大承诺,将英国定位为全球人工智能技术和技术监管中心。 苏纳克今…
2023年 6月 14日 -
训练效果未及预期,31 名 ChatGPT 训练派遣工遭解雇
4 月 23 日消息,据知情人士爆料和内部沟通文件显示,今年 3 月,30 余名帮助培训爆火聊天机器人 ChatGPT 背后语言模型的派遣工被解雇。 Slack 内部聊天截图显示,…
2023年 4月 24日 -
如何通过人工智能(AI)和机器学习应对零售劳动力和执行方面的挑战
斑马技术大中华区技术总监 程宁 面对不断增长的需求,零售团队人员数量及具体运营执行是否能及时匹配,正成为零售商们不得不面临的挑战。零售团队人员的短缺将使商店难以正常运营。当商店经理…
2023年 6月 8日 -
OpenAI 推出 Shap・E:基于文本数秒内生成高质量 3D 模型
5 月 9 日消息,继文本生成图片模型 DALL・E 之后,OpenAI 近日再次发布了 Shap・E 模型。用户可以输入文本,用于创建逼真且多样化的 3D 模型。 Shap・E …
2023年 5月 11日 -
马斯克:AI毁灭人类可能性很小 但不是零
快科技5月24日消息,美国当地时间周二,马斯克在接受采访时表示,有必要建立能够与谷歌和微软竞争的人工智能公司。 去年,马斯克斥资440亿美元收购推特的努力正在取得成果。他说,推特目…
2023年 5月 25日 -
ChatGPT代码解释器与Jupyter Notebook合体,编码能力更强了
毋庸置疑,在 AI 的帮助下,开发者的编码效率能够大大提升。 开发者们将从简单、重复的编码工作中解脱出来。但是随之而来的诸多问题,往往让使用 AI 的开发者们头秃不已。 Chapy…
2023年 7月 27日 -
解读TaskMatrix.AI
ChatGPT在广泛的开放域任务上展现出令人瞩目的强大对话、上下文学习和代码生成能力,而且它所获得的常识知识还可以为特定领域的任务生成高级解决方案概要。不过,除了更强大的学习、理解…
2023年 5月 6日 -
Adobe Systems推出AI创意生成工具Firefly,提高创意生产效率
【Aigcmore.com】3月22日消息,全球领先的创意软件公司AdobeSystems宣布推出了一款名为Firefly的AI创意生成工具。这款基于机器学习技术的工具可以帮助设计…
2023年 4月 22日 -
信通院郭雪:开源是AI大模型的必经之路
C114讯 5月30日消息(水易)近日,由中国信息通信研究院、中国通信标准化协会主办的OSCAR开源合规沙龙在北京成功召开。会上,中国信通院云大所开源和软件安全部主任郭雪发布了《纸…
2023年 5月 31日
