谷歌推出多模态VLOGGER AI:让静态肖像图动起来“说话”
谷歌近日在 GitHub 页面发布博文,介绍了 VLOGGER AI 模型,用户只需要输入一张肖像照片和一段音频内容,该模型可以让这些人物“动起来”,富有面部表情地朗读音频内容。
VLOGGER AI 是一种适用于虚拟肖像的多模态 Diffusion 模型,使用 MENTOR 数据库进行训练,该数据库中包含超过 80 万名人物肖像,以及累计超过 2200 小时的影片,从而让 VLOGGER 生成不同种族、不同年龄、不同穿着、不同姿势的肖像影片。
研究人员表示:“和此前的多模态相比,VLOGGER 的优势在于不需要对每个人进行训练,不依赖于人脸检测和裁剪,可以生成完整的图像(而不仅仅是人脸或嘴唇),并且考虑了广泛的场景(例如可见躯干或不同的主体身份),这些对于正确合成交流的人类至关重要”。
Google 将 VLOGGER 视为迈向“通用聊天机器人”的一步,之后 AI 就可以通过语音、手势和眼神交流以自然的方式与人类互动。
VLOGGER 的应用场景还包括可以用于报告、教育场域和旁白等,也可剪辑既有的影片,如果对影片中的表情不满意就能加以调整。
相关推荐
-
消息称 OpenAI 正在准备新的开源 AI 模型
The Information 援引一位知情人士的话说,OpenAI 正准备向公众发布一款新的开源语言模型。报告称,OpenAI 不太可能发布与 GPT 竞争的模型。该公司没有立即…
2023年 5月 16日 -
腾讯觅影旗下结肠息肉AI获批上市
站长之家(ChinaZ.com)6月2日 消息:6月1日,腾讯觅影旗下产品“结肠息肉电子内窥镜图像辅助检测软件”获批上市。这项通过创新医疗器械审查的人工辅助检测产品,有助于提升息肉…
2023年 6月 3日 -
基于 ChatGPT 的首个自然语言开发框架 PromptAppGPT 问世,可实现全自动编译开发
6 月 8 日消息,一款自然语言开发框架 PromptAppGPT 现身 GitHub,这是目前首个基于 ChatGPT 的自然语言开发框架。 ▲ …
2023年 6月 14日 -
昆仑万维追风口:收购奇点智源助力AI业务布局
【Aigcmore.com】6月15日消息,昆仑万维公司发布公告称,其旗下控股子公司Star Group InteractiveInc.计划以1.6亿美元的价格收购Singular…
2023年 6月 16日 -
OpenAI首席技术官:ChatGPT可能会被"坏人"利用 应受到监管
2月6日消息,人工智能研究公司OpenAI开发的聊天机器人ChatGPT当下火爆全网。该公司首席技术官米拉·穆拉蒂(MiraMurati)在接受美国《时代》杂志采访时表示,没想到自…
2023年 4月 19日 -
如何从ChatGPT中删除你的数据
OpenAI已经发布新的工具,使用户能够更好地管理自己的信息。 过去6个月里,随着OpenAI的生成式文本聊天机器人日渐风靡,该系统使用从网络上提取的数据进行训练的风险也变得愈发明…
2023年 5月 30日 -
消息称 Meta 考虑放宽开源 AI 大模型,允许开发者商用化赚钱
6 月 16 日消息,Meta CEO 马克 扎克伯格和他的副手们希望其他公司可以自由使用 Meta 正在开发的人工智能新软件,并能从中获利。对于那些越来越多地采用人工智能的开发者…
2023年 6月 17日 -
人工智能之yolov7目标检测在ubuntu上部署
今天介绍在Ubuntu上部署物体识别yolov7部署 一、Anaconda简单介绍 首先就是需要下载Anaconda创建虚拟环境,这是目前最方便的 创建虚拟环境不影响本机的其他环境…
2023年 5月 15日 -
发展人工智能切忌叶公好龙
人工智能、超强计算和基于神经系统的算法及庞大的数据库,催生了生成式人工智能系统、智能识别、高速传输及对数据采集、识别、分析、控制的智能数据处理系统,颠覆式改变了传统的认知。人们在欢…
2023年 6月 2日 -
当大模型开始规划合作,一个模型打造软件开发团队,代码生成性能狂升
AI 自动生成代码是一种使用机器学习技术来生成程序代码的方法。通过对大量的程序代码进行训练,机器学习模型可以学习到程序代码的语法和结构,从而能够自动生成符合要求的程序代码。 这种方…
2023年 5月 16日
