谷歌推出多模态VLOGGER AI:让静态肖像图动起来“说话”
谷歌近日在 GitHub 页面发布博文,介绍了 VLOGGER AI 模型,用户只需要输入一张肖像照片和一段音频内容,该模型可以让这些人物“动起来”,富有面部表情地朗读音频内容。
VLOGGER AI 是一种适用于虚拟肖像的多模态 Diffusion 模型,使用 MENTOR 数据库进行训练,该数据库中包含超过 80 万名人物肖像,以及累计超过 2200 小时的影片,从而让 VLOGGER 生成不同种族、不同年龄、不同穿着、不同姿势的肖像影片。
研究人员表示:“和此前的多模态相比,VLOGGER 的优势在于不需要对每个人进行训练,不依赖于人脸检测和裁剪,可以生成完整的图像(而不仅仅是人脸或嘴唇),并且考虑了广泛的场景(例如可见躯干或不同的主体身份),这些对于正确合成交流的人类至关重要”。
Google 将 VLOGGER 视为迈向“通用聊天机器人”的一步,之后 AI 就可以通过语音、手势和眼神交流以自然的方式与人类互动。
VLOGGER 的应用场景还包括可以用于报告、教育场域和旁白等,也可剪辑既有的影片,如果对影片中的表情不满意就能加以调整。
相关推荐
-
微软计划推出更安全的ChatGPT,专注隐私安全
【Aigcmore.com】5月4日消息,随着ChatGPT的应用日益普及,人工智能泄露隐私的风险也随之增加,引发了广泛关注。此前,三星公司就因为使用ChatGPT导致数据泄露事件…
2023年 5月 5日 -
杭州小伙用Griefbot「复活」祖父,目前已删除:不想过度依赖AI
在我们的相册中,有亲人的照片、视频。 在我们的社交媒体中,有亲人的语音条。 我们还有蓬勃发展的AI技术——我们和我们的亲人以另一种方式相遇了。 斯人已逝 2020 年,杭州一位年轻…
2023年 6月 9日 -
阿里“通义听悟”宣布升级:音视频问答助手“小悟”上线,支持超长视频问答
阿里大模型产品“通义听悟”发布多项新功能。音视频问答助手“小悟”上线。据介绍,通过多语言Query处理、长篇章文本理解、指令演化框架…
2024年 3月 20日 -
ChatGPT引发人工智能热潮:超越人类创造力的里程碑
【Aigcmore.com】6月26日消息,人工智能的快速发展引起了广泛的关注,同时也引发了一些担忧。近日,《人民日报》发表了一篇文章指出,人工智能的进化带来了一定的风险,并呼吁加…
2023年 6月 26日 -
研究发现AI聊天机器人ChatGPT不会讲笑话 只会重复25个老梗
ChatGPT 人工智能聊天机器人可以与用户进行自然语言对话,回答各种问题,甚至讲笑话。但是最新的研究发现,ChatGPT 并不懂幽默,只会重复 25 个老梗,而且不能创造新的笑话…
2023年 6月 12日 -
日本团队推出AI恋爱游戏 对话基于ChatGPT技术
站长之家(ChinaZ.com)6月26日 消息:最近,日本的一个两人团队发布了一段视频,展示了一款正在开发中的基于AI的恋爱游戏。游戏初期,女主角以黑色剪影的形式出现,玩家无须点…
2023年 6月 27日 -
AI技术风险备受关注 专家呼吁制定安全标准和监管机制
【Aigcmore.com】4月11日消息,随着OpenAI训练的ChatGPT人工智能聊天机器人大火之后,多家公司在加速相关或类似技术的研发和应用。OpenAI在3月14日也推出…
2023年 4月 25日 -
阿里巴巴蔡崇信:不用过于担心 AI 机器人比人类更聪明甚至取代人类
站长之家(ChinaZ.com) 5月10日消息:阿里巴巴集团董事会执行副主席蔡崇信今天上午在中国澳门国际科技创新博览会(BEYOND EXPO 2023)的开幕式上发布演讲时表示…
2023年 5月 11日 -
解锁ChatGPT新姿势:集成文本转语音功能
译者 | 崔皓 审校 | 重楼 摘要 这篇文章介绍了如何将文本转语音(TTS Text-to-Speech)技术应用于ChatGPT,从而提高其用户体验。本文认为,通过听…
2023年 7月 27日 -
中国小伙网聊版「西部世界」火出圈!ChatGPT化身虚拟好友,还能定制人格
生成智能体,让Her成真了! 此前,谷歌和斯坦福研究者者就曾打造出一个「虚拟小镇」,25个住在小镇里的AI智能体能从事各种复杂举动,简直堪称「西部世界」走进现实。 而一位名叫Rin…
2023年 5月 11日
