谷歌推出多模态VLOGGER AI:让静态肖像图动起来“说话”
谷歌近日在 GitHub 页面发布博文,介绍了 VLOGGER AI 模型,用户只需要输入一张肖像照片和一段音频内容,该模型可以让这些人物“动起来”,富有面部表情地朗读音频内容。
VLOGGER AI 是一种适用于虚拟肖像的多模态 Diffusion 模型,使用 MENTOR 数据库进行训练,该数据库中包含超过 80 万名人物肖像,以及累计超过 2200 小时的影片,从而让 VLOGGER 生成不同种族、不同年龄、不同穿着、不同姿势的肖像影片。
研究人员表示:“和此前的多模态相比,VLOGGER 的优势在于不需要对每个人进行训练,不依赖于人脸检测和裁剪,可以生成完整的图像(而不仅仅是人脸或嘴唇),并且考虑了广泛的场景(例如可见躯干或不同的主体身份),这些对于正确合成交流的人类至关重要”。
Google 将 VLOGGER 视为迈向“通用聊天机器人”的一步,之后 AI 就可以通过语音、手势和眼神交流以自然的方式与人类互动。
VLOGGER 的应用场景还包括可以用于报告、教育场域和旁白等,也可剪辑既有的影片,如果对影片中的表情不满意就能加以调整。
相关推荐
-
GitHub 调查显示 92% 的程序员使用人工智能编码工具
站长之家(ChinaZ.com) 6月15日消息:据微软旗下 GitHub 进行的一项调查显示,在参与调查的 500 名程序员中,有 92% 的人表示在工作中使用过人工智能工具。 …
2023年 6月 16日 -
丘成桐:AI不会取代人类 只是一种辅助工具
【Aigcmore.com】4月13日消息,随着科技的不断发展,人工智能已经成为了一个备受关注的话题。有人认为,基于机器学习和深度学习的人工智能将取代人类,成为未来的主宰;有人则认…
2023年 4月 29日 -
人工智能在网络安全中的风险和回报
以下是有关人工智能在网络安全中的风险和回报的信息。 根据NIST的说法,网络安全框架的五项功能是身份识别、保护、检测、响应和恢复。在实践中,人工智能如何使这些领域的安全专业人员受益…
2023年 6月 6日 -
什么是ChatGPT?居然,还会写诗聊天挑选投影仪!
最近一款新的聊天Al被网友们玩疯了,它就是ChatGPT,一夜之间,几乎无所不能的火遍全球。尤其是春节刚刚结束那会,ChatGPT的聊天机器人彻底火出了圈。 与传统搜索引擎不同,B…
2023年 4月 20日 -
Transformer后继有模!MSRA提出全新大模型基础架构:推理速度8倍提升,内存占用减少70%
本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。 微软大模型新架构,正式向Transformer发起挑战! 论文标题明晃晃地写道: Retentive …
2023年 7月 27日 -
埃隆·马斯克呼吁建立与谷歌微软竞争的人工智能公司
【Aigcmore.com】5月24日消息,美国当地时间周二,埃隆·马斯克(ElonMusk)在参加《华尔街日报》CEO委员会伦敦峰会时提出了建立一家与谷歌和微软竞争的人工智能公司…
2023年 5月 24日 -
每周AI大事件 | ChatGPT推iPhone版APP、OpenAI将开源新模型、Midjourney中文版在QQ开启内测申请
欢迎来到站长之家的[每周AI大事件],这里记录了过去一周值得关注的AI领域热点内容,帮助大家更好地了解人工智能领域的动态和发展风向。 Part1动态 [国内要闻] 史上第一套高考A…
2023年 5月 20日 -
摩根大通:英伟达今年将在人工智能产品市场中占据60%份额
5月29日消息,据外媒报道,投行摩根大通认为,凭借GPU和网络产品等硬件产品,英伟达今年将在人工智能(AI)产品市场中占据高达60%的份额。 10年前,英伟达的主营业务是游戏。10…
2023年 5月 29日 -
MetaGPT:智能化代码生成,模拟软件开发过程
【Aigcmore.com】7月4日消息,近日开源了一款名为metaGPT的AI模型,该模型专注于代码生成。虽然名字与meta公司相似,但实际上该模型并非由meta公司团队开发。据…
2023年 7月 4日 -
英伟达或将推出新款RTX显卡 加速人工智能技术发展
【Aigcmore.com】3月27日消息,近日英伟达的CTO表示,他认为虚拟货币对社会并无用处,这些用于虚拟货币的算力应该有更好的去处,比如人工智能。在2023年,由于ChatG…
2023年 4月 29日