谷歌推出多模态VLOGGER AI:让静态肖像图动起来“说话”
谷歌近日在 GitHub 页面发布博文,介绍了 VLOGGER AI 模型,用户只需要输入一张肖像照片和一段音频内容,该模型可以让这些人物“动起来”,富有面部表情地朗读音频内容。
VLOGGER AI 是一种适用于虚拟肖像的多模态 Diffusion 模型,使用 MENTOR 数据库进行训练,该数据库中包含超过 80 万名人物肖像,以及累计超过 2200 小时的影片,从而让 VLOGGER 生成不同种族、不同年龄、不同穿着、不同姿势的肖像影片。
研究人员表示:“和此前的多模态相比,VLOGGER 的优势在于不需要对每个人进行训练,不依赖于人脸检测和裁剪,可以生成完整的图像(而不仅仅是人脸或嘴唇),并且考虑了广泛的场景(例如可见躯干或不同的主体身份),这些对于正确合成交流的人类至关重要”。
Google 将 VLOGGER 视为迈向“通用聊天机器人”的一步,之后 AI 就可以通过语音、手势和眼神交流以自然的方式与人类互动。
VLOGGER 的应用场景还包括可以用于报告、教育场域和旁白等,也可剪辑既有的影片,如果对影片中的表情不满意就能加以调整。
相关推荐
-
微软首席科学官反驳马斯克 当前应加速AI开发
微软的首席科学家埃里克·霍维茨(Eric Horvitz)回应了埃隆·马斯克(Elon Musk)签署的暂停人工智能开发6个月的公开信。霍维茨告诉《财富》杂志,他尊重那些写了这封公…
2023年 5月 6日 -
Winnow AI工具被应用于酒店厨房减少食物浪费
【Aigcmore.com】3月30日消息,英国易捷航空(EasyJet)推出了一项计划,旨在利用AI技术减少食物浪费,并在其提供的套餐目的地运营更可持续的厨房。该计划与商业食物垃…
2023年 4月 24日 -
Windows Copilot登场,ChatGPT默认用必应搜索,微软联手OpenAI的大宇宙来了
最近几个月,微软一直忙于在自身的许多产品和服务中构建生成式 AI,包括搜索引擎 Bing、浏览器 Edge、GitHub 和 Office 生产力套件。 在今天凌晨举行的微软 Bu…
2023年 5月 31日 -
ChatGPT 可以设计机器人吗?
代尔夫特理工大学和瑞士技术大学的研究人员在chatGPT的帮助下,经过深思熟虑并接受了挑战,开发了一款西红柿采摘机器人。 TU Delft 和 EPFL 的研究人员使用 ChatG…
2023年 6月 16日 -
我们能阻止机器人取代人类吗?
近年来,技术的飞速发展给各行各业带来了重大变革。 一个特别吸引人的领域是机器人和自动化领域。随着时间的推移,机器人变得越来越有能力、智能和多用途。这一显着进步引发了一个发人深省的问…
2023年 5月 31日 -
必应推出新功能:Bing Image Creator 支持多语言,让设计更简单!
【Aigcmore.com】5月6日消息,微软必应官方博客今天发布博文,介绍了两项新的功能特性,将进一步改善用户的搜索体验。 据了解,必应聊天中的答案引入了更丰富的格式支持。在“更…
2023年 5月 7日 -
缜密的身份验证如何支持您的可持续发展战略
如今,无论行业或企业规模如何,每家公司都必须制定健全的可持续发展战略。 任何人都离不开它,尤其是在立法者的报告要求变得越来越严格的情况下。与“可持续性”一词的主要联系仍然是生态方面…
2023年 5月 23日 -
用DDC来构建AI网络?这可能只是一个美好的幻觉
ChatGPT、AIGC、大模型……一系列眼花缭乱的名词横空出世,AI商业价值引发社会的高度关注。随着训练模型规模的增长,支撑AI算力的数据中心网络也成为热点。提升算力效率,构建高…
2023年 5月 12日 -
制造业中的预测质量分析:人工智能和机器学习如何改变行业
近年来,制造企业面临着一个日益严峻的挑战:如何在提高效率和降低成本的同时,保持和提高产品质量。在这种情况下,预测质量分析可以提供帮助。通过预测分析质量管理,制造商现在可以利用人工智…
2023年 5月 24日 -
微软 AI 图片生成器被自家员工举报:可生成有害图像
3 月 7 日消息,据 CNBC 报道,一位微软工程师向美国联邦贸易委员会 (FTC) 举报该公司的人工智能图片生成器 Copilot Designer 存在安全隐患。 这位名叫 …
2024年 3月 20日