微软发布 AI 声音生成工具 VALL-E,只需 3 秒音频即可模仿人说话
1 月 10 日消息,微软最近发布了一款名为 VALL-E 的人工智能工具,只需 3 秒音频即可模仿人说话。
该工具经过 60000 小时英语语音数据的训练,并使用特定语音的 3 秒剪辑来生成内容。与目前的许多人工智能工具不同,VALL-E
可以复制说话者的情绪和语气,即使说话者本人从未说过的单词也可以模仿。

IT之家了解到,康奈尔大学的一篇论文使用 VALL-E 合成了几种声音,大家可以在 GitHub 上聆听这些 AI 合成的音频。
研究人员指出,在许多情况下,Vall-E
的性能优于当前的文本到语音转换模型。然而,该研究还写道,人工智能模型目前存在几个问题。例如,文本提示中的某些单词可能会发音不清晰、完全遗漏或在输出中出现两次。此外,该模型目前难以模仿某些声音,尤其是带有口音的声音。
像其他 AI 新技术一样,VALL-E 在安全、伦理等方面也引发了担忧。微软发布了关于使用 VALL-E
的道德声明,但未来的使用用途方面没有明确说明。
目前,微软 Vall-E 尚未开源。微软已经在 GitHub 上创建了一个 Vall-E 存储库,但目前只包含一个描述文件。
相关推荐
-
调查显示:60% 的员工认为 AI 自动化提高了工作满意度
5 月 21 日消息,据一项由自动化软件公司 UiPath 近期进行的调查显示,大多数员工(约60%)认为,使用人工智能(AI)驱动的自动化解决方案可以缓解职业倦怠,显著提高工作满…
2023年 5月 24日 -
谷歌 AI 聊天机器人 Bard 给出错误答案,市值一夜蒸发逾 1000 亿美元
2 月 9 日消息,美国当地时间周三,由于谷歌新推出的 AI 聊天机器人 Bard 在回答查询时给出错误答案,导致其母公司 Alphabet 股价暴跌8%,市值缩水 1000 多亿…
2023年 4月 20日 -
微软“办公新时代”活动前瞻,主打 AI:新画图应用、提高游戏帧率等
3 月 8 日消息,微软已敲定北京时间 3 月 22 日凌晨 1 点举办线上新品发布会,主题为“办公新时代”,预估主要内容是 Copilot、Windows 和 Surface,利…
2024年 3月 20日 -
三星电子引入ChatGPT不到20天便遭遇三起事故
【Aigcmore.com】4月3日消息,三星电子引入的人工智能聊天机器人ChatGPT不到20天就发生了三起涉及ChatGPT的事故。据外媒报道,其中两起与半导体设备有关,一起与…
2023年 4月 24日 -
ChatGPT 更像浏览器,还是更像操作系统
操作系统作为软件皇冠上最璀璨的那一颗宝石,在历史上摄取了巨额的利润。大家现在很多人在争论, ChatGPT 像操作系统吗? 我个人认为,它更像浏览器,而不是操作系统。 Window…
2023年 5月 1日 -
智能教室:人工智能和未来教育
人工智能正在改变世界。 全世界现在都在关注生成式人工智能工具对知识和创意经济的影响。学校是知识和创意工作的中心,因此很可能是普罗大众首先看到切实变化的地方。 世界各地的领导人和有识…
2023年 6月 14日 -
英伟达领投,AI初创公司Cohere完成 2.7 亿美元新一轮融资
AI 初创公司 Cohere 6 月 8 日表示,该公司已获得 2.7 亿美元(IT之家备注:当前约 19.25 亿元人民币)的新一轮融资,本轮融资由英伟达、甲骨文和 Salesf…
2023年 6月 9日 -
加速AI推理,探索英特尔® 至强® 可扩展处理器在OCR应用落地方面的实践
利用AI加速企业业务的自动化进程,推动业务流程的数智化重塑或升级,已经成为企业提升工作效率、助力商业创新的重要方式。在此过程中,由AI赋能的智能光学字符识别 (OCR) 应用发挥着…
2023年 7月 14日 -
OpenAI宣布组建新团队 以控制“超级智能”人工智能
7月6日消息,美国当地时间周三,人工智能初创公司OpenAI宣布其正组建一个新的团队,以开发引导和控制“超级智能”(“superintellig…
2023年 7月 6日 -
BLIP-2、InstructBLIP稳居前三!十二大模型,十六份榜单,全面测评「多模态大语言模型」
多模态大语言模型(Multimodal Large Language Model,MLLM)依赖于LLM丰富的知识储备以及强大的推理和泛化能力来解决多模态问题,目前已经涌现出一些令…
2023年 7月 14日