您好,欢迎您来到国盈网!
官网首页 小额贷款 购房贷款 抵押贷款 银行贷款 贷款平台 贷款知识 区块链

国盈网 > 区块链 > ChatGPT 充当大脑,指挥 AudioGPT 解决语音、音乐、音效等任务

ChatGPT 充当大脑,指挥 AudioGPT 解决语音、音乐、音效等任务

区块链 岑岑 本站原创

最近几个月,ChatGPT,GPT-4横版空诞生了,它们非常受欢迎。大规模语言模型(LLM)在语言理解、生成、交互和推理方面的非凡能力引起了学术界和工业界的极大关注,也让人们看到了LLM在构建通用人工智能(AGI)系统方面的潜力。

现有的GPT模型是最先进的自然语言处理模型之一,具有很高的语言生成能力,广泛应用于对话、翻译、代码生成等自然语言处理领域。除了书面语,用户在自然对话中主要使用口语,而传统的大语言模型无法胜任音频理解和生成的任务:

GPT模态限制。用户主要在自然对话中使用口语,对口语理解和合成的需求很大,而单峰GPT无法满足理解和生成音频(语音、音乐、背景声、3D音箱)模式的需求。音频资料和模型相对较少。基础模型少或者交互性差。与文本模式相比,用于再训练语音多模态GPT的数据较少。用户互动差。用户广泛使用Siri、Alexa等语音助手,基于自然对话高效完成工作。但目前GPT之间的交互多基于键盘输入的文字,交互性较差。口头交互可以拉近与用户的关系,提高模型的可用性。最近,来自浙江大学、北京大学、卡内基梅隆大学和中国人民大学的研究人员解决了上述问题,并提出了一个全新的音频理解和生成系统AudioGPT。AudioGPT以ChatGPT为负责对话和控制的大脑,基础语音模型配合完成跨模态转换,以及音频(语音、音乐、背景音、3D音箱)模式的理解和生成,可解决20+多语言、多模态的AI音频任务。

ChatGPT 充当大脑,指挥 AudioGPT 解决语音、音乐、音效等任务 paper地址:github: huggingface:

听觉效果惊人。

现在,HuggingGPT增加了Gradio演示:

ChatGPT 充当大脑,指挥 AudioGPT 解决语音、音乐、音效等任务话不多说,只看一个AudioGPT对话的例子,它涵盖了文本、图像、语音三种输入方式。AudioGPT可以理解不同模式的输入,生成的结果也可以以文字、图像、音频的形式呈现给用户。

此外,文中还有一个多轮对话和语境理解的例子:

ChatGPT 充当大脑,指挥 AudioGPT 解决语音、音乐、音效等任务AudioGPT语音模型在现有模型中具有不同的优势:

1.与文本GPT相比,ChatGPT和GPT4等语言模型侧重于自然语言处理领域,在多模态理解和合成方面收益较少,而AudioGPT侧重于音频多模态的理解和生成。

2.与Siri等检索模式相比:与单纯检索和语音回复的检索模式相比,AudioGPT强大的生成式对话,使用户能够实时获取和处理与内容相关的音频。

3.与视觉任务GPT相比,图像中没有类似音频的语言分类,但音频中有不同的语言,如汉语、英语、法语等。AudioGPT也需要语言管理。

专有技术

当接收到用户的请求时,AudioGPT使用ChatGPT分析任务,根据语音基本模型中可用的功能描述选择模型,用选择的语音基本模型执行用户的指令,并根据执行结果总结响应。借助ChatGPT强大的语言能力和众多的基础语音模型,AudioGPT几乎可以完成语音领域的所有任务。

AudioGPT为语音的通用人工智能开辟了一条新路。AudioGPT的运行过程可以分为模态转换、任务分析、模型分配和回复生成四个阶段。

ChatGPT 充当大脑,指挥 AudioGPT 解决语音、音乐、音效等任务到目前为止,AudioGPT涵盖了语音识别、语音合成、语音翻译、语音增强、语音分离、音频字幕、音频生成、歌唱合成等任务。实验结果证明了AudioGPT在处理多模态信息和复杂人工智能任务方面的强大能力。

目前,多式联运物流管理层出不穷。可视化ChatGPT、HuggingGPT等模型越来越受到关注。然而,如何评价多模态LLM模型成为一大难点。为了解决这一难题,研究人员设计了多模态LLM性能评估的标准和流程。具体来说,AudioGPT建议从三个方面评估多模态LLM:

一致性:衡量AudioGPT是否正确理解了用户的意图,并为其分配了所需的模型能力;测量基本语音模型在其特定任务上的鲁棒性;衡量AudioGPT是否能正确处理一些极端的例子。为了一致性,研究人员设计了一套基于人工评估的流程。如下图所示:

ChatGPT 充当大脑,指挥 AudioGPT 解决语音、音乐、音效等任务为了稳定性,AudioGPT考察了每个基本语音模型在单一任务领域的表现。

ChatGPT 充当大脑,指挥 AudioGPT 解决语音、音乐、音效等任务对于鲁棒性,研究人员从四个方面进行了评估:

多轮对话的稳定性:多模态LLM应该能够处理上下文不支持的多轮对话和任务。目前,多模态LLM并不是万能的。当接收到一个无法解决的请求时,多模态LLM还应该给用户错误处理的反馈。多模态基本模型可能由于不同的原因而失败,例如不支持的参数或不支持的输入格式。在这种情况下,多模态LLM需要向用户提供合理的反馈,解释遇到的问题,并提出潜在的解决方案上下文中断:多模态LLM被期望处理不在逻辑序列中的查询。例如,用户可能在查询序列中提交一个随机查询,但是将继续执行具有更多任务的前一个查询。

网友热议

最后,项目只是开源,可以在Github和Huggingface中体验。对于这个新工具的诞生,网友们都很兴奋。有人说:

ChatGPT 充当大脑,指挥 AudioGPT 解决语音、音乐、音效等任务AudioGPT是音频处理领域大语言模型的福利。

有网友认为,五音不全的人也可以借助AudioGPT唱歌:

ChatGPT 充当大脑,指挥 AudioGPT 解决语音、音乐、音效等任务

ChatGPT 充当大脑,指挥 AudioGPT 解决语音、音乐、音效等任务有网友表示,预计这种模式也可以用在个人PC上,将能够创作出丰富多样的音视频内容。

温馨提示:注:内容来源均采集于互联网,不要轻信任何,后果自负,本站不承担任何责任。若本站收录的信息无意侵犯了贵司版权,请给我们来信(j7hr0a@163.com),我们会及时处理和回复。

原文地址"ChatGPT 充当大脑,指挥 AudioGPT 解决语音、音乐、音效等任务":http://www.guoyinggangguan.com/qkl/152697.html

微信扫描二维码关注官方微信
▲长按图片识别二维码