ChatGPT 充当大脑，指挥 AudioGPT 解决语音、音乐、音效等任务

最近几个月，ChatGPT，GPT-4横版空诞生了，它们非常受欢迎。大规模语言模型(LLM)在语言理解、生成、交互和推理方面的非凡能力引起了学术界和工业界的极大关注，也让人们看到了LLM在构建通用人工智能(AGI)系统方面的潜力。

现有的GPT模型是最先进的自然语言处理模型之一，具有很高的语言生成能力，广泛应用于对话、翻译、代码生成等自然语言处理领域。除了书面语，用户在自然对话中主要使用口语，而传统的大语言模型无法胜任音频理解和生成的任务:

GPT模态限制。用户主要在自然对话中使用口语，对口语理解和合成的需求很大，而单峰GPT无法满足理解和生成音频(语音、音乐、背景声、3D音箱)模式的需求。音频资料和模型相对较少。基础模型少或者交互性差。与文本模式相比，用于再训练语音多模态GPT的数据较少。用户互动差。用户广泛使用Siri、Alexa等语音助手，基于自然对话高效完成工作。但目前GPT之间的交互多基于键盘输入的文字，交互性较差。口头交互可以拉近与用户的关系，提高模型的可用性。最近，来自浙江大学、北京大学、卡内基梅隆大学和中国人民大学的研究人员解决了上述问题，并提出了一个全新的音频理解和生成系统AudioGPT。AudioGPT以ChatGPT为负责对话和控制的大脑，基础语音模型配合完成跨模态转换，以及音频(语音、音乐、背景音、3D音箱)模式的理解和生成，可解决20+多语言、多模态的AI音频任务。

ChatGPT 充当大脑，指挥 AudioGPT 解决语音、音乐、音效等任务 paper地址:github: huggingface:

听觉效果惊人。

现在，HuggingGPT增加了Gradio演示:

ChatGPT 充当大脑，指挥 AudioGPT 解决语音、音乐、音效等任务话不多说，只看一个AudioGPT对话的例子，它涵盖了文本、图像、语音三种输入方式。AudioGPT可以理解不同模式的输入，生成的结果也可以以文字、图像、音频的形式呈现给用户。

此外，文中还有一个多轮对话和语境理解的例子:

ChatGPT 充当大脑，指挥 AudioGPT 解决语音、音乐、音效等任务 AudioGPT语音模型在现有模型中具有不同的优势:

1.与文本GPT相比，ChatGPT和GPT4等语言模型侧重于自然语言处理领域，在多模态理解和合成方面收益较少，而AudioGPT侧重于音频多模态的理解和生成。

2.与Siri等检索模式相比:与单纯检索和语音回复的检索模式相比，AudioGPT强大的生成式对话，使用户能够实时获取和处理与内容相关的音频。

3.与视觉任务GPT相比，图像中没有类似音频的语言分类，但音频中有不同的语言，如汉语、英语、法语等。AudioGPT也需要语言管理。

专有技术

当接收到用户的请求时，AudioGPT使用ChatGPT分析任务，根据语音基本模型中可用的功能描述选择模型，用选择的语音基本模型执行用户的指令，并根据执行结果总结响应。借助ChatGPT强大的语言能力和众多的基础语音模型，AudioGPT几乎可以完成语音领域的所有任务。

AudioGPT为语音的通用人工智能开辟了一条新路。AudioGPT的运行过程可以分为模态转换、任务分析、模型分配和回复生成四个阶段。

ChatGPT 充当大脑，指挥 AudioGPT 解决语音、音乐、音效等任务到目前为止，AudioGPT涵盖了语音识别、语音合成、语音翻译、语音增强、语音分离、音频字幕、音频生成、歌唱合成等任务。实验结果证明了AudioGPT在处理多模态信息和复杂人工智能任务方面的强大能力。

目前，多式联运物流管理层出不穷。可视化ChatGPT、HuggingGPT等模型越来越受到关注。然而，如何评价多模态LLM模型成为一大难点。为了解决这一难题，研究人员设计了多模态LLM性能评估的标准和流程。具体来说，AudioGPT建议从三个方面评估多模态LLM:

一致性:衡量AudioGPT是否正确理解了用户的意图，并为其分配了所需的模型能力；测量基本语音模型在其特定任务上的鲁棒性；衡量AudioGPT是否能正确处理一些极端的例子。为了一致性，研究人员设计了一套基于人工评估的流程。如下图所示:

ChatGPT 充当大脑，指挥 AudioGPT 解决语音、音乐、音效等任务为了稳定性，AudioGPT考察了每个基本语音模型在单一任务领域的表现。

ChatGPT 充当大脑，指挥 AudioGPT 解决语音、音乐、音效等任务对于鲁棒性，研究人员从四个方面进行了评估:

多轮对话的稳定性:多模态LLM应该能够处理上下文不支持的多轮对话和任务。目前，多模态LLM并不是万能的。当接收到一个无法解决的请求时，多模态LLM还应该给用户错误处理的反馈。多模态基本模型可能由于不同的原因而失败，例如不支持的参数或不支持的输入格式。在这种情况下，多模态LLM需要向用户提供合理的反馈，解释遇到的问题，并提出潜在的解决方案上下文中断:多模态LLM被期望处理不在逻辑序列中的查询。例如，用户可能在查询序列中提交一个随机查询，但是将继续执行具有更多任务的前一个查询。

网友热议

最后，项目只是开源，可以在Github和Huggingface中体验。对于这个新工具的诞生，网友们都很兴奋。有人说:

ChatGPT 充当大脑，指挥 AudioGPT 解决语音、音乐、音效等任务 AudioGPT是音频处理领域大语言模型的福利。