A16z投资人与四家前沿AI创业公司的CEO探讨了LLM未来的发展方向。
包括:达里奥·阿莫代伊;,Anthropic的CEO艾丹·戈麦斯;Cohere首席执行官;诺姆·沙泽尔;,人品CEO。AI;还有AI21实验室的约夫·肖汉姆。
他们总结了四个核心方向:
尽量解决错觉问题,把好方向盘,用更大更精准的记忆解决方案解决从知识到推理到行动的个性化问题,教会模型使用多模态工具,让模型具备真正的通用能力。紧紧握住方向盘因为大模型仍然存在错觉问题,所以许多企业家对在产品和工作流程中使用LLM持谨慎态度。
为了解决这个问题,专注于模型输出,并帮助模型更好地理解和实现复杂的用户需求,核心模型公司正在试图改进控制LLM输出的方法,他们称之为转向。
Shazzer,字符的首席执行官。AI把LLM比作孩子。“这是一个如何更好地引导模式的问题。我们需要正确的方式来告诉模特如何做我们想做的事情。孩子也是如此。有时他们会编造一些东西,对幻想和现实没有确切的把握。」
现在已经有了一些研究成果和工具,比如Guardrails和LMQL,但是研究还在进行中。a16z认为,这个方向是开发者更好实现LLM产品化的关键。
提高操控性对企业来说非常重要。Anthropic &的创始人;CEO Amodei认为LLM的不可预测性让人感到不安。作为API提供者,他希望对用户说“不,模型不会那样做”,或者至少“很少那样做”。
通过改进LLM的输出,开发人员可以在匹配模型性能和客户需求方面获得更多的信心。
转向的改进也将有助于其他需要准确性和可靠性的行业,如广告等。
“从法律场景、医疗场景、保存财务信息和管理财务风险,到需要保护公司品牌的地方,在这些场景中,你肯定不想使用的技术是不可预测或难以预测和描述的。」
通过改进转向,LLM可以用更少的提示完成更复杂的任务,因为它们将能够更好地理解用户的意图。
对LLM输出的更好控制也可以在一些敏感的C端应用中打开模型的可能性。用户期望个性化和准确的响应。
虽然用户在与LLM对话或生成一些创意内容时,可能会容忍不准确的输出,但用户希望在使用LLM帮助他们在日常任务中为重大决策提供建议或扮演生活教练、治疗师和医生的角色时,能够获得更准确的输出。
LLM能否真正取代搜索等互联网时代根深蒂固的工具和产品,可能取决于他们能否做好转向,提高产出,建立用户信任。
“记忆”难题的目标是个性化语境,语境的能力是亟待解决的短板,限制了“个性化”。
虽然提示和微调可以实现一定程度的个性化,但前者很难批量化,而后者价格昂贵,需要重新培训,而且往往不得不与闭源LLM厂商密切合作。这对于小团队和个人用户来说几乎是不可能的。
情境学习(Context learning),LLM从企业内容、术语或特定情境中学习的能力是圣杯,它可以创建与特定需求场景相匹配的更精细化的输出。
为了解锁上下文能力,LLM需要更多的记忆和记忆能力。
LLM的记忆由两个主要部分组成:上下文窗口和检索。
上下文窗口不仅仅是训练数据,还“喂养”模型,让它处理和输出其中的信息。
检索是从模型训练数据语料库之外的数据体中检索相关信息和文档(上下文数据)。
目前大部分LLM的上下文窗口有限,本地无法检索到其他信息,因此生成的内容不够个性化。然而,通过更大的上下文窗口和改进的检索,LLM可以直接提供更适合个人场景的精细输出。
特别是通过扩展上下文窗口,模型将能够处理更多的文本,并在对话中更好地保持上下文能力和保持连续性。
这将进一步显著提高模型执行一些需要深入理解和更长时间输入的任务的能力,例如总结长文章和在扩展对话中生成连贯和情境化的答案。
上下文功能的改进正在进行中。GPT-4有8k和32k的上下文窗口,而GPT-3.5和ChatGPT只有4k和16k的令牌能力。
克劳德最近把他的语境能力扩展到了100k token。
但是,仅仅扩大上下文长度并不能完全提高记忆能力,因为推理的成本和时间是随长度变化的,规模增长几乎是线性的,甚至是二次的。
检索机制通过最相关的上下文数据来增强和完善LLM的原始训练语料。AI21实验室的创始人Shoham说,因为LLM信息通常很难更新,所以检索有两个优点。“首先,它能让你接触到训练时没有的信息源;其次,它可以使模型专注于与任务相关的信息。」
向量数据库已经成为高效检索相关信息的(事实上的)标准,并且作为大型模型的存储层,使模型能够更快、更快、更准确地进行搜索,在海量信息中引用正确的数据。
扩展的上下文窗口和检索机制对于企业使用场景将非常有价值,例如浏览大型知识库或复杂数据库。该公司将能够更好地利用其专有数据,如内部知识、历史客户记录或财务结果,作为大模型的输入,而无需精细调整。
提高大型模型的记忆将带来培训、报告、内部搜索、数据分析和商业智能以及客户支持等领域的改进和深度定制。
在消费者领域,改进后的上下文窗口和检索机制将实现强大的个性化功能,从而彻底改变用户体验。
诺姆·沙泽尔(Noam Shazeer)认为,“重要的突破之一将是开发一种具有高存储容量的模型,以便大规模地定制每个用户,并以具有成本效益的方式提供服务。你希望你的心理医生了解你生活的方方面面;你希望你的老师知道你已经知道的东西;你希望生活指导能给你建议。他们都需要语境。」
Aidan Gomez对这一发展同样感到兴奋。“通过让模型访问与你个人相关的数据,如电子邮件、日历或消息,模型将了解你与不同人的关系以及你与朋友或同事沟通的方式,并帮助你在这种情况下实现最大的有效性。」
从知识到行动,让模型学会使用工具。大模型的真正力量在于让自然语言成为行动的媒介。
大型模型对常用的和有良好文档记录的系统有复杂的理解,但是它们不能执行从这些系统中提取的任何信息。
比如OpenAI的ChatGPT,Anthropic的Claude,Character AI的Lily都可以详细描述如何订机票,但是他们自己不能直接订机票(虽然ChatGPT这样的插件已经开始解决这个问题)。
Amodei说:“理论上,大模型中有一个大脑拥有所有这些知识,但它缺乏具体操作指令(名称)和实际执行步骤(按下按钮)之间的映射关系。连接不同的组件不需要太多的培训。大模型本身就像一个没有实体的大脑。它对如何操作有了理论上的认识,却没有实际的执行工具,就像没有连接的手和脚。」
我们已经看到公司不断提高他们使用大型模型工具的能力。像必应和谷歌这样的老牌公司以及像困惑和You.com这样的初创公司引入了搜索API。AI21实验室引入了Jurassic-X,通过将模型与一系列预定工具(包括计算器、天气API、wiki API和数据库)相结合,解决了独立大模型的诸多缺陷。
OpenAI推出了插件,使ChatGPT能够与Expedia、OpenTable、Wolfram、Instacart、Speak、web浏览器和代码解释器等工具进行交互。这一突破被比作苹果的“应用商店”时刻。最近,OpenAI还在GPT-3.5和GPT-4中引入了函数调用功能,使开发者能够将GPT的功能与任何外部工具联系起来。
把重心从知识挖掘转移到行动导向,就可以给各种公司和用户类型加上“手”和“脚”,打开一系列应用场景。
对于消费者来说,大模型可能很快就可以提供食谱建议,然后点所需的食材,或者给出早午餐地点的建议,并预订桌子。
对于企业来说,创始人可以通过接入大模型让自己的应用更容易使用。
正如Amodei所指出的,“对于从用户界面角度来看非常难以使用的功能,我们或许可以简单地通过自然语言描述来实现复杂的操作。」
例如,对于Salesforce等应用程序,大型模型集成应该使用户能够用自然语言进行更新,并相应地自动更改模型,从而大大缩短维护CRM所需的时间。Cohere和Adept这样的初创公司正在努力将大模型集成到这些复杂的工具中。
戈麦斯认为,虽然大模型可能在两年内使用Excel等应用程序,但仍需要一系列改进。
“我们将拥有第一代可以使用工具的模型,这很迷人,但也非常敏感。最终得到一个理想的系统,可以把任何软件交给模型,并提供一些关于“这是工具的功能,这是如何使用的”的描述,让模型使用这些软件。一旦我们能够为大模型提供特定的、通用的工具,它所释放的自动化能力将成为我们领域的明星产品。」
多模态语言模型并不是一个真正的通用模型。虽然聊天界面对许多用户来说非常直观,但人们听和说语言的频率要高于读和写。
正如Amodei所指出的,“AI系统能做的是有限的,因为不是所有的内容都是文本”。
具有多模态功能或能够无缝处理和生成多种音频或视频格式的模型可以将交互推至语言之外。
GPT-4等型号,性格。AI和Meta的ImageBind已经可以处理和生成图像、音频等模式,但他们这一代的质量还停留在非常基础的水平(虽然模型在不断改进)。
正如戈麦斯所说,“我们的模型在直接处理视觉信息方面还有欠缺,需要改进。目前,我们已经建立了许多图形用户界面(GUI),但这些界面都是在用户可以看到的前提下设计的。」
随着大规模模型的演变,多模态能力将继续加强。无论是理解还是交互,他们都将能够使用依赖GUI应用的现有应用(如浏览器)。它们还可以为用户提供更迷人、更互联、更全面的体验,用户将能够在聊天界面之外进行互动。
Shazeer指出:“与多模态模型的集成可以使体验更加有趣,与用户的联系更加紧密。他还说:“我相信目前大部分的核心情报来自文字,但音频和视频可以让体验变得更有趣。从与AI导师的视频聊天到与AI共同编写脚本,多模态技术具有改变娱乐、学习和发展以及内容生成的潜力,适用于各种消费者和企业应用场景。
多模态也与工具的使用密切相关。虽然大模型最初通过API与外部软件连接,但多模态将使大模型能够使用为人类设计的工具,而无需定制集成,如传统的企业资源规划(ERP)系统、桌面应用程序、医疗设备或制造机械。
在这方面,我们看到了令人兴奋的发展成果:例如,谷歌的Med-PaLM-2模型可以合成乳房x光片和乳房x光片。而且从长远来看,多模态,尤其是与计算机视觉的融合,可以通过机器人、自动驾驶等需要与物理世界实时交互的应用,将大型模型扩展到物理现实中。
虽然大型模型存在一些局限性,但研究人员在短时间内对这些模型进行了惊人的改进——事实上,自从写这篇文章以来,我们要多次更新文章,这证明了这项技术正在取得快速进步。
戈麦斯也表示赞同:“一个大模特20次中有一次捏造事实的概率显然太高了。但是我非常有信心,因为这是我们第一次建立这样的系统。人们的期望值相当高,所以目标已经从“计算机笨到只会进行数学运算”提升到“像人一样做得更好”。“我们成功地缩小了人和机器之间的差距,以至于现在的批评都集中在计算机能否达到人类的水平上。」
我们对以下四项创新感到特别兴奋,它们将很快改变企业家制造产品和经营公司的方式。长远来看,潜力更大。
Amodei预测:“在某个时候,我们可能会有一个模型,可以通过读取所有的生物数据来找到癌症的治疗方法。」
其实最好的新应用还是未知数。
在性格上。AI,Shazeer要求用户开发这些应用场景:“我们将会看到许多新的应用发布。我很难说出这些应用是什么。将会有成千上万的应用程序,大多数用户比少数工程师更善于发现如何使用这项技术。」
我们不能等待这些进步对我们的生活和工作方式产生深远的影响,企业家和公司将通过这些新的工具和能力实现强大的赋能。
本网站声明:网站内容来源于网络。如有侵权,请联系我们,我们会及时处理。
温馨提示:注:内容来源均采集于互联网,不要轻信任何,后果自负,本站不承担任何责任。若本站收录的信息无意侵犯了贵司版权,请给我们来信(j7hr0a@163.com),我们会及时处理和回复。
原文地址"ana独角兽,aimer独角兽":http://www.guoyinggangguan.com/qkl/142256.html。

微信扫描二维码关注官方微信
▲长按图片识别二维码