大型语言模型(LLMs)已经成为科技行业的热门话题,它为我们提供了一些惊人的体验——从在几秒钟内编写一周的代码,到生成一段比与人类对话更有同理心的对话。通过使用成千上万的GPU来训练万亿令牌的数据,LLMs展示了卓越的自然语言理解能力,改变了文案和代码领域,并将我们推向了一个令人兴奋的新的生成式AI时代。像任何新兴技术一样,生成式人工智能也受到了一些批评。虽然这些批评在一定程度上反映了LLMs当前能力的局限性,但我们将这些障碍视为进一步创新的机会,而不是技术上的本质缺陷。
为了更好地了解LLMs最近的技术突破,并为未来的创始人和经营者做好准备,我们与一些领先的生成式人工智能研究人员进行了交谈,他们正在积极构建和培训一些最大和最前沿的模型,包括Anthropic的首席执行官达里奥·阿莫代伊,Cohere的首席执行官艾丹·戈麦斯,Character的首席执行官诺姆·沙泽尔。AI和AI21实验室的Yoav Shoham。这些对话确定了未来的四个关键创新方向:定位、记忆、& # 8221;手脚& # 8221;和多式联运。在本文中,我们将讨论这些关键创新在未来6到12个月内将如何发展,以及对于有意将AI融入自己业务的创始人来说,如何利用这些新发展。
许多创始人担心在他们的产品和工作流程中使用LLM,因为这些模型可能会产生幻觉,重现偏见。为了解决这些问题,一些领先的模型公司正在努力改进指导技术-一种在LLMs输出中更好地控制模型结果并使模型更好地理解和实现复杂用户需求的方法。Noam Shazeer提到了LLMs和儿童在这方面的相似之处:“这是一个如何更好地指导[模型]的问题& # 8230;我们在LLM中面临的问题是,我们需要正确的方式来告诉他们如何按照我们的要求行事。孩子也是一样——他们有时会胡编乱造,对幻想和现实没有清晰的认识。”虽然在Guardrails和LMQL这样的模型提供者和工具出现之后,在引导能力上有了显著的进步[1],但是研究人员仍然在不断进步,我们认为这对于LLM更好地为终端用户产品化非常重要。
在企业中,改进的导向尤为重要,因为不可预测行为的后果可能是昂贵的。Amodei指出,LLM的不可预测性会让人感到不安。作为API提供者,他希望“对客户说‘不,模型不会这样做’,或者至少很少这样做。”通过提高LLM的产量,创始人可以更有信心确保模型的性能满足客户的需求。改进后的定位也将为其他需要更高准确性和可靠性的行业广泛采用铺平道路,如广告风险高的广告业。Amodei还认为,改进后的定向可以应用于“法律用例、医疗用例、存储财务信息和管理财务赌注,以及需要保护公司品牌的场景。”您不希望您正在集成的技术变得不可预测或难以预测或描述。“通过更好的指导,LLM也可以通过一些提示完成更复杂的任务,因为他们将能够更好地理解整体意图。
LLMs定位技术的进步也为敏感的消费者应用开辟了新的可能性,在这些应用中,用户期望定制和准确的响应。虽然用户在与LLM交谈或创建交互时可能会容忍不太准确的输出,但当用户使用LLM来协助日常任务、指导重要决策或加强生活教练、治疗师和医生等专业人士时,他们希望获得更准确的输出。有人指出,LLMs有望取代搜索等流行的消费者应用,但在这成为现实可能性之前,我们可能需要更好的指导来提高模型输出和建立用户信任。
关键突破:用户可以更好地定制LLMS的输出。
记忆驱动的文案和广告生成应用取得了巨大的成功,LLM很快在营销人员、广告商和企业家中流行起来。然而,目前大多数LLM的输出都比较一般化,这使得它们很难用在需要个性化和情景理解的用例中。虽然cue工程和微调可以提供一定程度的个性化,但cue工程的可扩展性很差,并且微调通常很昂贵,因为它需要一定程度的再培训,并且通常需要与大多数闭源LLM密切合作。为每个用户微调模型通常是不可行或不可取的。
情境学习(Context learning)是实现这一目标的圣杯,其中LLMs从你公司生成的内容、你公司的特定行话和特定情境中获取信息,为特定用例创建更精细的输出。为了实现这一目标,LLMs需要增强记忆能力。LLM内存有两个主要组件:上下文窗口和检索。上下文窗口是模型可以处理并用来指导其输出的文本,除了它在其中被训练的数据语料库。检索是指从模型的训练数据语料库之外的数据体中检索和引用相关信息和文档(“上下文数据”)。目前大多数LLM的上下文窗口有限,无法检索附加信息,因此生成的输出缺乏个性化。然而,有了更大的上下文窗口和改进的检索,LLMs可以直接为单个用例提供更详细的输出。
特别是通过扩展上下文窗口,模型将能够处理更大量的文本,并更好地维护上下文,包括维护对话中的连贯性。这将进一步显著提高模型在需要更深入理解长输入的任务中的能力,例如总结长文章或在长对话中生成连贯和上下文准确的响应。在上下文窗口方面,我们看到了显著的改进——GPT-4的上下文窗口标记为8k和32k,相比之下,GPT-3.5和ChatGPT的上下文窗口分别标记为4k和16k,Claude最近将其上下文窗口扩展到了惊人的100k标记[2]。
仅仅扩大上下文窗口并不能完全提高记忆,因为推理的成本和时间与提示的长度存在准线性甚至二次关系。[3]检索机制通过与提示相关的上下文数据,增强和完善了LLM的原始训练语料。因为LLMs是在一个信息体上训练的,并且通常很难更新,所以根据Shoham的说法,检索的两个主要好处是:“首先,它允许你访问在训练期间不可用的信息源。其次,它允许你将语言模型集中在你认为与任务相关的信息上。”向量数据库(如松果)已经成为高效检索相关信息的事实标准,作为LLMs的存储层,更便于模型在海量信息中快速准确地搜索和引用正确的数据。
新增的上下文窗口和检索在企业用例中尤其重要,比如导航大型知识库或复杂数据库。公司将能够更好地利用其专有数据,如内部知识、历史客户支持账单或财务结果,作为LLM的输入,而无需微调。提高LLMs的内存将在培训、报告、内部搜索、数据分析和商业智能以及客户支持等领域带来改进和深度定制。
在消费者领域,改进的上下文窗口和检索将实现强大的个性化功能,从而创新用户体验。Noam Shazeer认为:“主要突破之一将是开发一种具有非常高存储容量的模型,可以为每个用户定制,同时在规模上仍具有成本效益。你希望你的治疗师了解你生活的方方面面;你希望你的老师知道你已经知道的东西;你想要一个生活教练给你关于正在发生的事情的建议。他们都需要语境。”Aidan Gomez也对这一发展感到兴奋。“通过让模型访问你独有的数据,如你的电子邮件、日历或直接消息,”他说,“模型将了解你与不同人的关系,以及你如何与朋友或同事交谈,并在这种情况下最大程度地帮助你。”
关键突破:LLMs将能够考虑大量相关信息,并提供更加个性化、定制化和有用的输出。
“胳膊和腿”:赋予模型使用工具的能力。LLMs的真正力量在于让自然语言成为行动的媒介。LLMs对常见的和有良好文档记录的系统有复杂的理解,但是它们不能执行从这些系统中提取的任何信息。比如OpenAI的ChatGPT,Anthropic的Claude和Character AI的Lily,他们可以详细描述如何预订航班,但他们自己不能预订航班(虽然ChatGPT的插件等技术进步正在推动这种边界)。Amodei说:“这个大脑在理论上拥有所有这些知识,但它缺乏从名称到按钮的映射。”他说:“连接这些电缆不需要太多训练。你有一个脱离实体的大脑,它知道如何移动,但它没有连接到胳膊和腿。”
随着时间的推移,我们看到该公司不断提高LLMs使用工具的能力。像必应和谷歌这样的老牌公司以及像困惑和You.com这样的初创公司已经推出了搜索API。AI21实验室推出了Jurassic-X,通过将模型与一套预定的工具(包括计算器、天气API、* ****API和数据库)相结合,解决了独立LLM的诸多缺陷。OpenAI已经推出了ChatGPT的插件测试版,允许ChatGPT与Expedia、OpenTable、Wolfram、Instacart、Speak、web浏览器和代码解释器等工具进行交互。这一突破被认为类似于苹果的“应用商店”时刻。最近,OpenAI在GPT 3.5和GPT 4中引入了函数调用,允许开发人员将GPT的功能与任何外部工具联系起来。
通过从知识挖掘转向面向行动,增加胳膊和腿的能力有望在各种公司和用户类型中实现一系列用例。对于消费者来说,LLMs可能很快就可以建议食谱,然后点你需要的食材,或者建议一个早午餐的地方,并为你预留一张桌子。在企业领域,创始人可以通过访问LLM使他们的应用程序更容易使用。正如Amodei指出的那样:“对于从用户界面的角度来看非常难以使用的功能,我们可能只需要用自然语言来描述它们,就可以实现复杂的操作。”例如,对于Salesforce等应用程序,LLM集成应该允许用户用自然语言进行更新,并使模型自动进行这些更改,从而大大减少维护CRM所需的时间。像Cohen [5]和Adept[6]这样的初创公司正在努力将LLM集成到这样复杂的工具中。
戈麦斯认为,尽管两年内LLMs使用Excel等应用程序的可能性越来越大,但“仍有大量细化工作要做。我们会有第一代可以使用工具的模型,会很抢眼,但是很脆弱。最终,我们会得到梦的系统。我们可以把任何软件给模型加上一些描述,比如‘这是工具的功能,怎么用’,它就能使用。一旦我们能够为LLMs提供特定的通用工具,它所带来的自动化将成为我们领域的巅峰。”
关键突破:LLM将能够更有效地与我们今天使用的工具进行交互。
多模态虽然聊天界面对许多用户来说是令人兴奋和直观的,但人类听和说语言的频率可能等于或高于写或读语言的频率。正如Amodei指出的:“AI系统能做的是有限的,因为不是所有东西都是文本。”具有多模态功能的模型可以无缝地处理和生成各种音频或视频格式的内容,并将这种交互扩展到语言以外的领域。GPT-4等型号,性格。AI和Meta的ImageBind已经可以处理和生成图像、音频等模式,但是这方面的能力还是比较基础的,虽然进步很快。用戈麦斯的话来说,我们的模式今天简直是盲目的,这需要改变。我们已经建立了许多用户应该看到的图形用户界面(GUI)。
随着LLM的发展,可以更好地理解多种模态并与之交互,它们将能够使用依赖GUI的现有应用程序,比如浏览器。它们还可以为消费者提供更加迷人、连贯和全面的体验,使用户能够在聊天界面之外进行互动。Shazeer指出:“多模态模型的许多优秀集成可以使事物更具吸引力,与用户的联系更紧密。”他还说:“我认为目前大部分核心情报来自文字,但音频和视频可以让这些东西变得更有趣。”从与人工智能导师视频聊天到与人工智能合作,再到迭代和编写电视脚本,multimodal有可能改变各种消费者和企业用例的娱乐、学习和开发以及内容生成。
多模态与工具的使用密切相关。虽然LLM最初可能通过API与外部软件连接,但multimodal将使LLM能够使用为人类使用而设计的工具,而无需定制集成,例如传统的企业资源规划(ERP)系统、桌面应用程序、医疗设备或制造机械。在这方面,我们看到了令人兴奋的进展:例如,谷歌的Med-PaLM-2模型可以合成乳房x光照片和x光图像。并且从长远来看,多模态(尤其是与计算机视觉的融合)可以通过机器人、自动驾驶汽车和其他需要与物理世界实时交互的应用,将LLM扩展到我们自己的物理现实中。
关键突破:多模态模型无需大的定制即可推断图像、视频甚至物理环境。
尽管LLMs有一些实际的局限性,但研究人员在短时间内对这些模型进行了惊人的改进。其实我们写这篇文章的时候已经更新过很多次了,证明了这个领域技术的飞速发展。戈麦斯也表示赞同:“LLM显然太高了,20次才有一次捏造事实。但是我确信这是我们第一次建立这样的系统。人们的期望值相当高,所以目标从‘计算机很笨,只会做数学’变成了‘一个人可能做得更好’。我们已经弥合了足够的差距,以至于批评集中在人类能做什么。”
我们对以下四项创新感到特别兴奋,它们正处于改变企业家制造产品和经营公司方式的关键时刻。长远来看,潜力更大。Amodei预测:“在某个时候,我们可能会有一个可以读取所有生物数据的模型,并找到癌症的治疗方法。”现实是,最好的新应用程序可能仍然是未知的。在性格上。AI,Shazeer让用户开发这些用例:“我们将看到许多新的应用程序解锁。我很难说出这些应用是什么。将会有数百万个应用程序,用户比少数工程师更善于发现如何使用技术。”我们迫不及待地想看到这些进步将如何影响我们作为企业家和公司的生活和工作方式,因为这些新工具和能力给了我们新的力量。
本网站声明:网站内容来源于网络。如有侵权,请联系我们,我们会及时处理。
温馨提示:注:内容来源均采集于互联网,不要轻信任何,后果自负,本站不承担任何责任。若本站收录的信息无意侵犯了贵司版权,请给我们来信(j7hr0a@163.com),我们会及时处理和回复。
原文地址"人工智能生成物是作品吗,人工智能生成设计图":http://www.guoyinggangguan.com/qkl/142258.html。

微信扫描二维码关注官方微信
▲长按图片识别二维码