您好,欢迎您来到国盈网!
官网首页 小额贷款 购房贷款 抵押贷款 银行贷款 贷款平台 贷款知识 区块链

国盈网 > 区块链 > a13的ai算力,a16平台

a13的ai算力,a16平台

区块链 岑岑 本站原创

原文由吉多·阿彭策勒、马特·博恩施泰因和马丁·卡萨多撰写。

EMC爱好者汇编

天价模型:高成本高时间的问题非常复杂,计算难度很大,所以AI本身的基础设施非常昂贵。

然而,对于Transformer,人们可以估计特定大小的模型将消耗多少计算和内存。因此,选择合适的硬件成为下一个考虑因素。

按照传统CPU的速度,在不使用任何并行架构的情况下,单个GPT-3的推理运算将需要32个小时。这个速度显然是不够的。

生成式人工智能需要对现有的人工智能基础设施进行大量投资。训练像GPT-3这样的模型是人类历史上计算最密集的任务之一。虽然GPU越来越快,开发者也找到了优化训练的方法,但是AI的快速扩张抵消了这两种影响。

AI基础设施:自己建还是花钱买?自建的内部和外部设施,如OpenAI,Hugging Face和副本托管模型服务,使创始人能够快速搜索产品和市场之间的契合度,而无需管理底层基础设施或模型。

这些服务的定价是基于消费的,因此通常比单独构建一个运营基础设施要便宜。

另一方面,训练新的基本模型或建立垂直整合的AI创业公司无法避免直接在GPU上运行自己的模型。因为模型其实是一个产品,团队寻找的是“模型-市场契合”;只有通过控制训练和推理,才能实现一些工作和/或大规模降低边际成本。无论哪种方式,管理基础设施都可以成为竞争优势的来源。

云VS数据中心在大多数情况下,云是最适合建立人工智能基础设施的地方。

例外情况:

(1)当运营规模很大时,运营自己的数据中心可能更划算。价格可能因地而异,但费用通常是>;五千万美元/年。

(2)云提供商无法提供你所需要的具体硬件,比如应用不广泛的GPU类型,内存、存储或网络需求异常等。

如何选择云服务提供商?价格:特定硬件上的计算能力是一种商品。虽然我们期望统一价格,但事实并非如此。在价格等级的顶端,大型公共云根据品牌声誉、经验证的可靠性和管理各种工作负载的需求收取溢价。较小的专业人工智能提供商可以提供更低的价格,要么通过运行专用数据中心(如Coreweave),要么套利其他云(如Lambda Labs)。

可用性:一般认为前三大云服务提供商的可用性最高,但很多初创企业发现不一定如此。大云有很多硬件,但也需要满足大量的客户需求。例如,Azure是ChatGPT的主要主机,它不断增加/租赁容量以满足需求。同时,英伟达致力于在全行业广泛提供硬件,包括向新的专业提供商分发硬件。

计算交付模式:由于GPU虚拟化的问题还没有解决,所以现在的大云只提供有专用GPU的实例。私有AI云提供了其他模型,如容器或批处理作业,它们可以处理单个任务,而没有实例的启动和反汇编成本。如果你对这种模式满意,它可以大大降低成本。

网络互联:对于模型训练,选择提供商时主要考虑网络带宽。需要节点间具有特殊结构的簇(如NVLink)来训练一些大型模型。对于图像生成AI来说,出口流量费可能也是一个主要的成本驱动因素。

如何选择GPU?训练和推理:大规模模型的训练是在机器集群上完成的。每台服务器最好有很多GPU,大量VRAM,服务器之间有高带宽连接。很多机型在NVIDIA H100上是性价比最高的,但是现在很难找到,通常需要一年以上的长期投入。现在NVIDIA A100可以运行大部分模型训练,而且容易接入,但是对于大型集群,可能需要长期投入。

内存要求:大型语言模型的参数计数太高,往往需要H100或A100,而较小的模型(如稳定扩散)需要的VRAM要少得多。虽然A100仍然很受欢迎,但许多初创公司已经开始使用A10,A40,A4000,A5000和A6000,甚至RTX卡。

硬件支持:目前,在A16Z的研究结果中,大部分工作负载都运行在NVIDIA上,但也有少数公司开始尝试其他厂商,如谷歌TPU和英特尔Gaudi2。模型性能通常高度依赖于这些芯片的软件优化可用性。

延迟网络要求:一般延迟敏感度较低的工作负载(例如批量数据处理)可以使用功能较弱的GPU,这样可以降低多达3-4倍的计算成本。另一方面,面向用户的应用通常需要高端卡来提供实时用户体验。通常需要优化模型,以便管理成本。

模型优化策略适用于广泛的模型;

(1)使用短浮点表示(即FP16或FP8和原FP32)或量化(INT8,INT4,INT2)可以实现加速,加速通常与比特数的减少成线性关系。

(2)通过忽略低值的权重来修整神经网络以减少权重的数量。

(3)另一套优化技术解决了内存带宽瓶颈(例如,通过对流式模型进行加权)。

针对特定模型的策略:稳定扩散在推理所需VRAM数量方面取得了很大进展。

针对具体硬件的优化:英伟达的TensorRT包含了很多优化,但只适用于英伟达硬件。

调度AI任务可能会带来性能瓶颈或提升。将模型分配给GPU以最小化权重交换,为任务选择最佳GPU(如果有多个GPU)并提前批处理工作负载可以最小化停机时间。

成本如何演变?在过去的几年中,模型参数和GPU计算能力呈指数级增长。

一般认为,参数的最佳数量与训练数据集的大小之间存在关系。当今最好的大语言模型是在Common Crawl(45亿网页的集合)上训练出来的。

录制视频或音频内容的想法也随之诞生,但尚未形成规模。目前,尚不清楚我们是否可以获得比已经使用的数据集大10倍的非合成训练数据集。

GPU性能会继续提升,但速度也会变慢。摩尔定律仍然完好无损,允许更多的晶体管和更多的内核,但功率和I输入/输出正在成为限制因素。

对计算能力的需求仍然会增加。即使模型和训练集的增长放缓,人工智能行业的增长和人工智能开发者数量的增加也会推动对更多更快GPU的需求。

LLM的培训成本在今天看起来可能像一条护城河,但羊驼和稳定扩散等开源模型表明,这些市场仍处于早期阶段,可能会迅速变化。

本网站声明:网站内容来源于网络。如有侵权,请联系我们,我们会及时处理。

温馨提示:注:内容来源均采集于互联网,不要轻信任何,后果自负,本站不承担任何责任。若本站收录的信息无意侵犯了贵司版权,请给我们来信(j7hr0a@163.com),我们会及时处理和回复。

原文地址"a13的ai算力,a16平台":http://www.guoyinggangguan.com/qkl/145175.html

微信扫描二维码关注官方微信
▲长按图片识别二维码