GPU推理时代终结？世界最大芯片加持推理狂飙20倍英伟达H100也被干趴-中国建造师信息网

GPU推理时代终结？世界最大芯片加持推理狂飙20倍英伟达H100也被干趴

时间:2024-08-29 08:26来源:未知作者:未知点击:

　　LLM若以每秒1000+token高速推理，当前最先进的GPU根本无法实现！Cerebras Inference一出世，推理速度赶超英伟达GPU，背靠自研的世界最大芯片加持。而且，还将推理价格打了下来。

　　曾造出世界最大芯片公司Cerebras，刚刚发布了全球最快的AI推理架构——Cerebras Inference。

　　而现在，直接从90 token/s跃升到1800 token/s，相当于从拨号上网迈入了带宽时代。

　　更进一步说，大模型每个生成的单词，都必须通过整个模型进行处理，即所有参数必须从内存投入到计算中。

　　也就是，生成100个单词需要100次处理，因为「下一词」的预测，皆需要依赖前一个单词，而且这个过程无法并行。

　　而若要实现即时推理，需要达到1000 token/s或140 TB/s，这远远超过任何GPU服务器/系统内存带宽。

　　这完全是大错特错，更多的处理器只会增加系统的吞吐量（给出更长响应），并不会加速单个查询的响应时间。

　　一直以来，这家公司就致力于打造世界上最大芯片，希望将整个模型存储在一个晶片上，以此来解决内存带宽瓶颈。

　　凭借独特的晶圆设计，WSE-3单个芯片上便集成了44GB SRAM，具备21 PB/s的内存带宽。

　　与小型AI芯片相比，芯片上内存多了约200倍，支持从1-100的批大小，使其在大规模部署时，具有极高的成本效益。

　　如果模型参数超过单个晶圆的内存容量时，研究人员将在「层边界」将其拆分，并映射到多个CS-3系统上。

　　官方表示，未来几周，将会测试更大参数版本的模型，比如Llama3-405B、Mistral Large。

　　通过评估，16位模型准确率比8位模型，高出多达5%。尤其是在，多轮对话、数学和推理任务中表现更好。

　　目前，Cerebras Inference可通过聊天平台，以及API访问，任何一个人可随时体验。

　　基于熟悉的OpenAI Chat Completions格式，开发者只需更换API密钥即可集成强大的推理功能。

　　它是唯一能即时运行Llama3.1-70B的方案，可实现450 token/s，同样使用的是原始16位模型权重。

　　在此，Cerebras送上大福利，每天为开发者们提供100万个免费token。对于大规模部署，其定价只是H100云的一小部分。

　　首次推出时，Cerebras提供了Llama3.1 8B和70B模型，而且有能力每天为开发者和企业，提供数千亿token。

　　通常，LLM会即刻输出自己的全部想法，而不考虑最佳答案。而诸如scaffolding（脚手架）这类的新技术，则如同一个深思熟虑的智能体，会在作出决定前探索不同的可能解决方案。

　　这种「先思考后发言」的方式在代码生成等严苛任务中，可以带来超过10倍的性能提升，从根本上提升了AI模型的智能，且无需额外训练。

　　因此可见，如果我们能大幅缩短处理时间，那么就可以实现更为复杂的AI工作流程，进而实时增强LLM的智能。

(责任编辑：)

关键词:

随机推荐