LPU是什么?LPU跟GPU有什么不同?
2024年2月,由谷歌TPU设计者Jonathan Ross创立的Groq公司发布新一代LPU,实测性能引发行业震动:在Meta Llama 2-70B推理任务中,其LPU相较英伟达H100实现10倍性能提升,推理成本降低80%。而LPU本质为减少计算中内存调用次数,从而实现推理效率的提升。对推理芯片而言,更高性能、更低成本的LPU,提供了一个新的技术路径选项。
LPU,全称 Language Processing Unitix,是一种专门为语言处理任务设计的硬件处理器。它与我们熟知的 GPU(Graphics Processing Unit,图形处理器)有着本质的区别。GPU 最初是为处理图形渲染任务而设计的,在并行计算方面表现出色,因此后来被广泛应用于人工智能领域的模型训练和推理。然而,LPU 则是专门针对语言处理任务进行优化的,旨在更高效地处理文本数据,执行诸如自然语言理解、文本生成等任务。
从硬件架构来看,LPU 有着独特的设计,采用了时序指令集计算机架构。同时,LPU 不需要芯片外内存,这是其区别于传统硬件架构的重要特点。传统的 GPU 在运行过程中,需要依赖高速的数据传输和大量的芯片外内存来存储和处理数据,这不仅增加了硬件成本,还可能在数据传输过程中产生延迟,影响系统性能。而 LPU 使用的是 SRAM(Static Random - Access Memory,静态随机存取存储器),其速度比 GPU 所用的存储器快约 20 倍。这种高速的内存使得 LPU 在处理数据时能够更快地读取和写入信息,大大提高了处理效率。
在能效方面,LPU通过减少多线程管理的开销和避免核心资源的未充分利用,实现了更高的每瓦特计算性能,在执行推理任务时,无需像GPU那样频繁从内存加载数据,消耗的电量也低于英伟达的GPU。
Groq公司作为LPU的重要推动者,公布的LPU性能令人惊叹。与当前行业内的领先模型相比,LPU展现出了巨大的优势。例如,在与GPT - 4的对比中,Groq的LPU比 GPT - 4 快18倍,在处理速度上达到了每秒500 token的惊人成绩,打破了行业纪录,其性能是英伟达GPU的10倍。而且,不同于英伟达GPU对高速数据传输和高带宽存储器(HBM)的依赖,Groq的LPU系统中没有采用HBM,而是通过优化的SRAM设计,实现了高效的数据处理。这种独特的设计使得LPU在保证高性能的同时,还降低了硬件成本和系统复杂性。这一突破也凸显了计算模式的潜在转变,即在处理基于语言的任务时,LPU 可以提供一种专业化、更高效的替代方案,挑战传统上占主导地位的GPU。
之所以DeepSeek如此受到关注,除了其在性能上的卓越表现外,还在于其具有强大的成本优势。DeepSeek模型厉害的地方在于,整个训练仅花费了557.6万美元,在2048xH800集群上运行55天完成。性能却能和OpenAI的顶尖模型ChatGPT-o1比肩,甚至在某些领域还强一点。
这笔费用是什么概念呢?Anthropic 的 CEO曾透露,GPT-4o这样的模型训练成本约为1亿美元。而目前正在开发的AI大模型训练成本可能高达10亿美元。他还预测,未来三年内,AI大模型的训练成本将上升至100亿美元甚至1000亿美元。换句话说,DeepSeek-V3的这个成本几乎可以忽略不计。
AI基础设施建设的巨额成本一直是阻挡AI大规模应用的绊脚石。DeepSeek-R1具备高性能、低成本、开源三大属性。DeepSeek-R1问世,其开源属性为企业提供了技术底座,如教育机构可基于开源代码定制学科知识库、教学场景交互逻辑等,人力资源机构也可针对招聘培训等垂直场景构建垂直助手。且DeepSeek-R1大模型单次训练和推理对算力的需求低,因此基于DeepSeek-R1二次训练的成本也更低,更有利于企业低成本训练及本地部署。简而言之,DeepSeek-R1的突破性发展,直接降低了AI应用的研发落地成本,将加速AI技术在各行业的渗透。
如果说,DeepSeek属于“核弹”级,那LPU就是“氢弹”级。据了解,美国Groq公司已经在自己的LPU芯片上实机运行DeepSeek,效率比最新的H100快上一个量级,达到每秒24000token。某种程度上,单纯靠堆砌硬件算力,实现智力的逻辑也将失效。随着硬件芯片制程逐渐到达瓶颈,后期人工智能主要靠算法和芯片架构优化推动。
而DeepSeek 与 LPU 的结合标志着 AI 算力领域的重要变革,特别是在大语言模型(LLM)推理场景中展现出显著的技术突破和市场潜力。这种结合使得大语言模型在处理速度、成本控制和应用范围等方面都有了新的突破,为人工智能的发展开辟了新的道路。