DeepSeek只是前菜，LPU才是王炸

时间：2025-02-14 02:01作者：

当下，人工智能蓬勃发展，创新技术不断涌出，整个行业正经历着一场意义深远的变革。

而这其中，DeepSeek和LPU的出现格外引人注目。DeepSeek凭借其卓越的性能和强大的成本优势，迅速在全球范围内圈粉无数，掀起了一股使用热潮。而LPU，作为专为语言处理任务量身定制的硬件处理器，以其区别于传统GPU的创新架构、令人惊叹的性能表现和超低的成本优势，成为了AI领域的新宠。

DeepSeek与LPU的结合，或许会为这场变革注入新的动力。

LPU是什么？

2024年2月，由谷歌TPU设计者JonathanRoss创立的Groq公司发布新一代LPU，实测性能引发行业震动：在MetaLlama2-70B推理任务中，其LPU相较英伟达H100实现10倍性能提升，推理成本降低80%。而LPU本质为减少计算中内存调用次数，从而实现推理效率的提升。对推理芯片而言，更高性能、更低成本的LPU，提供了一个新的技术路径选项。

LPU，全称LanguageProcessingUnitix，是一种专门为语言处理任务设计的硬件处理器。它与我们熟知的GPU（GraphicsProcessingUnit，图形处理器）有着本质的区别。GPU最初是为处理图形渲染任务而设计的，在并行计算方面表现出色，因此后来被广泛应用于人工智能领域的模型训练和推理。然而，LPU则是专门针对语言处理任务进行优化的，旨在更高效地处理文本数据，执行诸如自然语言理解、文本生成等任务。

从硬件架构来看，LPU有着独特的设计，采用了时序指令集计算机架构。同时，LPU不需要芯片外内存，这是其区别于传统硬件架构的重要特点。传统的GPU在运行过程中，需要依赖高速的数据传输和大量的芯片外内存来存储和处理数据，这不仅增加了硬件成本，还可能在数据传输过程中产生延迟，影响系统性能。而LPU使用的是SRAM（StaticRandom-AccessMemory，静态随机存取存储器），其速度比GPU所用的存储器快约20倍。这种高速的内存使得LPU在处理数据时能够更快地读取和写入信息，大大提高了处理效率。

在能效方面，LPU通过减少多线程管理的开销和避免核心资源的未充分利用，实现了更高的每瓦特计算性能，在执行推理任务时，无需像GPU那样频繁从内存加载数据，消耗的电量也低于英伟达的GPU。

Groq公司作为LPU的重要推动者，公布的LPU性能令人惊叹。与当前行业内的领先模型相比，LPU展现出了巨大的优势。例如，在与GPT-4的对比中，Groq的LPU比GPT-4快18倍，在处理速度上达到了每秒500token的惊人成绩，打破了行业纪录，其性能是英伟达GPU的10倍。而且，不同于英伟达GPU对高速数据传输和高带宽存储器（HBM）的依赖，Groq的LPU系统中没有采用HBM，而是通过优化的SRAM设计，实现了高效的数据处理。这种独特的设计使得LPU在保证高性能的同时，还降低了硬件成本和系统复杂性。

这一突破也凸显了计算模式的潜在转变，即在处理基于语言的任务时，LPU可以提供一种专业化、更高效的替代方案，挑战传统上占主导地位的GPU。

国产企业布局LPU

国产LPU当然也受到市场关注。

目前，清华系的无问芯穹已研发出全球首个基于FPGA（现场可编程逻辑门阵列）的大模型处理器，称其为无穹LPU，通过大模型高效压缩的软硬件协同优化技术，使得LLaMA2-7B模型的FPGA部署成本从4块卡减少至1块卡，并且性价比与能效比均高于同等工艺GPU，即展示「一张卡跑大模型」。

无问芯穹研发的端侧大模型推理处理器LPU采用异构计算技术。其核心目标是提供如水电煤般便捷的算力服务，解决当前市场中算力资源匮乏的问题。目前已通过适配多种AI芯片，实现不同模型高效并行处理，根据无问芯穹的内部测试数据，这款芯片在大规模模型推理场景中，算力成本下降高达90%，为国内算力之困开辟了一条前路。

据悉，无问芯穹成立于2023年5月，创始团队来自清华大学电子工程系，致力于成为大模型落地过程中的"M×N"中间层，以打造大模型软硬件一体化方案，链接上下游，建立AGI（通用人工智能）时代大模型基础设施。

DeepSeek利好上游，将推动AI大规模应用

2025年1月20日，DeepSeek正式发布DeepSeek-R1模型，在数学、代码、自然语言推理等任务上，性能成功比肩OpenAI-o1正式版，在1月24日国外大模型排名Arena上，DeepSeek-R1基准测试升至全类别大模型第三，在风格控制类模型分类中与OpenAI-o1并列第一，展现出强大的技术实力。仅仅一周后，DeepSeek在中国区及美区苹果AppStore免费榜均占据首位，成为首个同期在中国和美区苹果AppStore占据第一位的中国应用，用户量在短时间内迅速攀升，在全球范围内掀起了使用热潮。

DeepSeek发展速度之快令人咋舌，日活数据的增长堪称「火箭式」上升。前几日，DeepSeek的日活刚突破2000万，然而不到一周的时间，日活已经飙升至3000万，短短7天内用户增长一个亿。与之形成鲜明对比的是，曾经风靡全球的ChatGPT达到同样的用户增长规模需要2个月的时间。DeepSeek的快速崛起，彰显了其在人工智能领域的强大竞争力和市场吸引力。

随着DeepSeek用户的大规模增长，对上游做算力的公司产生了显著的利好影响。算力作为人工智能运行的基础支撑，是模型训练和推理得以实现的关键。DeepSeek的火爆意味着对算力的需求呈指数级增长，这为上游的算力供应商提供了广阔的市场空间。

值得一提的是，三家基础电信企业均全面接入DeepSeek开源大模型。这一举措不仅进一步推动了DeepSeek的广泛应用，还为电信企业自身的业务发展带来了新的机遇。电信企业拥有丰富的网络资源和庞大的用户基础，接入DeepSeek大模型后，可以将人工智能技术融入到通信服务、智能客服、大数据分析等多个业务领域，提升服务质量和用户体验，同时也为自身在人工智能时代的转型发展奠定了坚实的基础。

在市场层面，DeepSeek的成功也引发了资本的关注。大量的投资涌入与DeepSeek相关的产业链，从算力支持到算法优化，再到应用开发，各个环节都成为了资本追逐的热点。这不仅促进了相关企业的技术研发和业务拓展，还加速了整个行业的发展进程。

之所以DeepSeek如此受到关注，除了其在性能上的卓越表现外，还在于其具有强大的成本优势。DeepSeek模型厉害的地方在于，整个训练仅花费了557.6万美元，在2048xH800集群上运行55天完成。性能却能和OpenAI的顶尖模型ChatGPT-o1比肩，甚至在某些领域还强一点。

这笔费用是什么概念呢？Anthropic的CEO曾透露，GPT-4o这样的模型训练成本约为1亿美元。而目前正在开发的AI大模型训练成本可能高达10亿美元。他还预测，未来三年内，AI大模型的训练成本将上升至100亿美元甚至1000亿美元。换句话说，DeepSeek-V3的这个成本几乎可以忽略不计。由于OpenAI的大模型成本巨大，在美国政府的支持下，甚至发起了总投资5000亿美元的星门计划来建设AI设施。

高性能低价平权之下，LPU被看好

AI基础设施建设的巨额成本一直是阻挡AI大规模应用的绊脚石。

DeepSeek-R1具备高性能、低成本、开源三大属性。DeepSeek-R1问世，其开源属性为企业提供了技术底座，如教育机构可基于开源代码定制学科知识库、教学场景交互逻辑等，人力资源机构也可针对招聘培训等垂直场景构建垂直助手。且DeepSeek-R1大模型单次训练和推理对算力的需求低，因此基于DeepSeek-R1二次训练的成本也更低，更有利于企业低成本训练及本地部署。简而言之，DeepSeek-R1的突破性发展，直接降低了AI应用的研发落地成本，将加速AI技术在各行业的渗透。

如果说，DeepSeek属于「核弹」级，那LPU就是「氢弹」级。据了解，美国Groq公司已经在自己的LPU芯片上实机运行DeepSeek，效率比最新的H100快上一个量级，达到每秒24000token。某种程度上，单纯靠堆砌硬件算力，实现智力的逻辑也将失效。随着硬件芯片制程逐渐到达瓶颈，后期人工智能主要靠算法和芯片架构优化推动。

而DeepSeek与LPU的结合标志着AI算力领域的重要变革，特别是在大语言模型（LLM）推理场景中展现出显著的技术突破和市场潜力。这种结合使得大语言模型在处理速度、成本控制和应用范围等方面都有了新的突破，为人工智能的发展开辟了新的道路。

作为LPU的主要供应商，美半导体初创公司Groq也受到了投资市场的看好。据了解，目前该公司已获得沙特阿拉伯15亿美元的承诺投资，以支持Groq扩建位于沙特达曼的AI推理基础设施。Groq的达曼数据中心由该企业同石油巨头沙特阿美旗下子公司合作建设，目前该数据中心已包含19000个GroqLPU（语言处理单元），可向41个国家的40亿用户提供服务。

另一方面，这也对英伟达和其他美国人工智能科技公司造成打击，三星电子和SK海力士预计将在快速增长的人工智能(AI)内存芯片业务中面临越来越多的不确定性。而这两家公司主要生产用于英伟达GPU的HBM芯片。SK海力士1月份的数据比12月下跌了19.3%。这是自2023年4月该公司开发出全球12层HBM3芯片以来，环比跌幅最大的一次。

当LPU技术将AI创作成本降至消费级硬件可承载范围，普通人使用RTX显卡即可运行百亿参数模型时，UGC内容生产将迎来核爆式增长。这种生产力解放可能提前10年实现"人人都是创作者"的预言。

当LPU架构与神经拟态芯片结合后，个人设备的计算能力将得到质的飞跃。也许，未来的智能手机或笔记本电脑，借助这种技术，用户无需联网就能在本地快速运行复杂的语言模型，实现高效的个人工作流部署。

展开全部内容