高算力芯片的算力如何计算和普通芯片的算力如何计算有什么区别?

展望未来,XPU市场将呈现百花齐放的局面,各种芯片在各自的赛道发挥自身独特的价值。同时各种计算架构之间在聚焦自身优势的同时,也在相互融合协同,形成了“你中有我,我中有你”的局面。

2021年开年虽然业界面临“缺芯”问题,但是众多半导体厂商的新品发布却是此起彼伏,“你方唱罢我登场”。

英特尔发布用于数据中心的第三代至强可扩展处理器Ice Lake以及其产品组合

AMD EPYC进化到代号“米兰”的第三代

Arm 发布最新一代架构Arm v9,更早些时候Arm推出了面向数据中心的Neoverse平台

一时间,原本泾渭分明的数据中心芯片市场变得错综复杂,XPU(CPU、GPU、DPU等各种服务器处理器的统称)成为半导体芯片厂商竞争的新赛道,一条清晰的竞争主线也逐渐明显——各大芯片企业都在构建自己的多元化产品能力。

半导体巨头们围绕XPU展开了积极布局的同时,在市场驱动下,各个细分领域的XPU厂商也纷纷发力,APU、TPU、IPU等各种加速芯片百花齐放,地平线、寒武纪、中科驭数等厂商涌现。特别是在外部断供以及国产化趋势下,国产厂商也迎来发展契机,比如龙芯、飞腾、鲲鹏等在积极构建产品与技术生态。

面对层出不穷的XPU,站在更为宏观的视角看,这已经不简单只是厂商之间的技术、产品、市场之争,其背后代表了一种对先进生产力之间的追逐。

人类社会每一次科技跃迁,其本质都是计算力的突破与进化,每一次新文明的进阶,都是计算方式和载体变迁带来社会效率提升的结果。如果说在工业时代电力是基础设施,是经济社会发展的动力保障,那么,随着人类社会迈入数字经济时代,算力正在扮演相似角色。

根据中国信息通信研究院今年发布的《中国数字经济白皮书》,2020年中国数字经济规模达到39.2万亿元人民币,占GDP比重为38.6%。数字经济的基础是对数据进行处理,也就是利用大大小小各种规模的数据中心——从几十台服务器的小规模数据中心到几十万到上百万台规模的超大型数据中心提供的算力,运行各种软件来提供各种服务以支撑企业的生产经营和消费者的各种消费服务。由于计算力的大小代表了对数据处理能力的强弱,因此,计算力自然成为数字经济的核心要素,是核心生产力。

IDC发布的《2020全球计算力指数评估报告》也表明,计算力与经济增长紧密相关,计算力指数平均每提高1个点,数字经济和GDP将分别增长3.3‰和1.8‰。

当前,各个国家的数字经济占比将持续提升,而数字经济和算力需求处于循环增强的状态,同时,新兴技术的投入与算力投入相关性极高,算力为新兴技术应用提供基础保障,新兴技术的发展进一步推动算力提升,其中物联网、人工智能和大数据的相关性最为显著,新兴技术和算力呈现相互拉动效应。

正是看到了算力在数字经济发展中的重要作用,全国一体化算力网络国家枢纽节点建设也于近期正式启动,其将成为中国数字经济发展的新基座。

总之,算力不仅仅是一个技术指标,而是先进生产力的代表。未来,算力与数字经济共促共进的关系将进一步强化:即算力不断发展推动数字经济持续向前,数字经济持续向前加重对算力的支撑依赖,“算力经济时代”正在到来。

计算场景多样化催生XPU

站在产业格局看,芯片厂商令人眼花缭乱的市场活动背后是它们对数据中心市场的野心,而这野心又归结为看上计算场景的复杂多元化带来的市场机会。

从超算系统到桌面到云到终端,都离不开各种不同类型指令集和体系架构的计算单元,如CPU、GPU、DSP、ASIC、FPGA等。由于各种不同的处理器采用不同的架构和不同指令集使得它们在处理具体计算场景是有着不同的表现,导致计算多元化的出现。

比如,GPU芯片是单指令、多数据处理,采用数量众多的计算单元和超长的流水线,主要处理图像领域的运算加速;FPGA适用于多指令,单数据流的分析,可提供强大的计算力和足够的灵活性;ASIC是为实现特定场景应用要求时,而定制的专用AI芯片,在功耗、可靠性、体积方面都有优势,尤其在低功耗的移动设备端,基于以上优势,ASIC芯片更多的用于端或边缘侧。

其实,计算多元化是早已有之,比如x86取代IBM Power、HP PA-RISC、Sun SPARC成为数据中心霸主。但是随着深度学习崛起,GPU受到重视,在数据中心呈现出强劲的增长趋势。同时,Arm服务器、RISC-V的崛起,又使得数据中心开始了新的多元化进程。

芯片多元化的背后是应用场景的复杂化导致通用计算技术和通用芯片越来越不能满足业务需求,特别是新涌现的计算场景对于计算芯片指令集、架构的要求是不一样的,这样就导致之前一直使用的通用CPU已经无法满足多元化计算场景要求,这也是计算芯片的种类越来越多的重要原因,而CPU+GPU、CPU+FPGA、CPU+GPU+FPGA等组合效能更好,通用计算被迫向异构计算演进。

比如,海量数据的处理需要更高密度的计算能力,而通用计算在效能上明显不能满足要求。一方面,采用通用处理器需要更多处理器,成本高昂;另一方面,更多处理器带来更高发热,带来了更多的制冷需求,这些最终都指向了高成本,而在某些场景下(如一些人工智能)GPU、FPG比CPU具有更高的性价比,而在一些细分的人工场景下AI专用芯片比GPU、FPG的表现还要优异,比如IPU处理稀疏矩阵的数据类型时效能就有明显优势。

芯片种类多的另外一个原因是芯片代工模式的普及,现在芯片设计、制造的关键环节都有开源开放的软件、工具或代工企业可以利用,例如RISC-V,这也推动了更多创新厂商切入芯片领域。

腾讯云异构计算研发副总监宋吉科认为,异构计算崛起的主要原因两个:人工智能类应用的崛起,工作负载类型多样更加多样化,对应芯片架构需要量身定制;从互联网到移动互联网,芯片产业的供应链也在发生变化,特别是Arm的IP设计模式,推动了台积电等代工厂在制程工艺上的快速发展,从而各种Fabless(IC设计)芯片厂商有了更多的市场机会。

在计算产业变革的背景下,“CPU包打天下”一去不复返,异构计算即XPU的发展成为大势所趋。我们看到众多头部半导体厂商推出多元化的芯片产品,不断延展业务边界,而创新公司也不示弱,它们在没有历史包袱的情况下,纷纷针对不断涌现的业务场景推出了专属性的芯片产品,让整个芯片市场迎来“百家争鸣”时刻。

在当今XPU市场,通用计算芯片占据的市场份额和市场需求量是最大的,毕竟作为“全能选手”,不管是x86还是Power或者Arm,它们的计算生态也是最为成熟的,相关的技术产品也在持续迭代,上演了x86、Power、Arm通用计算市场的“三国杀”,甚至于我们如果用白热化来形容当前的x86市场,也一点也不为过。毕竟作为最成熟的计算架构,x86伴随着半导体产业的成长,特别是英特尔与AMD近期新品的发布更是让x86市场平添了很多“火药味”。

在数据中心市场,英特尔是毫无争议的带头大哥,英特尔CPU在数据中心市场处于垄断地位。据英特尔2021年第一季度业绩显示,第三代英特尔至强可扩展处理器出货量超过20万颗。

同时,阿里云、平安科技、腾讯云等英特尔生态伙伴已经基于第三代至强可扩展平台开展了诸多实践,比如在腾讯游戏的3D人脸建模中,借助第三代英特尔至强可扩展处理器的VNNI技术,可以加速4.24倍以上,这意味着原有基于3D人脸建模的各种优化、缓存、预处理环节可以直接跳过,直接提供照片就能够生成3D模型。

在用户端,第三代英特尔至强可扩展处理器也赢得了众多互联网企业的青睐,例如快手与英特尔展开合作,结合英特尔至强可扩展处理器平台和傲腾持久内存,快手推荐系统的性能得到大幅提升,同时也能支持更多复杂算法,总拥有成本(TCO)降低了30%。

虽说英特尔至强的市场地位如此坚固,但是随着异构计算的崛起,英特尔感受到了来自GPU、FPGA的强力挑战。为了应对这些挑战,近些年英特尔调整了市场战略,不再以处理器为中心,而是以数据为中心,这体现为从CPU到XPU、从芯片(Silicon)到平台、从传统IDM到现代、更灵活的IDM。特别是在IDM 2.0的愿景中,英特尔在代工业务中以更加开放心态支持X86内核、ARM、RISC-V生态系统、IP的生产。

英特尔中国研究院院长宋继强表示,异构集成是推动摩尔定律继续发展的重要方式。英特尔转型为包含多种计算架构XPU的公司,并在此基础上推出了适配的软件,并构建相应的生态,引领异构计算的发展。

如果说英特尔采取了大而全的策略,以产品组合赢得整体优势,比如第三代英特尔至强可扩展处理器与英特尔傲腾内存存储解决方案、英特尔以太网连接解决方案等共同组成的以数据为中心的产品组合才是英特尔的王炸,那么AMD则是重点突破,以点带面。

虽然同为x86市场的缔造者,但长期以来AMD是作为英特尔的陪衬存在,尤其是在服务器市场几乎没有多少存在感。AMD自然不甘心,先后发起了多次挑战,而近几年AMD在数据中心芯片的进步业界有目共睹。特别是第三代AMD EPYC处理器在技术领先性方面做足了文章,为行业带来了诸多改变,比如性能、成本、生态等。

AMD总裁兼CEO苏姿丰(Lisa Su)说,数据中心处于发展进化过程中,单一产品无法满足数据中心的需求,AMD能够提供具有融合、匹配数据中心需要的各种IP的能力。

自EPYC(霄龙)处理器问世以来,AMD与众多合作伙伴展开密切合作,截止到今年,将推出超过100款服务器产品及400多个实例,几乎涵盖了所有的应用场景和解决方案。

例如在超算领域,AMD EPYC处理器支持的超级计算机已经在全球高性能计算TOP 500强榜单中占据多席,并为斯图加特高性能计算中心的HLRS “HAWK”、德国天气预报服务公司(DWD)的NEC SX-AURORA TSUBASA、苏黎世联邦理工学院(ETH Zurich)的ETH ZURICH EULER VI、圣地亚哥超级计算机中心(SDSC)的DELL

此外,AMD公司与美国橡树岭国家实验室(ORNL)和Cray公司联合打造Frontier,其基于下一代AMD EPYC霄龙处理器、Radeon Instinct加速卡、ROCm异构计算软件三大平台,运行峰值可达每秒1.5exaflops(百亿亿次),是实验室有史以来打造的性能最强的超级计算机。

如今芯片厂商不光在制程工艺上进行迭代,还在封装工艺上持续创新。比如英特尔推出了EMIB技术和Foveros技术,其中EMIB是一种高密度的2D平面式封装技术,可以将不同类型、不同工艺的芯片IP灵活地组合在一起,类似一个松散的SoC;Foveros技术首次为处理器引入了3D堆叠式设计,是大幅提升多核心、异构集成芯片的关键技术,可以实现芯片上堆叠芯片,而且能整合不同工艺、结构、用途的芯片。

而在Computex 2021上,AMD宣布将Chiplet封装技术与芯片堆叠技术相结合,为未来的高性能计算产品创造出了3D Chiplet架构。这项封装技术突破性地将AMD创新芯片架构与3D堆叠技术相结合,并采用了业界领先的混合键合方法,与现有的3D封装解决方案相比,可提供超过200倍的2D芯片互连密度和15倍以上的密度。通过与台积电(TSMC)紧密协作,与目前的3D解决方案相比,这项行业前沿的技术能耗更低,是世界上超灵活的活性硅堆叠技术。

如上所述,我们看到当前x86市场的竞争程度更加激烈,虽然市场格局没有太大的变化,但是市场情绪也在慢慢变化。所以不管是英特尔还是AMD,唯有技术创新,匹配用户需求,紧跟时代要求,才能在市场中立于不败之地。

在通用计算领域,用“傲视群雄、睥睨天下”来形容x86处理器一点儿也不过分,但这并意味着其他类型处理器就甘拜下风,比如Power和Arm就向x86处理器发起了强力挑战,近年来不管是Power还是Arm都一直在不断进化,为用户提供了多样化的选择。

对于Power,如果是业界资深人士,一定会有一种历史感涌上心头。虽然被x86压制,但是Power的生命力还是非常强大的,也在持续迭代。毕竟在存量市场上Power还是有很强的优势,很多Power承载的都是关键行业的核心和关键业务。

实际上,Power从来就没有甘心把霸主之位拱手相让于x86,重新昔日荣光的梦想虽然有些遥远,但并没放弃。目前Power处理器已经迭代到采用7nm工艺的Power10,并广泛应用于IBM主机产品和Power服务器产品,而在国内,浪潮商用机器作为POWER中国区独家代言人,承担起了重振Power雄风的重任。浪潮商用机器在不断拓展Power架构的创新应用,让Power在当今计算架构市场有着一席之地。

Power架构主打关键计算,面向关键应用核心云承载平台、关键业务主机、云原生创新型应用。这也是其与x86区别客户定位的重要特征。比如,浪潮K1 Power产品线就主打高可靠性、高性能、高安全和数据强实时一致性的“三高一强”特性,致力于打造关键应用的高可靠和高性能的安全平台。

浪潮商用机器有限公司总经理胡雷钧表示,作为一种纵向扩展系统,在支撑核心应用系统方面,K1 Power的性价比最高,是最可靠的技术选择。同时,围绕POWER处理器的国产化,浪潮商用机器提供了面向关键应用系统的丰富产品。

如果说Power是高大上,那么我们对Arm架构的认知则是从移动终端开始的。ARM处理器架构开启了移动时代,而且过去五年基于Arm架构的设备出货量超过1000亿,其影响力已经遍布移动终端。但是现在Arm架构也在“出圈”,这要从Arm v9架构谈起。

Arm v9架构基于Arm v8,并增添了针对矢量处理的DSP、机器学习、安全等技术特性。

众所周知,由于高能效、低功耗等特点,Arm在移动设备和物联网市场得到广泛应用。其实在基础设施领域,Arm已经耕耘超过10年,并推出了专门面向数据中心的服务器芯片架构Arm Neoverse,在HPC、云计算以及5G等市场取得了不俗的成绩,不仅在AWS有Graviton以及Graviton2这样的芯片正式投入商用,Oracle也已经宣布计划将Ampere Altra用于其云基础设施,而在HPC领域,不仅有世界最快超级计算机日本富士通Fugaku这样的用户,而且印度也宣布研发基于Neoverse的超级计算机。

凭借合作伙伴生态系统和商业模式,Arm架构已经在云、管、边、端等场景中无处不在。新的Arm v9架构的推出也是Arm瞄准下一个计算革命的诚信之作,必将在未来多云化的计算市场闯出更为广阔的天地。

加速计算的“黄金时代”

虽然通用计算是主流,并会在未来相当长一段时间内作为一种成熟稳定、发展缓慢的技术而存在。但是不管是GPU还是FPGA等加速芯片也正在迎来自己的黄金时代。

IDC发布的《中国半年度加速计算市场(2020下半年)跟踪》报告显示,2020年加速服务器市场规模达到32.0亿美元,同比2019年增长52.8%。其中GPU服务器依旧占主导地位,拥有86.3%的市场份额,市场规模达到27.6亿美元,同比增长37.3%。同时FPGA等非GPU加速服务器以434.0%的增速占有近15%的市场份额,市场规模达到4.4亿美元。

在GPU市场,英伟达是毋庸置疑的王者,但是英伟达并没有局限于GPU,宣布收购Arm之后,英伟达将自身的触角伸向了CPU、DPU等XPU领域。

我们知道GPU是英伟达的“主业”,但是凭借一系列的收购,英伟达也在向其他XPU拓展,在GTC 2021大会上,英伟达推出了CPU、DPU和GPU的”组合拳“,帮助用户打造完全可编程的单一AI计算单元。

前面我们谈到在云计算、企业和边缘数据中心、超级计算、PC等其他市场中,Arm也开始崭露头角。而依靠收购Arm,英伟达与Arm之间的协同有了更多想象空间,比如英伟达的DPU(Data Processing Unit,数据处理单元)就内置了Arm核心,可实现具有突破性的网络、存储和安全性能。

不管是CPU还是DPU、GPU,很明显,英伟达正在将自己业务边界不断延展,也就是不再局限于以GPU为中心,而是以计算为核心,覆盖多样化的计算工作负载。随之而来的就是客户选择的灵活性,同时整个计算芯片市场也将迎来新的格局。

在加速计算市场,灵活的FPGA已然异军突起。例如微软通过英特尔FPGA加速Azure云服务、必应和其它数据中心服务中的实时人工智能、网络及其它应用或基础设施。

虽然国际国内市场的FPGA厂商挺多,但是FPGA市场的主要玩家便是英特尔与赛灵思,而在AMD在宣布收购赛灵思之后,FPGA市场之间的格局更具看点。

英特尔和赛灵思对于FPGA市场是两种不同的技术路线,这很大程度是取决于他们背后的技术储备和对于FPGA的定位。对于英特尔而言,它旗下有CPU、GPU、Movidius VPU、FPGA等多种面向不同场景的计算平台。所以在英特尔这里,“FPGA就是FPGA”,只不过是一种实现AI算法的途径而已。而在Xilinx这里,FPGA就是它的全部。为了适应更大的市场,Xilinx需要“FPGA不止是FPGA”。所以就诞生了ACAP这样“超越了FPGA”的新型器件。

除了技术产品策略,英特尔和赛灵思之间的竞争因为AMD对赛灵思的收购有了更多故事可讲。这应该是AMD是对英特尔收购Altera的应对,不过对应AMD而言,这可以丰富自身产品线和强化竞争力,还有对FPGA芯片与CPU、GPU的技术融合尝试探索以及未来市场的先行布局。

从加速计算市场我们可以看到加速计算其实与通用计算市场有着千丝万缕的联系,也就是CPU、GPU、FPGA之家具备内在联系,半导体厂商在产品布局方面是将这三者放到一起的,从而更好地为用户提供充沛的算力。

专用芯片的“争奇斗艳”

AI芯片市场随人工智能发展持续火爆,根据Gartner的测算和预测,预计2023年全球AI芯片市场规模将达到343亿美元。

虽然目前通用计算芯片和GPU加速芯片是主流,但是DPU、VPU、TPU、IPU以及各种专用芯片也在迅速崛起,面向特定应用抢占细分市场。

在诸多“PU”中,DPU是最受关注的芯片类型之一,一方面是因为DPU巨大的市场前景,另一方面是因为有英伟达、英特尔这样的巨头参与。可以预见,未来DPU的应用将越来越广泛。业内人士甚至乐观地估计,DPU可能会成为CPU、GPU之外的第三个热点。

简单地说,CPU相当于一个通才,它长处是什么都能干,但效率不高,而GPU、DPU相当于专才,专门干一件或者一类事情,因此效率最高。对CPU、GPU和DPU的区别,DPU初创公司中科驭数创始人兼CEO鄢贵海有个形象的比喻:如果把一台计算机或服务器比作一个团队,CPU相当于这个团队的“大管家”,负责思考并处理各种业务;GPU是“美工”,专攻图像处理;DPU则相当于“前台”,负责打包、拆包“数据包”,提升整个团队的工作效率。

中科驭数2018年成立,今年中科驭数发布了其下一代DPU芯片计划,将基于自研的KPU(Kernel Processing Unit)芯片架构,围绕网络协议处理、数据库和大数据处理加速、存储运算、安全加密运算等核心功能,推出新一代DPU芯片。

目前中科驭数提供网络、数据库、风控等硬件加速解决方案,与上交所、金证股份、360数科等金融行业客户一起加速DPU的应用落地,算力的灵活组合满足金融用户的定制化需求。

例如金证股份已有的行情系统在交易繁忙阶段(如开盘等情况),系统延迟达到51us,而且抖动非常大。而在应用基于中科驭数KPU架构的极速行情系统后,系统延迟降低一个数量级,并且系统都能保持在20ns以下,为交易客户提供了先机。

所谓“英雄所见略同”,星云智联CEO于勇认为,未来的数据中心将不再以通用CPU为核心,而是解构成GPCPU、GPU、TPU、FPGA、DSP等异构算力资源池,以及SSD和磁盘等存储资源池。“未来十年,全球云计算和数据中心基础架构将迎来颠覆性变革,基于DPU的统一通信服务平台(CAAS)是未来架构的核心引擎。”

除了DPU,现在业界的另外一个热词就是IPU,就在近日,英特尔推出XPU产品的最新成员——基础设施处理器(IPU),具体来说,IPU是一种可编程网络设备,扩展了智能网卡功能,这有点类似NVIDIA的DPU。

不过业界对于IPU的定义也不尽相同,Graphcore的IPU是指Intelligence Processing Unit,智能处理器。在Graphcore高级副总裁兼中国区总经理卢涛看来,CPU和GPU都不是专门为AI而设计。而IPU是专为AI应用设计,其强大的并行处理能力确保了快速训练模型的实现,并能进行实时操控。

当计算系统变得更加专用化之后,分层就会显现,异构的进程就会加快。随着工作负载类型的细分以及半导体产业链的变化,未来新型专用加速器会越来越多,以更好地满足不同场景的需求。

国产芯片的“弯道超车”

在当前计算产业面临变革之际,我们看到中国厂商的机会也在出现。在新环境和新技术驱动下,国产CPU正处于奋力追赶的关键时期,以飞腾、鲲鹏、海光、龙芯、兆芯、申威等为代表的厂商正全力打造“中国芯”。

以华为为例,其聚焦鲲鹏和昇腾,构建全场景多样性智能计算平台。自2019年华为发布计算战略以来,鲲鹏计算产业生态蓬勃发展,不仅构建了完整的生态体系,并且鲲鹏行业解决方案已在国计民生行业核心系统获得了规模化应用。

鲲鹏计算产业的能力输出,离不开其“硬件开放、软件开源、使能合作伙伴”的技术生态战略。基于鲲鹏生态,各行各业可快速上手基于华为鲲鹏和昇腾处理器的IT基础设施及行业应用,包括PC、服务器、存储、操作系统、中间件、虚拟化、数据库、云服务及行业应用等,在大数据与人工智能场景,发挥其架构优势,释放多元算力。

到目前为止全国已落地24家生态创新中心、12家OEM整机伙伴、2700多家合作伙伴、5700多个解决方案认证、40万鲲鹏开发者,在各行业中已有成熟应用案例,包括电信、互联网、安平、能源、金融、交通、制造、政务等。

目前在国际环境、产业政策、市场需求的联合驱动下,一大批国产CPU厂商奋楫前行,在工艺、性能、生态建设等多个方面不断取得突破,产业布局、资金投入、技术研发、人才培养等各个方面都在快速进步。

未来会有更多的中国优秀芯片企业涌现出来,国产芯片的水平也一定会弯道超车。我们在全球芯片产业链上的话语权,也一定会越来越大!

既要脚踏实地,又要仰望星空。如果说前面说到的各种XPU已经近在眼前,那么英特尔和IBM在神经拟态计算(类脑计算)和量子计算的前沿研究给予我们的可能是希望,它们带来的前所未有的创新成果,为计算的未来带来了新的想象空间。

神经拟态计算模拟的是大脑的计算模式,包含很多并行计算和异步计算,不需要提前进行数据训练,可以在工作的过程中自我进行学习,大幅提升效率和能耗。

英特尔已经推出由768个Loihi组成的神经拟态计算系统Pohoiki Spring,拥有1亿个神经元,并成立了神经拟态计算社区,推动神经拟态计算落地。

量子计算已经成为全球科技领域关注的焦点,英特尔推出了代号为“Horse Ridge”的低温控制芯片,实现了对多个量子位的控制,可以实现更大的量子系统扩展。

除了英特尔,我们看到IBM在量子计算领域也在积极布局——2016 年,开放量子云平台,接入5比特的量子芯片Canary ;2019 年,IBM实现了27个比特的量子芯片Falcon;前不久,IBM 向其IBM Q Network成员发布了65个比特的量子处理器Hummingbird。

从2000年起,IBM开始探索超导量子位这一技术路线,2021年,IBM将突破100比特的关卡,推出127比特的Eagle处理器。在Eagle处理器上,IBM引入并发实时经典计算能力,这将允许执行更广泛的量子电路和代码。

除了量子计算,IBM近日发布了全球首个2纳米芯片制造技术,再次引领了半导体行业的潮流。

在英特尔、IBM等均先后投入量子运算领域发展, NVIDIA在GTC 2021也宣布推出名为cuQuantum的开发工具组,让开发者能透过此开发工具组配合NVIDIA GPU进行量子运算特性模拟加速。

展望未来,随着XPU战略的推进,各大半导体厂商以自身优势产品为依托,不断探索算力的跨界融合,这一趋势也将延续下来。

不过,芯片架构五花八门,指令集不同,无法兼容,而面向芯片的编程库又跟芯片绑定,灵活性差。小公司只做了其中一个环节,这造成生态的纵向不通;大公司希望构建封闭的系统,这造成了生态的横向不通。

芯片从制造出来到大规模用起来,往往还隔着一个巨大的生态鸿沟。芯片应用一般都面临着开发者学习成本高、用户应用迁移困难、芯片制造公司难以上规模的困难和挑战。

在有些芯片造出来后,面向开发者的帮助文档、调试工具或者交流问答社区建设不足,导致开发者学习时间长,难度大,如果学习多个芯片,难度更大,开发者的学习积极性下降。而对于芯片的最终使用者来说,由于芯片指令集或芯片架构的差异,导致编程库、编程模型、算法框架无法有效的横向拉通,致使大量的应用迁移困难,可能只是1%的小小的依赖,就会导致适配工作前功尽弃,进一步带来计算的复杂性。

而芯片供应商如果想解决开发者的问题、想解决使用者的问题,则往往需要投入比芯片研发成本高数十倍的推广费用。

不管是英特尔还是英伟达,他们的硬件产品只是一方面,他们也在将自身定位一家软件公司。例如英特尔内部有超过1万人在围绕芯片的配套支撑、应用适配、优化调优做工作。英伟达提供一系列基于NVIDIA AI以及用于仿真、协作和自主机器训练的软件,尤其是公司的CUDA软件环境更是通过长期的大规模投入,才打造了其GPU在HPC和AI方面的领先地位。

软件是释放异构计算性能的重要一环。英特尔一直也在FPGA、ASIC、GPU和CPU的多种算力产品XPU基础上开发适配的软件,推出了开源的跨架构开发模型oneAPI。

软件开发人员可以使用oneAPI开放式跨架构编程来优化其应用程序,从而避免了专有模型的技术和经济负担。英特尔oneAPI工具包通过高级编译器、库以及分析和调试工具帮助实现处理器的卓越性能、人工智能和加密功能。

英特尔架构、图形和软件集团副总裁兼中国区总经理谢晓清表示,英特尔的战略是希望能够把IA生态系统的开发者最大限度地无缝链接到oneAPI所支持的异构计算领域,为英特尔的XPU战略打下一个坚实的软件基础。

其实,AMD在异构计算整合方面也早有布局,并选择了四步走的持续性战略,其中第四步是架构和系统整合,从硬件到软件完全实现异构计算支持。

2012年,AMD成立了一个HSA(异构系统架构)基金会,拉了ARM、Imagination、联发科、德州仪器、三星等众多一线大厂一同上阵,主推一个叫做OpenCL的异构编程框架。

2015年,AMD宣布名为“Boltzmann计划”的新款开发工具套件,协助用户更简单地开发兼具高性能与低耗能的异构计算系统。“Boltzmann计划”利用HSA架构优势,发挥CPU与AMD FirePro GPU计算资源,通过软件同时释放极致计算效率。

综上所述,XPU不能仅仅是XPU,它不是硬件简单的物理堆砌,而要考虑到其中的互联互通,跨架构的软件协同,只有软硬件协同发展,才能更好的发挥出产品应有的价值。

“单兵作战”的效果往往不如“军团作战”,其中的奥秘就是“协同作用”。举例来说,飞机作战,如果只是轰炸机单兵作战,虽然攻击性很强,却缺乏保护体系,需战斗机协同作战,以保护轰炸机的安全。

产品组合以及解决方案才是芯片厂商竞争力的重要表现,这一方面是厂商自身的丰富产品组合,例如XPU便是重要策略。另一方面,芯片厂商的生态建设,积极扩大“朋友圈”。如果产品是一家企业的根本,那么生态活动则是“众人拾柴火焰高”。

英特尔公司副总裁兼至强处理器与存储事业部总经理Lisa Spelman表示,对于英特尔来说,提供满足客户需求的产品组合,这是非常巨大的差异化的竞争优势,这是英特尔数据中心战略的核心。

“我们的关注点是通过产品组合传递客户价值。我们现在要将产品提升到系统层面的解决方案。英特尔新增加的产品和解决方案都是作为整个平台的延续给客户提供价值和解决问题。”Lisa Spelman说。

为了让产品方案化,英特尔还推出了英特尔精选解决方案和英特尔市场就绪解决方案,帮助客户加速云、人工智能、企业端、高性能计算、网络、安全和边缘应用上的部署。其中近80%的英特尔精选解决方案将在今年年底前完成更新为搭载第三代英特尔至强可扩展处理器。

其实不光英特尔,我们看到不管是Arm还是英伟达等厂商,都在积极构建生态圈。例如Arm生态系统在移动和嵌入式方面一直很强大。从Arm架构发展历程来看,通过社区建设增强用户认知度,打造成熟的生态系统是其取得成功的关键因素。

同时,Arm借助v9的推出也在向其他计算领域延展。通过将全面计算的设计原则应用在包含汽车、客户端、基础设施和物联网解决方案的整个IP组合中,Arm v9系统级技术将遍及整个IP解决方案,并改善个别IP。

英伟达也一样,其也在积极发展软硬件一体化的组合,并借助合作伙伴生态系统在HPC和AI等领域拓展更为广阔的空间。例如借助英伟达企业合作伙伴计划(NPN),英伟达在全球范围内拥有超1500名合作伙伴,提供加速网络、分解式网络以及软件定义的网络,以满足 AI、云和高性能计算快速增长的需求。

总之,借助生态系统将自身的XPU产品组合以及与合作伙伴联合打造的解决方案触达用户是半导体厂商赢得市场的关键。

数字时代对计算力提出了前所未有的要求,算力将成为新的生产力。

这反映到产业层面,众多芯片厂商竞相切入XPU的赛道。展望未来,通用计算市场稳中求变,不管是x86、Power、Arm等在保持既有技术优势的同时,也在不断适配和拓展新的应用场景。

对于GPU、FPGA等加速计算芯片市场,随着AI类工作负载成为主流,他们的发展空间巨大,但是这些加速芯片需要与通用计算芯片协同工作才能更好地发挥其自身价值,这也预示着类似英特尔、AMD、英伟达、Arm等厂商会在通用计算和加速计算两个市场展开积极布局。

对于ASIC专用芯片市场,虽然这是一个相当长尾的市场,但是该市场的创新活跃度是最高的,成为众多创新创业公司的目标领域。虽然他们现在还不是市场主流,但是在满足客户定制化的需求方面,ASIC芯片的重要性是不言而喻。

国产芯片的发展任重道远,但是在外部环境和国家政策的驱动下,国产芯片的被重视程度会越来越高,但是国产半导体芯片厂商的成长之路注定是不平坦的。

虽然神经拟态计算(类脑计算)和量子计算还处于研究探索阶段,但是其展示了未来的无限可能。随着相应研究投入的持续增加,相关应用也会涌现,这点也值得我们持续关注。

在全景展现XPU产业之际,我们也看到芯片厂商需要在软硬件协同、生态构建等方面还有巨大的改善空间,他们需要倾听客户和用户的声音,通过需求驱动产品和技术的发展。

站在数字经济发展的新阶段,算力的价值日渐凸显。随着大数据、人工智能、边缘计算等技术的发展,计算架构的“新黄金十年”已经开启,计算产业正在迎来新的发展机遇。

展望未来,XPU市场将呈现百花齐放的局面,各种芯片在各自的赛道发挥自身独特的价值。同时各种计算架构之间在聚焦自身优势的同时,也在相互融合协同,形成了“你中有我,我中有你”的局面。

核心观点:智能驾驶芯片(又可称为自动驾驶芯片、ADAS芯片等),主要是让车辆能够实现自动驾驶的计算单元,是(AI)芯片的一部分,从视觉(Computer Vision,CV)出发,逐步演化出了针对汽车在驾驶中所遇到场景的算法;算法有自上而下(、百度)和自下而上(特斯拉、小鹏)两种流派。在相关算法基础上,衍生出了相应的()和AS(特斯拉、、Mobileye、地平线)。

伴随着汽车智能化的加速发展,智能驾驶芯片将迎来快速扩张的阶段,成长空间很大,我们测算2021~2025该领域市场规模会从19亿美元增长到54亿美元,CAGR为30%。由于自动驾驶属于新鲜事物,国内外差距不大,且国内整车厂智能化转型很快,对芯片需求很大,中国厂商存在机会。

人工智能领域的重要落地场景

自动驾驶:高阶人工智能

自动驾驶实现方法:环境感知:摄像头、超声波雷达、毫米波雷达、激光雷达、多传感器融合、高精地图与定位;决策规划:AI芯片、软件算法、计算平台(域)、操作系统;控制执行:线控转向制动;

自动驾驶是高阶的人工智能。与人脸、语音识别以及大数据分析等领域相比,对安全性和实时性要求更高,且由于驾驶是要和人类共同参与的,因此需要更高的认知与推理能力。

决策软件(算法)作为自动驾驶的“大脑”,是自动驾驶的核心竞争力:主要包括视觉算法、雷达算法等传感器数据处理和融合,以及路径规划、行为决策与动作规划等部分。

自动驾驶算法中大量运用了深度学习等AI领域的算法,因此对于自动驾驶来说,车端需要能够进行推理的AI芯片,云端需要能够进行大量数据训练的。

芯片:通用芯片 VS 专门芯片

最早出现的芯片可被认为是,用来负责处理通用的任务。GPU可认为是针对图像领域的ASIC(Application-specific integrated circuit,特定场景芯片)。GPU是图形处理单元,在PC(个人电脑)早期,图形数据较为简单,主要都是由CPU来进行图形处理。随着图形显示规模的增加,CPU已经很难分出更多精力来处理图形信息,而且CPU的架构决定了其处理图形信息的效率是偏低的,因此逐渐发展出了专门处理图形信息的GPU。

circuit,特定场景芯片),包括谷歌推出的TPU(张量计算单元)、特斯拉推出的NPU(神经网络计算单元)和地平线推出的BPU,虽然在某些特定计算上效率更高,但目前这些芯片的使用场景比较单一,市场规模还较小。

芯片行业特点:寡头格局,竞争壁垒高

在充分的市场竞争条件下,消费级芯片是一个非常典型的寡头市场。在企业获得先发优势后,可以凭借较大的出货量平摊研发费用,而芯片的高技术壁垒导致研发及流片费用在数千万美元以上,竞争者很难进入。CPU是和的天下,GPU是英伟达和AMD的天下,手机(移动)芯片是高通和的天下。

拥有消费市场是成为搅局者的重要因素。、特斯拉和都是凭借自身品牌形象,在手机和汽车领域拥有相当数量的消费群体后,开始进行芯片自研,这保证了芯片研发费用的分摊以及芯片更新迭代的动力。

汽车芯片是一个全新市场,同消费级产品不同的是,汽车对安全性、稳定性的要求更高,设计成本和流片成本相应也更高,市场的参与者主要是传统芯片行业巨头、创业公司以及车企。

人工智能:边缘芯片VS云芯片

云(服务器、数字中心)和端侧(手机、智能汽车等移动端)场景中, AI芯片的运算方式有着本质性的差别:1.云端处理大批量一次性到达的累积数据(扩大批处理量,batch size),车端芯片则需要处理流数据,随着行驶(时间)陆续到来的数据;2.云端处理可以“等”数据“够了”再开始处理,车端则需要实时完成计算,尽可能得降低延迟,更勿论几秒钟的“等待”;3.在云端,任务本身是限定在虚拟世界,无需考虑与现实世界的交互。在车端则身处现实世界,每一个任务都需要考虑交互性;4.功耗和成本在车端AI芯片的考量中也占据更重的分量。

因此,云端AI芯片更侧重于数据吞吐量和支持多种AI任务的要求,车端的AI芯片则须保证很高的计算能效和实时性要求,能够实现端侧推断,以及低功耗、低延迟甚至低成本的要求。我们认为,对于智能驾驶这个全新的场景来说,进行全新架构设计,才能更好地实现效率上的需求。

在特斯拉之前,汽车芯片多是指MCU芯片。MCU芯片全称为Microcontroller Unit(微控制单元),又称为单片微型计算机或者。它是一个是把的频率与规格做适当缩减,并将、计数器、USB、A/D转换、UART、PLC、DMA等周边接口,甚至LCD都整合在单一芯片上,形成芯片级的计算机。通常MCU只能完成较少的任务,例如开启智能雨刷,或是下车后自动落锁等等。因此,在豪车中可能拥有数百个MCU,来实现各种智能化功能。

MCU只是芯片级的芯片,而SOC是系统级的芯片,它集成了MCU和MPU的优点,即拥有内置RAM和ROM的同时又像MPU那样强大,它可以存放并运行系统级别的代码,即可以运行操作系统。汽车开始经历像从功能手机到智能手机的升级。在车辆电气化集中的趋势以及对智能化和娱乐化更高的要求下,原有的MCU在算力上完全无法适应,因此像平板电脑或手机的高算力SoC(System onChip,片上系统)甚至是PC所采用的高算力芯片开始逐渐被汽车行业所采用,汽车更像是大号的智能手机了。

由于智能驾驶芯片市场属于快速发展的时期,很多概念的定义尚未有非常客观的标准。我们参考了市面上的各种技术路线和预测模型,提出了我们的预测数据。我们将具有以下任一功能的车辆归于高级别智能驾驶的车辆:高速领航、自动泊车以及城市领航。除此之外的辅助驾驶将归于低级别驾驶。

价格方面,我们结合了市场现有主流芯片的售价进行了大致的测算。在以上假设下,我们测算,智能驾驶芯片市场会从2021年的19亿美元增长到2025年的54亿美元,2021~2025的CAGR为30%。

特斯拉:给汽车行业带来全面的革新

特斯拉颠覆了整个汽车行业,从自动驾驶、智能座舱、域控架构、三电系统,甚至到车辆的制造与装配,发展出了一套全新的方案。从自动驾驶角度来看,特斯拉是目前唯一实现软硬件全自研的公司,且可能是唯一一个能够实现软硬件都自研的公司。

自研芯片的好处:(1)芯片效率更高:从算法出发设计芯片架构,芯片的能耗比更优;(2)可以更激进地尝试新方案:不需要通过第三方的车规级认证等复杂流程,只需要最终在车端对消费者负责,不需要在芯片端负责;(3)一体化带来更快迭代速度:由于自动驾驶是个全新的领域,需要芯片、算法和车辆相互配合,这些环节特斯拉均在公司内部流转,迭代速度高于合作模式。

特斯拉经历了早期使用黑盒方案的Mobileye EyeQ3,到较为开放的Nvidia Drive平台,再到如今的芯片自研,这期间的变化给我们非常好的观察汽车智能化迭代的窗口。

芯片自研:一条难以复制的技术路线

各类顶级芯片研发人员聚集,为特斯拉芯片自研奠定基础:2016 年 1 月,Tesla从 AMD 挖来传奇芯片架构师 Jim Keller,任命他为 Autopilot 硬件工程副总裁。Jim是芯片界传奇人物,曾效力于 DEC、PA semi(Apple收购以后才得以由能力研发自家 A 系列)、AMD 、Apple,曾参与设计速龙(Athlon)K7 处理器和苹果 A4/A5/A6 处理器,是速龙 K8 处理器的总架构师,还是制定X86-64指令集者之一。2016年2月,Tesla又从Apple招到了研发总监 Pete Bannon,Pete 是 A5 芯片核心的设计工程师,在那之前他是 PA Semi 的架构与验证副总裁。同时期,同样来自 AMD 的谷俊丽,在Autopilot 硬件工程团队下开始组建机器学习小组,这个小组有两个任务:一个是搭建第二代自动驾驶硬件上的 AI 算法和机器学习软件,另一个是参与设计 FSD 芯片的架构和上面的软件。

采用以深度神经网络为主的人工智能模型,再加上车端收集的大量数据,特拉斯ADAS水平迅速提升:基于全新深度神经网络的视觉处理工具TeslaVision是 Autopilot团队抛开 Mobileye、从零搭建的一套视觉处理工具,它的背后,是全新的底层软件技术架构和云端大数据基础设施。Tesla Vision能够对行车环境进行专业的解构分析,相比传统视觉处理技术可靠性更高;借助Tesla售出的车辆搜集的大量数据,反过来又可以对Tesla Vision的神经网络进行训练和改进,进一步优化Autopilot。

EFLOPS)相比,已经不相上下。当然其对称式的设计理念,可能给超算领域带来全新技术路线的可能性。

我们认为,特斯拉的芯片自研的成功,是天时地利人和共同作用的结果,竞争对手的可复制性很弱,主要原因有:(1)芯片顶级研发人才很难被车企所招聘,特斯拉有很大程度是因为的个人魅力因素,才说服顶级芯片研发人员加入;(2)自研芯片风险极高,前期投入较大;(3)如果不能保证使用的数量,则自研芯片性价比很低。因此,对于绝大多数车企来讲,外购芯片才是更好的解决方案。

FSD芯片:从算法需求倒推芯片架构,软硬件一体化实现高效算力

FSD芯片从算法需求出发,进行了芯片架构设计。其核心技术来源于由两颗NPU组成的NNA(Neural Network Accelerator,神经网络加速单元)系统。FSD芯片于2019年正式流片,代工厂为,采用14nm工艺,整个芯片约有60亿颗晶体管组成

NNA核心体现了成本和功耗的优化

在每个计算周期,NPU都会从内置的32MB SRAM中读取256字节的激活数据和另外128字节的权重数据组合在一起进入乘法累加(Multiply Accumulate,MAC),每个NPU都有一个96x96MAC阵列。在完成了MAC的乘法累加运算后,数据将会被转移到激活(Activations)以及池化部分(Pooling),并等待写入缓冲区汇总结果。在保障NPU具备强大运算能力的同时,对于它的功耗和成本优化Tesla也做了不少的努力。

设计了非常大的片上SRAM缓存,相较于Google的TPU,采用了256×256的MAC,只有24MB的SRAM。对于这种特殊的设计,Tesla解释这样做是为了让数据尽可能地在片内周转,而不用频繁地与内存或者其他模块进行读写操作。这样做不但可以提高性能,还可以有效降低功耗,因为(1)所有数据都在片上完成(2)NNA处理的神经网络计算并不需要太高的精度,所以设计的芯片只支持8位乘以8位整数乘法和32位整数乘法,不支持任何浮点计算,也无需支持任何其他格式,还可以在很大程度上降低功耗(浮点运算的32位加法器功耗大约是支持整数计算的32位加法器的9倍)。

除了上述计算过程外,Tesla在NNA的设计中还偏向于将硬件简化,并复杂化软件,这样做可以降低芯片成本。比如软件可以映射和分配单个SRAM库,在Tesla的神经网络编译器的帮助下,还可以执行层融合操作,通过耦合conv-scale-act-pooling操作允许数据重用。编译器还可以通过执行层平滑处理来确保数据一致的内存访问操作,还可以加入代码压缩、CRC校验等功能,保证数据的可靠性。在指令方面,Tesla认为之前一些NNA的设计方案在缓存、以及逻辑控制方面消耗了大量能量,于是简化逻辑控制,设计了一个简单的指令集:包括DMA

自动驾驶域:硬件成本约占整体硬件成本的3.5%

特斯拉自动驾驶硬件成本估算:特斯拉自动驾驶域的芯片成本约为5000元,加上外围以及组装、测试成本(组装厂为中国台湾广达集团),我们预估总体成本约为8000人民币,如果以特斯拉的毛利率计算,假设Model 3的成本为22.9万元,那么自动驾驶域的成本占特斯拉整车成本约为3.5%。

拥有自动驾驶软硬件解决方案的供应商

拿智能手机行业做对比,如果把特拉斯看作汽车界的苹果,那么英伟达可类比为汽车界的高通+。英伟达将人工智能领域的优势拓展到智能驾驶领域并拥有近十年的探索经验。GPU的并行架构适合人工智能领域的计算需求,英伟达敏锐的抓住这个特点,成为人工智能芯片及软件工具链的主要供货商。在进行人工智能领域探索时,英伟达开始涉足智能驾驶及机器人业务,并在该领域拥有近十年的开发经验。

平台化芯片+完善的工具链是英伟达芯片的主要特征。虽然拥有容易上手的,但较高学习门槛和自研智能驾驶算法的花销可能会阻挡中小客户的使用。

硬件优势在于——GPU架构兼顾效率与通用性:效率高于CPU,通用性强于ASIC;设计壁垒高,垄断性强;用户基数保证规模效应:与其他业务平摊研发成本,版本迭代快,持续保证性能优势;端到端的解决方案:车端到云端训练基于同样架构。

软件(工具链)优势——开放平台模式:客户可进行算法自研;软件工具链丰富:开发了全套软件工具链(公司软件工程师占比超过70%),不仅通过软件开发推动硬件的优化设计,还给用户提供丰富的示例与教程,帮助用户快速上手使用。

英伟达从帕斯卡到安培架构都以高拓展性为核心目标:1.支持尽可能多种类的神经网络结构以保证算法的正确率和泛化能力;2.支持能够识别广大数字范围的浮点运算,以保证较大的数据吞吐量;3.支持阵列式结构以能够连接更多的处理单元,以进一步加大可计算的数据规模。

落地到硬件技术上,Tensor core和Cuda core并行,以及从INT1到FP64的数据精度范围等一系列革新技术,都以支持上述目标为目的。

硬件架构:拓展移动芯片到汽车领域

英伟达专注提供高性能服务,借助嵌入式移动芯片,拓展汽车市场。在智能手机兴起的2008年时,英伟达试图进入移动芯片市场。为此,公司开发了Tegra系列芯片,采用了的CPU架构,并集成了自家的GPU芯片,组成了一套SOC系统。

早期的Tegra芯片注重功耗及效率的表现,主要用在的一款MP3和Kin手机、3手机上,但后由于基带问题逐渐退出手机市场;后期则更专注于提供高性能,其典型产品是任天堂的Switch,英伟达的Tegra X1给任天堂Switch带来了极高的画面体验。由于自动驾驶中对于画面的实时处理要求很高,因此后续的Xavier以及Orin系列也开发了相应的车规级芯片。从移动芯片的发展轨迹来看,英伟达的CUDA核心数量也快速增长,RAM的容量和带宽也迅速提高,移动芯片的性能始终保持竞争优势。

计算平台:可采用多种搭配,灵活度高

产品自由度高,客户可根据需求选择合适的芯片平台方案。在Tegra系列芯片的基础上,英伟达集成了一些特殊功能的GPU以及辅助芯片,推出了英伟达Drive系列车载AI芯片平台。

早期的车载AI芯片平台与单个移动芯片差别不大,但随着车载系统的要求不断多样化,英伟达Drive系统也增加了很多选择。例如Drive PX Xavier仅配备了一块Xavier芯片,其算力为30 TOPS,功耗仅为30W,适合用在L2级的量产车型中,例如小鹏P7就采用了此款车载芯片平台;对于L4级车辆的车载AI芯片平台,仅仅一个Xavier芯片算力不够,因此采用了两个Xavier芯片加上两个图灵架构的GPU,使算力达到了320TOPS,其功耗也增加到了500W;蔚来希望打造自己的计算平台,因此从英伟达这里选购的是独立的Orin芯片。不同的客户可以依照不同的使用场景选择适合的产品,这较大地增加了英伟达车载AI芯片的使用场景。

软件及系统:易于上手且生态丰富

不仅算力领先,英伟达易于上手的软件工具链很大地了方便了芯片使用者的开发过程,从DRIVE OS到DRIVEWORKS、DRIVE AV、DRIVE IX,英伟达软件工具链有着极为丰富的功能:同数据中心基础芯片类似,英伟达十分重视对软件工具链的开发。英伟达不仅花费了大量的研发资金,成立了测试小组专门改装了车辆以提高英伟达的芯片及相关软件工具链的安全性与稳定性,还积极听取客户的意见并对相关要求作出回应。在不断的测试中,软件工具链的可用性也不断提高。

安全、可靠且易用的软件工具链不仅可以让软件开发人员快速上手并熟练掌握芯片的调用技巧,还可以保证软件的不会在汽车这个安全性要求极高的领域出现差错,这也是整车厂采用英伟达方案的主要原因之一。英伟达的软件还有一个特点是其软件开放性高。有丰富软件开发能力的客户可以从底层操作系统开始自行研发,而初入此领域的客户可以从较上层的应用软件开始研发,底层使用英伟达搭建的通用系统。英伟达灵活的使用方案适配性强,潜在客户数量较大。

借助英伟达平台化芯片和虚拟测试平台,在ADAS、智能驾驶舱、高精度地图与定位等汽车相关领域不断开拓业务。NVIDIA DRIVE IX是一款可扩展的开放式驾驶舱软件平台,借助NVIDIA DRIVE Orin集中计算架构,利用内部摄像头和多模式交互,满足司机、乘客需求,实现独特的AI用户体验。NVIDIA DRIVEMapping可创建全自动、可扩展的高精地图,通过DRIVE Localization实现厘米级精度的车辆定位。英伟达通过收购DeepMap、与知名地图公司HERE等合作来开拓地图领域。

客户群体:主要面向自研算法的车企和Tier 1厂商

决策算法是自动驾驶的核心竞争力,大型车企都会尝试进行算法自研,这是平台化芯片兴起的原因。值得一提的是,造车新势力早期版本的车辆都采用了Mobileye的芯片,但由于无法自研算法,于是都转向了英伟达。小鹏的P7是中国最早的搭载Drive Xavier车载芯片的量产车型,于2020年7月问世;由于英伟达车载芯片的良好编程平台基础,小鹏P7得以在短时间内数次OTA升级,向用户推出了高速领航辅助驾驶NGP(Navigation Guided Pilot)以及不依赖停车场改造的自主泊车功能,使车辆用户不断体验到最新的功能,也促进了汽车的销量。

在商用车领域,英伟达也收获了新的合作。专注于无人出租车Robotaxi的AutoX公司使用英伟达的车载芯片系统实现了L4级功能,专注于卡车领域的智加科技也宣布,即将交付给亚马逊物流的1000辆自动驾驶卡车也将采用英伟达的车载芯片系统。据英伟达在FY2023Q1的财报电话会议透露,其自动驾驶在手订单达110亿美元。

英伟达积极布局汽车领域上下游合作,合作形式包括芯片售卖、提供整体解决方案以及授权等。英伟达芯片的使用成本仍然较高。虽然英伟达拥有完善的开发工具链,但针对汽车做适配和算法开发仍然需要大规模的研发投入,与单片芯片的几百美元的购买成本相比,企业要投入的研发成本以及合作授权费用才是大头,(1)通常需要配备至少200~300人的算法开发团队以及300人以上的软件开发维护团队,以较早采用英伟达方案的小鹏为例,小鹏近2019-2021年的研发费用分别为20亿、17亿以及41亿元,除汽车方面研发外,主要开支均在与英伟达Xavier、Orin芯片适配和算法开发中。(2)英伟达软件支持的授权费用通常在数千万美元左右。

创业公司+传统汽车芯片公司

Mobileye:视觉方案的探路者

视觉方案自动驾驶的先驱和L2级视觉解决方案的主要供应商:1999年,谷歌自动驾驶项目开始的十年前,以色列希伯来大学教授Amnon Shashua(他在读一篇论文时注意到,在某些情况下,人类在闭上一只眼睛的情况下仍然能够判断距离)发现视觉技术用于汽车安全的可能性,创办Mobileye,致力于用单目视觉来解决三维立体环境中的测距问题。自创立公司以来,Mobileye获得了视觉辅助驾驶领域的多项第一并提供了包括行人检测、车道保持和自适应巡航等辅助驾驶技术。

到2020年底,Mobileye累计售出约7330万枚EYEQ芯片(内含算法解决方案),在L2+方案的市场占有率约为70%。EYEQ系列芯片出货量由2014年的270万颗提升至2021年的2810万颗,CAGR为39.7%。同时,Mobileye营收持续快速增长,2014-2020年总营收CAGR为37.4%。2017年3月,Mobileye被芯片巨头英特尔以153亿美元的价格收购,成为以色列科技公司有史以来最大的一次收购。

由于算法封闭,车企无法利用数据资源形成差异化算法。不可否认的是,Mobileye的技术能力很强。从视觉方案起家,到现在也研究激光雷达的融合方案,都有相当的亮点;成为子公司之后,从一家视觉算法公司成长成为提供一整套解决方案的公司。但先后与特斯拉、小鹏、蔚来、理想等公司解约,也能看得出其角色之尴尬,2020年EyeQ芯片出货量增速明显下滑(与新冠疫情的影响也有关系)。

造车新势力早就看出自动驾驶能力才是车企的核心竞争力,所以当然不会容忍Mobileye这样的封闭算法的模式(使用车辆提供的数据不断增强算法能力,但并不与车企共享算法,数据能带来的价值会越来越高。据2020年麦肯锡的报告预测,到2030年时汽车产生数据的价值可达4500~7500亿美元),虽然放弃Mobileye会暂时削弱自动驾驶能力,例如2016年特斯拉与Mobileye解约后其Autopilot能力明显下滑了,但特斯拉坚持自研自动驾驶才让特斯拉拥有今天的技术能力与估值。中国的造车新势力也是走了和特斯拉类似的道路,都在先使用Mobileye的芯片一段时间之后转向了开放程度更高、可以自研感知算法的英伟达芯片。

Mobileye也意识到了这个问题,也宣称EyeQ5会向用户开放部分算法,但其开放程度并未明确。Turnkey方案使用成本低,对于总价较低的车型和中小车企更为实用。2021年销量迎来反弹(2018-2021年营收为6.98/8.79/9.67/13.86亿美元)。

地平线:从算法出发,进行芯片自研

地平线:成立于2015年,主要从事边缘人工智能芯片的研发,具有领先的人工智能算法和芯片设计能力,致力于通过底层技术赋能,推动汽车产业的创新发展。公司核心产品为芯片+算法+供应链+服务。地平线是在自动驾驶芯片领域实现大规模上车的唯一中国厂商。

地平线的优势:1.从算法出发,进行芯片自研:地平线创始人拥有自动驾驶算法开发背景,因此公司是从算法出发来设计芯片,与通用的以GPU为基础的英伟达芯片相比,在车端场景中拥有更高的效率;2.对算法迭代方向比较敏感:由于算法尚处于快速迭代中,而芯片从设计到流片生产至少需要2~3年的时间,所以对于算法的进化方向需要有极强的敏锐性;3.软件工具较为丰富:与其他中国友商相比,软件工具较为丰富,客户使用起来较为方便,算力释放效率也较为充分;4.具有性价比优势:CPU简配,某些型号没有GPU,且在软件授权和后续服务上有较多谈判空间,整体性价比高于国外大厂;5.国产替代/供应链安全。

地平线劣势:1.征程5规划偏保守,导致1高级别自动驾驶支持能力偏弱;2没有GPU,所以需要座舱芯片支持;2.利润率水平偏低。

传统汽车:恩智浦、、瑞萨

我们认为,对于像恩智浦、德州仪器或者瑞萨来说,其主要优势为:1.产品落地经验丰富;2.供应链管理能力强。

应用。该系列处理器基于TI在ADAS处理器市场处于领先地位以来十多年积累的深厚市场认知。TDA4VM器件将高性能计算、深度学习引擎、用于信号和图像处理的专用加速器以独特的方式组合在功能安全兼容的目标架构中,因此非常适合用于多种工业应用, 包括机器人技术、机器视觉、雷达等。

TDA4VM/TFA4VM-Q1同样以业界领先的功率/性能比为传统和深度学习算法提供高性能计算。这些器件具有很高的系统集成度,从而使支持集中式ECU或独立传感器中多种传感器模式的高级汽车平台实现可扩展性和更低的成本。关键内核包括具有标量和矢量内核的下一代DSP、专用深度学习和传统算法加速器。这些器件还包括用于通用计算的最新Arm和GPU处理器、集成式下一代成像子系统(ISP)、视频编解码器、以太网集线器以及隔离式MCU岛。所有这些都由汽车级安全硬件加速器提供保护。TFA4VM-Q1器件符合汽车应用类AEC-Q100标准。

我要回帖

更多关于 高性能计算芯片 的文章

 

随机推荐