尊龙凯时 (中国)人生就是搏!与其他公司多采用自研方式并遵循一定的技术路线演进不同,Intel拥有多种AI芯片技术,除了CPU、GPU是自身研发之外,FPGA、Moviduis、Nervana及Habana都是收购而来的,因此Intel的AI加速方案非常全面,CPU处理器中,新一代酷睿及至强处理器都开始支持DL Boost为基础的AI加速指令,FPGA中有Agilex系列AI芯片,神经网络芯片有Moviduis以及Nervana系列,收购Habana公司之后,又获得了AI推理及AI训练专用芯片。GPU加速的AI芯片有Xe图形架构,可以说Intel已经集齐了各种各样的AI芯片,不论哪种AI芯片都有自己的全套解决方案。 下面将对几种典型的AI芯片方案进行介绍。
从本质上讲,AgileX是一个异构的逻辑,可以将FPGA内核(包括可配置的DSP和可选的Arm SoC)与Xeon处理器,定制芯片和I/O设备连接起来。FPGA和其他组件之间的连接是通过英特尔的嵌入式多芯片互连桥接器(EMIB)实现的,该技术旨在将单个封装内的不同芯片连接在一起。
能够进行任意异构3D集成是Agilex所强调的一个特点,这使得Agilex可以根据需要任意集成包括以芯片间3D封装互联的嵌入式多芯片互联桥接尊龙凯时 (中国)人生就是搏!、包含收发器、自定义I/O和自定义计算芯片在内的芯片库以及eASIC(英特尔去年收购的公司)定制芯片这些资源尊龙凯时 (中国)人生就是搏!。
对于AI加速的部分主要体现在AgileX DSP,对于16位精度可提供多达40 TFLOP算力,并支持FP32,bfloat16,FP16和INT8数字格式。它还可以配置为支持较低精度的整数 - INT7到INT2之间的任何值。英特尔表示,这是第一款支持硬件实现bfloat16和FP16的FPGA。鉴于这些格式,看起来AgileX将非常适合用于推理经过训练神经网络。
2、Nervana系列芯片(intel 目前有点要放弃该系列,有钱任性)
英特尔推出面向 AI 推理和 AI 训练领域的两个系列产品,分别是神经网络训练处理器(Intel Nervana NNP-T)和神经网络推理处理器(Intel Nervana NNP-I),作为英特尔为云端和数据中心客户提供的首个针对复杂深度学习的专用 ASIC 芯片。
Goya有两种类型的计算引擎:GEMM(GEneral Matrix to Matrix Multiplication)核心和TPC(Tensor Processing Core)核心。前者以矩阵计算(convolution/matmul)为主要目标,执行密集线性代数计算;而后者执行更一般性向量(vector)计算,可以让Goya支持不同神经网络的结构,处理不同的数据类型。避免一些不能使用TPC加速的算子严重影响网络的整体性能。另外,Goya有一个DMA引擎,用于片上共享存储和外部存储之间的DMA传输。三种引擎是独立并行的。
Habana特别强调实际的TPC的数目是可以根据需求来调整的。可以理解为针对不同的应用场景,调整TPC数目来做一定程度的定制,提高芯片利用率,因为看起来GEMM核心是不可调整的。比如应用在图像方面的芯片,卷积的比例很高,相对配TPC的数量可以少一些。而语音方面的专用芯片相反,可以配更多的TPC来提高整体效能。TPC核心的微架构设计,是整个人工智能芯片的计算部分的一个难点。主要的难点在于“平衡”,对于TPC核功能的支持,性能的高低,功耗和面积的开销,需要相互之间做到平衡。
以NV Volta架构为对比,每个SM中的Sub-Core里包含两个4x4x4Tensor Core。应该是不可以调整的。这种设置是可以理解的,因为GPU是通用的架构,深度网络只是其中的一部分应用。
当前AI芯片的使用场景,是大量的向量计算,而在计算过程中,很少有跳转控制操作。因此,比较适合采用VLIW(超长指令集)设计多发射处理器。这种设计放弃了指令控制的灵活性,将很多的工作放到软件,依赖于编译器以及驱动程序完成,从而大大地降低了硬件实现的复杂度。SIMD, 单指令多数据,也是AI专用芯片的一个自然选择,达到数据并行的目的。具体的数据并行方式没有相关材料。
值得一提的是,Intel拥有目前最先进的制程工艺,收购的芯片方案在升级改进之后很快都会使用自家的先进工艺生产,性能可以得到大幅提升。FPGA、Moviduis、Nervana等芯片已经这样做了,陆续使用Intel自己的14nm、10nm尊龙凯时 (中国)人生就是搏!、7nm工艺生产(Intel的10nm工艺基本等同于TSMC的7nm工艺,所以工艺这一块Intel也算是宝藏男孩)。