尊龙凯时 (中国)人生就是搏!计算机与信息科学 380 2019 年 2 月 I AI 芯片的架构、分类研究 姜 妮 重庆三峡职业学院尊龙凯时 (中国)人生就是搏!,重庆 404155 摘要:数据洪流时代之下,传统的冯·诺依曼架构体系旨在解决少量的数据处理要求,主要是通过存储单元和计算单元的分离,AI 芯片所要面临的数据处理也变得日益复杂化。本文主要介绍了目前 AI 芯片的架构以及分类。 关键词:AI 芯片;数据;架构 中图分类号:TP18 文献标识码:A 1 传统数据处理的核心 CPU,顾名思义,就是中央处理器,它的主要功能是负责运算,人们习惯把 CPU 比喻成人的大脑,它在智能产品中占有很重要的地位,CPU 在执行操作的时候,我们的程序都会按照一定...
计算机与信息科学 380 2019 年 2 月 I AI 芯片的架构、分类研究 姜 妮 重庆三峡职业学院,重庆 404155 摘要:数据洪流时代之下,传统的冯诺依曼架构体系旨在解决少量的数据处理要求,主要是通过存储单元和计算单元的分离,AI 芯片所要面临的数据处理也变得日益复杂化。本文主要介绍了目前 AI 芯片的架构以及分类。 关键词:AI 芯片;数据;架构 中图分类号:TP18 文献标识码:A 1 传统数据处理的核心 CPU,顾名思义,就是中央处理器,它的主要功能是负责运算,人们习惯把 CPU 比喻成人的大脑,它在智能产品中占有很重要的地位,CPU 在执行操作的时候,我们的程序都会按照一定的规范被翻译成特定的语言,我们把这种规范或者是语言称为指令集,指令集是可以扩展的,一般来说,我们把CPU 的指令集代号分为 X86、ARM、MIPS 等等,通常,ARM 主要运用于一些平板或者手机等智能手持设备,x86 主要用于PC。CPU 的基本组成单元即为核心(core)。核心的实现方式我们称为架构,比较经典的是冯诺依曼的计算架构,GPU、ASIC、FPGA 等都是采用的冯诺依曼计算架构。CPU 由运算器和控制器组成,其结构如下: 图 1 CPU 的内部结构 我们可以从图上了解到,传统的CPU主要是靠单独的ALU模块来完成数据的计算的,也就是我们通常所说的逻辑运算单元,在数据计算的时候我们需要指令一条接一条的按照顺序执行,这就导致在大量数据需要计算的时候,尤其是在功耗限制的情况下,其计算速度就显得有些缓慢了。 1980 年,个人计算机出现,显示使用的是 VGA 控制器,VGA 进一步加强尊龙凯时 (中国)人生就是搏!,慢慢的可以显示一些比较复杂的图形,然后有了 3D 加速功能,1999 年,NVIDA GeForce256 将(TRANSFORM AND LIGHTING)等功能从 CPU 分离出来,从而实现了数据的快速变换,这时,GPU 开始出现,将更多的晶体管用作执行单元,GPU 成为并行加速计算的处理器,我们的计算机的单元是通过像素点来显示图形,通过二维数据的矩阵进行图形的处理和显示,GPU 的运算单元通过矩阵排列的方式可以并行完成数据处理。 传统的计算机架构主要有 ASIC、FPGA、GPU 为代表,其次就是采用类脑神经结构来提升计算能力,以IBM TrueNorth芯片为代表。我们通常说的 AI 芯片指的是针对 AI 算法的ASIC,AI 算法主要是通过矩阵或者 vector 的乘法、加法,然后配合一些除法、指数等算法进行图像识别。AI 算法是由多层网络组合而成,需要逐层进行计算。ASIC 是一种根据产品的需求进行特定设计和制造的集成电路,虽然能够在某些特定功能上进行强化,其处理速度相对于 CPU、FPGA 比较高,而且能耗也更低。但是 ASIC 的成本较高,同时也仅限于定制化,具有一定的局限性。 产业是需求促进了 AI 芯片技术的进步,目前的 AI 芯片从其使用的领域来看,主要分为了端 AI 芯片和云 AI 芯片,在一般的智能设备上主要使用的是端 AI 芯片,在云端服务器或者是数据中心中,则主要使用的是云 AI 芯片。 I 2 AI 架构的分类 随着摩尔定律时间周期的拉长,在处理器上可集成的器件的数量也会达到极限,为了满足数据量的增长,需要通过架构的变化来达到数据的处理要求,通常,AI 芯片从技术架构上可以分为四种类型。 第一,通用类芯片,代表如 GPU、FPGA。GPU 的主要功能是对图形的处理,GPU 开发比较成功的是 NVIDIA 公司尊龙凯时 (中国)人生就是搏!,NVIDIA 公司开始聚焦底层计算,开始转型开发 AI 平台的搭建,搭建一个高效的平台。但是当 AI 芯片在执行应用时,GPU 主要是图形处理,不能很好发发挥其并行处理的优势,其能耗也相应的增加,FPGA 的全称是一种现场的可编程门阵列,FPGA 作为一种半定制的电路,主要是用于集成电路,FPGA主要是在是在 CPLD、GAL、PAL 等可编程器件的基础上发展而来的。FPGA 的优点是既克服了 PAL 等可编程器件门电路数量有限的问题,同时,也解决了定制电路所存在的不足。相比较之下,GPU 则主要是用于多数据、单指令的处理,它主要是用作在处理图像时的运算加速。GPU 在工作的时候必须通过 CPU 的调控,在处理一些类型统一的大数据时,CPU 可以调用GPU进行并行计算。GPU相对于FPGA来说通用性要强,可用于一些大型的人工智能平台。 第二,基于FPGA的半定制化芯片,代表如深鉴科技DPU、百度 XPU 等。DPU 是深度学习处理器,它主要是一种基于 FPGA的神经网络处理器。百度 XPU 是一种基于 FPGA 的云计算加速芯片,XPU 主要是用于处理多样化的大数据计算从而达到在性能和效率之间的平衡。FPGA 在研发和使用上都已经形成了一定规模,一般来说,FPGA 主要用于单数据流的分析,比如说云端数据流的分析预测。 第三,定制化 ASIC 芯片,代表如 TPU、寒武纪 Cambricon-1A 等。ASIC 是一种定制化的集成电路。TPU 是 Tensor Processing Unit Google 的张量处理器,TPU 实现了脉动阵列的流处理结构。定制化的 ASIC 芯片功耗比较低,可靠性高,但是不能扩展,用于实现特定的数据处理要求。 第四,类脑计算芯片,代表如高通 Zeroth、westwell、IBM TrueNorth、等。 类脑计算主要是通过硬件与软件进行借鉴类似大脑进行信息处理的规律,极大的提升了计算效率,目前高通、英特尔、IBM 等公司的类脑芯片都是采用硬件来模仿大脑的神经突触,但是要实现这一功能在技术层面是具有非常大的难度。虽然说类脑芯片在技术层面上还面临着许多难度,但是其发展潜力巨大,很可能成为未来芯片技术的主流。 AI 芯片的架构应对数据处理的优先级和方式有不同的区别,优先级不同,数据处理的方式也不同,数据洪流时代之下,