尊龙凯时 (中国)人生就是搏!103亿晶体管,4.7倍AI算力,华为发布全球最强5G芯片麒麟990,月底登陆Mate30
刚刚发布的麒麟 990 是华为第三代 AI 芯片加持的手机处理器,也是第一代采用华为自研「达芬奇」架构的手机处理器,更重要的是,这款芯片将首次内置 5G 基带,这意味着 5G 终于走向了实用化。据悉,麒麟 990 芯片将于月底搭载于 Mate30 手机上,很快与消费者见面。
「这是世界上性能最强的 5G SoC,」华为消费者业务 CEO 余承东在发布会上表示。「也是业界首个,当今唯一一个旗舰级别的 5G 手机 SoC。」
在德国慕尼黑今天举行的 IFA 2019 展会开场 Keynote 上,余承东发布了华为新一代旗舰手机芯片麒麟 990。这块芯片采用台积电第二代 7 纳米工艺打造,在 AI 计算方面首次采用了达芬奇架构的自研 NPU,而且改用了「两大核一小核」的设计,AI 算力超越骁龙 855 近 5 倍。而在图形计算方面,麒麟 990 的 GPU 核心数一下子从 10 核增加到了 16 核。
性能与核心数的提升并没有让芯片体积变大:这一代麒麟 990 的板级面积相比业界其他方案要小 36%。
今天发布的麒麟 990 实际上是两款芯片:麒麟 990 5G 版和麒麟 990。两款芯片支持的通信网络有所不同,所采用的制程和性能也不尽相同。华为表示,之所以将这一代旗舰手机芯片分成两款推出,是为了照顾到国外很多还没有发展 5G 服务的地区。
在麒麟 990 芯片于德国发布的同时,机器之心也在北京与华为芯片和硬件的产品和技术规划负责人、华为 Fellow 艾伟进行了对话,他向我们介绍了麒麟 990 采用的最新技术,并对 5G+AI 技术的未来进行了展望。艾伟表示,「麒麟990将是用户第一个拿到手机的SoC集成5G基带芯片的SoC级产品」。
「A 公司目前还没有自己的解决方案,另外还有 Q 公司和 S 公司,他们的解决方案都是外挂模组实现的 5G 网络。」余承东表示,「还有一些公司发布的集成版 5G 芯片不知道什么时候才会上市。麒麟是首个和唯一一个集成了 5G 基带芯片的 SoC。」
为什么内置 5G 基带这么重要?首先,将 5G 基带集成到手机 SoC 中后,因为效率提升,从能耗上来看手机和 4G 时代的手机使用习惯是一样的。所以,5G 集成的 SoC 是整个产业技术到位的标志。
华为麒麟 990 芯片可以达到 2.3Gbps 下行速率,这也是目前 5G 通信理论上的最高值,上行速率则为 1.25Gbps。同时,这款芯片率先支持 5G 双卡,一卡 5G 上网的同时,另一卡可接听 VoLTE 高清语音通话。
「目前我们认为,麒麟 990 将是用户第一个拿到手机的 SoC 集成 5G 基带芯片产品,而且完全是不同档位的产品,和此前其他厂商的产品完全没有可比性。」艾伟表示。
除了集成基带之外,华为还对于 5G 网络进行了很多优化。首先,华为芯片基于机器学习的自适应接收机制,在高速移动的场景下,实现了更高的下行速率,效率比其他厂商的产品更高。
在弱信号的情况,由于各国的 5G 网络还处于初期布局阶段,基站数量较少,麒麟 990 的智能上行分流设计可以在这种情况下实现更高的吞吐量。在视频直播、短视频上传等应用场景同时使用 5G 和 4G 网络,上传速率提升 5.8 倍,优化 5G 上行体验。为解决 5G 带来的功耗问题,麒麟 990 5G 率先支持 BWP(Bandwidth Part)技术,在 5G 大带宽条件下实现带宽资源的灵活切换,与业界主流旗舰芯片相比,5G 功耗表现优44%,带来更长效的 5G 体验。面向高速移动场景,麒麟 990 5G 支持基于机器学习的自适应接收机,实现更精准的信道测量,下行速率提升 19%,实现稳定的 5G 联接。
麒麟 990 5G 拥有最好的 5G 解决方案,另一方面功耗也有最好的表现。在下行速率 1.2Gbps 情况下的实测高于骁龙 855+ 外接 5G。当然,因为麒麟 990 5G 先行使用了目前台积电最新制程,华为表示芯片的成本也会提高很多。
每年的 IFA 展会都是各家科技公司争发新品的时间点,就在 2 天前,三星抢先华为一步发布了内置 5G 基带芯片的「猎户座」980 芯片(Exynos 980)。它采用三星自家的 8nm FinFET 工艺制程,在芯片工艺上似乎还是慢了华为一拍。
三星称,猎户座 980 不仅支持 Sub-6GHz 的 5G 网络,还支持 5G 毫米波频段。在 Sub-6GHz 频段,最高下行速率可达 2.55Gbps,最高上行速率达 1.28Gbps。但这一下载速率也引发了华为手机产品线副总裁李小龙的质疑尊龙凯时 (中国)人生就是搏!。
不过这颗猎户座将于今年年底开始批量生产,落地到 5G 终端上的时间尚不明确,到底谁会是最先落地的 5G 芯片?
麒麟 990 芯片的尺寸比上一代 980 还要小,然而却集成了多达 103 亿个晶体管——比去年麒麟 980 的晶体管数量多出了近 50%,这一数量也让它成为了目前手机上晶体管数量最高的芯片。
如此强大的算力,不仅是为了提升 AI 性能,也是为了能够塞进 5G 基带,并尽可能的降低功耗。艾伟表示此前麒麟 980+巴龙 5000,以及高通的骁龙 855+X55 外挂 5G 解决方案的推出说明计算芯片和通信芯片两边的技术都已解决。但若想降低功耗,则必须要使用更为先进的制程工艺。
「上一代的麒麟 980 有 69 亿晶体管,麒麟 990 已有 103 亿晶体管。对于 5G 通信,问题在于怎样在不影响功耗的基础上解决问题。在这里如果效率不够高,晶体管数量还会更多,」艾伟表示。「而我们目前看到的很多 5G 芯片规格都不是旗舰机的规格,旗舰机用旧的工艺是支撑不了的。」
在芯片制程上,去年台积电就量产了 7nm 工艺,并已在苹果 A12、麒麟 980 等芯片上应用,相比之前的 10nm 工艺有了较大提升。但第一代 7 纳米工艺并没有使用 EUV 光刻机,在今年量产的第二代 7nm EUV 工艺上,华为麒麟再次抢占了首发位置。
这也就是为什么麒麟 990 在没有使用最新 Arm 内核的情况下还提升了性能的原因:麒麟 990 上的 CPU、GPU 型号依然沿用了 Cortex A76 和 Mali-G76,呈 2 大核+2 中核+4 小核设计,最高主频可达 2.86GHz。与业界主流旗舰芯片相比,麒麟 990 的单核性能高 10%,多核性能高 9%。能效方面针对不同大小的核精细调校,大核能效优 12%,中核能效优 35%,小核能效优 15%。
麒麟 990 5G 搭载的 16 核 Mali-G76 GPU,与业界主流旗舰芯片相比,图形处理性能高 6%,能效优 20%。全新系统级 Smart Cache 分流,支持智能分配 DDR 数据,在重载游戏等大带宽场景下带宽较上一代最高可节省 15%,功耗可降低 12%,进一步提升 GPU 能效。
「昨天,我看到了友商发布了一款 PPT 芯片,」余承东说道。「他们的 GPU(Mali-G77)只有 5 核,我们的手机芯片是旗舰机的。」
拍照一直是华为手机领先的领域,麒麟 990 搭载了全新 Kirin ISP 5.0,全球首发手机端 BM3D(Block-Matching and 3D filtering)专业图像降噪技术。据余承东介绍,这是一种业内领先的图像降噪算法,此前主要被应用在单反相机上——从未出现在手机上。
「为什么其他厂家想不到?这主要是能力问题,」艾伟表示。「手机摄像头天生比单反相机的感光面积小,所以我们要必须使用专有的算法,并控制功耗,同时避免成像时间太长。麒麟 990 全球首发的双域联合视频降噪技术,在空域视频降噪和时域降噪之外,又加入了频域降噪技术。几种方法叠加起来,我们获得了更好的效果。」
自 2017 年起,华为接连推出了全球首款搭载 AI 处理器的手机芯片麒麟 970,首款搭载双核 NPU 的麒麟 980,一直引领着旗舰手机处理器的创新之路。值得一提的是,华为这次还为来到发布会现场的每个人发了一本新书《熵减:华为活力之源》,其中首次披露了华为麒麟系列芯片的研发历程。
中美贸易战对于华为的芯片研发也有很大影响。前不久,在华为 8 月 23 日发布升腾 910 芯片的活动中,徐直军就曾表示华为已经与三家 EDA 公司 Synopsys、Cadence、Mentor 停止了合作。接下来华为的芯片设计软件将会转向哪家?在活动中,艾伟表示:未来我们会自己做。
麒麟 990 首次在华为旗舰手机芯片中采用了自研的 NPU,而且这次还采用了两个大核(昇腾 Lite)一个小核(昇腾 Tiny)的新设计,华为表示这是为了更为贴近手机的日常使用,为减小功耗而设计。通常,小核可以用来承载智能语音唤醒、语音识别、人脸解锁等任务的计算任务,同时也可以负责唤醒大核,并可以和大核共同进行 AI 任务计算。
在人脸识别的应用场景下,NPU 微核的能效可达大核的 24 倍,让 AI 运算更省电。华为表示采用这种设计,手机每天的耗电量可以减少 5%。
华为表示,新的 NPU 性能在 AI 算力上已经比麒麟 970 提升了 12 倍,比麒麟 980 提升了 1.88 倍。毫无疑问这是目前手机上最强的 AI 算力了。如此强大的算力可以支持实时的图像多实例分割:为多人物背景替换等应用。
在双大核 NPU(Ascend Lite×2)的加持下,麒麟 990 5G 与业界其他旗舰 AI 芯片相比,性能优势高达 6 倍,能效优势高达 8 倍。无论是在业界典型的中载神经网络模型 ResNet50(用于检测、分割和识别),还是在移动端更流行的轻载神经网络模型 MobilenetV1(用于分类、检测、嵌入和分割)下,麒麟 990 5G 的 FP16 和 int8 性能和能效均达到业界最佳水平。
「达芬奇」是华为近期推出的神经网络处理单元新架构,最早出现于今年 7 月随荣耀 9X 推出的麒麟 810 手机芯片上,随后又出现于今年 8 月的服务器级 AI 芯片昇腾 910 上。达芬奇架是在 Arm 架构基础之上研发的 AI 硬件处理单元,其 AI 加速器(达芬奇 NPU)采用了创新的 3D Cube 针对矩阵运算进行加速,大幅提升了单位功耗下的 AI 算力。
具体来说,达芬奇 NPU 的每个 AI Core 可以在一个时钟周期内实现 4096 个 MAC 操作,相比传统的 CPU 和 GPU 实现数量级的提升。
目前常见的 AI 计算,其核心是矩阵乘法运算,计算时由左矩阵的一行和右矩阵的一列相乘,每个元素相乘之后的和输出到结果矩阵。在此计算过程中,标量(Scalar)、向量(Vector)、矩阵(Matrix)算力密度依次增加,对硬件的 AI 运算能力不断提出更高要求。
典型的神经网络模型计算量都非常大,这其中 99% 的计算都需要用到矩阵乘,也就是说,如果提高矩阵乘的运算效率,就能最大程度上提升 AI 算力——这也是达芬奇架构设计的核心:以最小的计算代价增加矩阵乘的算力,实现更高的 AI 能效。
同时,为了提升 AI 计算的完备性和不同场景的计算效率,达芬奇架构还集成了向量、标量、硬件加速器等多种计算单元。同时支持多种精度计算,支撑训练和推理两种场景的数据精度要求,实现 AI 的全场景需求覆盖。
在苏黎世理工推出的 AI Benchmark 上,麒麟 990 也获得了非常高的分数——超越此前最高的麒麟 810 接近一倍:
余承东表示,麒麟 990 的 AI 计算表现是高通骁龙 855 的 476%。
华为认为,只有到芯片制程进入到 7 纳米后 5G 才能够实用化。在麒麟 990 等下一代芯片推出以后,未来的一年内将会出现多达 1 亿 5G+AI 用户,这将催生出一些我们现在还想象不到的新应用。不过,开发新形式的应用还需要整个行业的共同努力。
麒麟 990 5G 也将为 HiAI 2.0 开放平台注入新的能量。余承东表示,华为提供了完备的 IDE 工具,Android Studio 插件,其支持代码自动生成等功能。另外,华为开放了达芬奇架构 IR 工具尊龙凯时 (中国)人生就是搏!,支持业界主流框架对接,实现更加完备的兼容性,让算法开发者们可以保持原有的开发习惯,在 HiAI 平台上自动获取加速能力。
「消费者买到手机的时候,实际上他买到了大量的服务——并不是说华为包打天下,」艾伟表示。「从历史上看,在 2G 时代,运营商逐步建网,我们还需要购买进口手机。在 3G 和 4G 时代,随着移动互联网的兴起,各类应用逐步发展起来,而国内的网络覆盖率现在已经远远高于世界上其他国家。我们享受的 4G 体验已经超过了其他国家。」
过去两年之间,华为麒麟的人工智能 API 调用次数已经超过了 1.6 万亿次,涉及拍照、旅行、购物、健康、教育、创意等多种不同领域。未来的 5G 会变成什么样,目前我们还不清楚。但中国是最有条件去探索的国家。至少在这个产业里,我们已经不用去看其他人是怎么做的,因为我们自己就是探索者了。中国未来或许会成为其他国家参考的榜样。
「我自 1993 年起进入通信行业,到现在已有 26 年,今天正在发生的情况还是头一次。」艾伟说道。
在未来,因为 5G 大大降低了通信延迟,并提升了带宽,我们可以实现端云协同的实时推理,全新的 AI 和 AR 应用将会进入我们的生活。
如此强大的芯片当然会出现在旗舰手机当中,余承东确认,麒麟 990 两款芯片将会率先搭载于华为 mate 30 系列手机上,而 Mate 30 很快就会在 9 月 19 日于德国正式发布尊龙凯时 (中国)人生就是搏!。