史上最大AI芯片诞生:462平方厘米、40万核心,创下4项世界纪录

maliang 原创
2019-08-20 环球百事网

晓查 发自 凹非寺

量子位 报道 | 公众号 QbitAI

(*)

高性能深度学习需要大量计算,并且频繁访问数据。这需要计算核心和存储器之间的紧密接近,但是在GPU中并非如此,大容量的显存并不在GPU核心上,而是外置的。

WSE将逻辑运算、通讯和存储器集成到单个硅片上,是一种专门用于深度学习的芯片。它创下了4项世界纪录:

WSE由台积电代工,但是并没有使用当前最先进的7nm工艺,而是使用相对较老的16nm制程工艺制造。

台积电运营高级副总裁JK Wang表示:“我们对与Cerebras合作制造WSE非常满意,这是晶圆级开发的行业里程碑。”

虽然WSE制造成本可能很高,但Cerebras认为片上互连比构建和连接独立的内核速度更快、成本更低。

与其他芯片对比

WSE可以说是个庞然大物,一般的芯片都可以放在手掌心,而WSE面积比Mac的键盘还要大。官方在介绍这款芯片时,需要用双手捧着,和展示晶圆没什么两样。

(*)

WSE面积比英伟达最大的GPU核心V100还要大56倍,V100核心的尺寸为815平方毫米,包含211亿个晶体管。

最近AMD为数据中心提供的Epyc 2芯片,也是世界上最快的x86处理器,也只有320亿个晶体管,数量仅为WSE的30分之一。

英特尔最新的桌面级处理器i9-9900k有16MB缓存,英伟达RTX 2080Ti有5.5MB二级缓存,在WSE 18GB缓存面前也是小巫见大巫。RTX 2080Ti已经堪称功耗怪兽,TDP为250W,而WSE则需要15千瓦的供电。

性能参数

WSE包含40万个对AI优化的计算核心,称为稀疏线性代数核心(SLAC),它灵活、可编程,并针对支持所有神经网络计算的稀疏线性代数进行了优化。

SLAC的可编程性确保内核可以在不断变化的机器学习领域中运行所有神经网络算法。

由于稀疏线性代数核心针对神经网络计算基元进行了优化,因此它们可实现业界最佳利用率,通常是GPU的3~4倍。此外,WSE核心包括Cerebras发明的稀疏性收集技术,加速深度学习这类稀疏工作负载的计算性能。

零在深度学习计算中很普遍。通常要相乘的向量和矩阵中的大多数元素都是零。然而乘以零会浪费计算资源。

(*)

通常GPU和TPU被设计为永不遇到零的计算引擎,它们即使有零也会乘以每个元素。当深度学习中50-98%的数据为零时,大多数乘法都被浪费了。

由于Cerebras稀疏线性代数核心不会乘以零,所有零数据都会被滤除,并且可以在硬件中跳过,从而可以用着节约的资源去完成有用的工作。

内存是每个计算机体系结构的关键组件。更接近计算核心的缓存能带来更低的延迟和更好的数据移动效率。

美国一家芯片公司Cerebras推出了史上最大AI芯片,号称“晶圆级引擎”(Cerebras Wafer Scale Engine,简称WSE)。

WSE片上的缓存达到了18GB,是GPU缓存的3000倍;可提供每秒9PB的内存带宽, 比GPU快10,000倍。

Swarm是WSE上使用的处理器之间的通信结构,它只用传统通讯技术功耗的几分之一就实现了突破性的带宽和低延迟。

Swarm提供低延迟、高带宽的2D网格,可连接WSE上的所有40万个核心,带宽为每秒100 petabits。WSE通信能量成本远低于每比特1pJ,这比图形处理单元低近两个数量级。

面临的问题

为何其他芯片厂商不制造如此大尺寸的芯片呢?这是因为在制造晶圆的过程中不可避免会有一些杂质,这些杂质会导致芯片的故障。

通常的做法是将一片很大的晶圆切割成若干个小片,从中挑选出其中可用的部分,封装成芯片,而将报废部分丢弃。

而Cerebras的芯片已经和晶圆面积差不多大了,是在一个晶圆上切割出一块大的芯片,制造过程中不可避免会产生缺陷。

为了解决缺陷导致良率不高的问题,Cerebras在设计的芯片时候考虑了1~1.5%的冗余,添加了额外的核心,当某个核心出现问题时将其屏蔽不用,因此有杂质不会导致整个芯片报废。

4 个生活场景详解 BAT 面试中的死锁问题 魅族新系统曝光:去线留白!7+1=Flyme 8? iPhone上最智障的功能,终于有救 马云在位的最后14天!却再次创造阿里神话,网友:宝刀未老! 堆料更狠了,小米MIX4或迎来一波涨价:冲击高端 苹果“去刘海化”,名则创新,实则退步
热门文章
为你推荐