加入收藏 | 设为首页 | 会员中心 | 我要投稿 新余站长网 (https://www.0790zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 综合聚焦 > 移动互联 > 评测 > 正文

全球十大AI训练芯片大盘点

发布时间:2019-10-17 23:30:10 所属栏目:评测 来源:乾明
导读:本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。 AI芯片哪家强?现在,有直接的对比与参考了。 英国一名资深芯片工程师James W. Hanlon,盘点了当前十大AI训练芯片。 并给出了各个指标的横向对比,也是目前对AI训练芯片最新的讨论与梳

Graphcore IPU是这家公司的明星产品,其架构与大量具有小内存的简单处理器高度并行,通过一个高带宽的“交换”互连连接在一起。

全球十大AI训练芯片大盘点:华为昇腾910是中国唯一入选

其架构在一个大容量同步并行(BSP)模型下运行,程序的执行按照一系列计算和交换阶段进行。同步用于确保所有进程准备好开始交换。

BSP模型是一个强大的编程抽象,用于排除并发性风险,并且BSP的执行,允许计算和交换阶段充分利用芯片的能源,从而更好地控制功耗。可以通过链接10个IPU间链路来建立更大的IPU芯片系统。其核心数据如下:

  • 16nm制程,236亿个晶体管,芯片面积大约为800平方毫米,功耗为150W,PCIe卡为300 W
  • 1216个处理器,在FP32累加的情况下,FP16算法峰值达到125 TFLOPs
  • 分布在处理器核心之间有300 MB的片上内存,提供45 TBps的总访问带宽
  • 所有的模型状态保存在芯片上,没有直接连接DRAM

IO数据:

  • 2x PCIe-4的主机传输链接
  • 10倍的卡间IPU链接
  • 共384GBps的传输带宽

单核数据:

  • 混合精度浮点随机算法
  • 最多运行六个线程

拓展阅读:

成立两年估值17亿美元,这家Hinton点赞的AI芯片公司获宝马微软投资

Habana Labs Gaudi

Habana Labs同样成立于2016年,是一家以色列AI芯片公司。

2018年11月,完成7500万美元的B轮募资,总募资约1.2亿美元。

Gaudi芯片于今年6月亮相,直接对标英伟达的V100。

其整体的设计,与GPU也有相似之处,尤其是更多的SIMD并行性和HBM2内存。

全球十大AI训练芯片大盘点:华为昇腾910是中国唯一入选

芯片集成了10个100G 以太网链路,支持远程直接内存访问(RDMA)。与英伟达的NVLink或OpenCAPI相比,这种数据传输功能允许使用商用网络设备构建大型系统。其核心数据如下:

  • TSMC 16 nm制程(CoWoS工艺),芯片尺寸大约为500平方毫米
  • 异构架构:GEMM操作引擎、8个张量处理核(TPCs)
  • SRAM内存共享
  • PCIe卡功耗为200W,夹层卡为300W
  • 片上内存未知

TPC核心数据:

  • VLIW SIMD并行性和一个本地SRAM内存
  • 支持混合精度运算:FP32、 BF16,以及整数格式运算(INT32、INT16、INT8、UINT32、UINT8)
  • 随机数生成、超越函数:Sigmoid、Tanh、GeLU

IO数据:

  • 4x 提供32 GB的HBM2-2000 DRAM 堆栈, 整体达1 TBps
  • 芯片上集成10x 100GbE 接口,支持融合以太网上的 RDMA (RoCE v2)
  • PCIe-4 x16主机接口

Huawei Ascend 910

华为昇腾910,同样直接对标英伟达V100,于今年8月份正式商用,号称业内算力最强的AI训练芯片。主打深度学习的训练场景,主要客户面向AI数据科学家和工程师。

全球十大AI训练芯片大盘点

其核心数据为:

  • 7nm+EUV工艺,456平方毫米
  • 集成4个96平方毫米的 HBM2栈和 Nimbus IO处理器芯片
  • 32个达芬奇内核
  • FP16性能峰值256TFLOPs (32x4096x2) ,是 INT8的两倍
  • 32 MB的片上 SRAM (L2缓存)
  • 功耗350W

互联和IO数据:

  • 内核在6 x 4的2d网格封包交换网路中相互连接,每个内核提供128 GBps 的双向带宽
  • 4 TBps的L2缓存访问
  • 1.2 TBps HBM2接入带宽
  • 3x30GBps 芯片内部 IOs
  • 2 x 25 GBps RoCE 网络接口

单个达芬奇内核数据:

  • 3D 16x16x16矩阵乘法单元,提供4,096个 FP16 MACs 和8,192个 INT8 MACs
  • 针对 FP32(x64)、 FP16(x128)和 INT8(x256)的2,048位 SIMD 向量运算
  • 支持标量操作

拓展阅读:

华为算力最强AI芯片商用:2倍于英伟达V100!开源AI框架,对标TensorFlow和PyTorch

Intel NNP-T

这是Xeon Phi之后,英特尔再次进军AI训练芯片,历时4年,壕购4家创业公司,花费超过5亿美元,在今年8月份发布。

神经网络训练处理器NNP-T中的“T”指Train,也就是说这款芯片用于AI推理,处理器代号为Spring Crest。

NNP-T将由英特尔的竞争对手台积电(TSMC)制造,采用16nm FF+工艺。

(编辑:新余站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读