gpu加速（如何提高ai运行速度）

书影 • 2022-12-20 11:32:00 • 百科知识

在上一篇文章中，前苹果工程师、普林斯顿大学博士 Adi Fuchs 聚焦 AI 加速器的秘密基石：指令集架构 ISA、可重构处理器等。在这篇文章中，我们将跟着作者的思路回顾一下相关 AI 硬件公司，看看都有哪些公司在这一领域发力。

这是本系列博客的第四篇，主要介绍了 AI 加速器相关公司。全球科技行业最热门的领域之一是 AI 硬件，本文回顾了 AI 硬件行业现状，并概述相关公司在寻找解决 AI 硬件加速问题的最佳方法时所做的不同赌注。

对于许多 AI 硬件公司来说，最近几年似乎是 AI 硬件发展的黄金时代；过去三年英伟达股价暴涨约 500%，超越英特尔成为全球市值最高的芯片公司。其他创业公司似乎同样火爆，在过去几年中，他们已花费数十亿美元资助 AI 硬件初创公司，以挑战英伟达的 AI 领导地位。

ImageNet 挑战赛：使用 GPU 的获胜误差和百分比。图源：英伟达

从历史上看，人们可能会说英伟达是幸运的，因为当 CUDA 流行和成熟时，现代 AI 就开始了。或者有人可能会争辩说，正是 GPU 和 CUDA 的成熟和普及使研究人员能够方便高效地开发 AI 应用程序。无论哪种方式，历史都是由赢家书写的 —— 事实上，最有影响力的 AI 研究，如 AlexNet、ResNet 和 Transformer 都是在 GPU 上实现和评估的，而当 AI 寒武纪爆发时，英伟达处于领先地位。

SIMT 执行模型。图源：英伟达

GPU 遵循单指令多线程 (SIMT) 的编程模型，其中相同的指令在不同的内核 / 线程上并发执行，每条指令都按照其分配的线程 ID 来执行数据部分。所有内核都以帧同步（lock-step）方式运行线程，这极大地简化了控制流。另一方面，SIMT 在概念上仍然是一个多线程类 c 的编程模型，它被重新用于 AI，但它并不是专门为 AI 设计的。由于神经网络应用程序和硬件处理都可以被描述为计算图，因此拥有一个捕获图语义的编程框架会更自然、更有效。

虽然从 CPU 转向 GPU 架构是朝着正确方向迈出的一大步，但这还不够。GPU 仍然是传统架构，采用与 CPU 相同的计算模型。CPU 受其架构限制，在科学应用等领域逐渐被 GPU 取代。因此，通过联合设计专门针对 AI 的计算模型和硬件，才有希望在 AI 应用市场占有一席之地。

第二代 IPU 芯片图。图源 GraphCore

IPU 由 tiled 多核设计组成，tiled 架构由 MIT 于 2000 年代初研发，该设计描述了复制结构的 2D 网格，每个网格都结合了网络交换机、小型本地内存和处理核心。第一代 IPU 有 1216 个 tile，目前第二代 IPU 有 1472 个 tile。每个 IPU 内核最多可以执行 6 个线程，这些线程是包含其专有指令集架构 (ISA) 的代码流。

IPU 采用的是大规模并行同构众核架构。其最基本的硬件处理单元是 IPU-Core，它是一个 SMT 多线程处理器，可以同时跑 6 个线程，更接近多线程 CPU，而非 GPU 的 SIMD/SIMT 架构。IPU-Tiles 由 IPU-Core 和本地的存储器（256KB SRAM）组成，共有 1216 个。因此，一颗 IPU 芯片大约有 300MB 的片上存储器，且无外部 DRAM 接口。连接 IPU-Tiles 的互联机制称作 IPU-Exchange，可以实现无阻塞的 all-to-all 通信，共有大约 8TB 的带宽。最后，IPU-Links 实现多芯片互联，PCIe 实现和 Host CPU 的连接。

可重构数据流

Wave Computing、SambaNova 和 SimpleMAChines 是三家推出加速器芯片的初创公司。其中 Wave Computing 成立于 2008 年，其使命是「通过可扩展的实时 AI 解决方案，从边缘到数据中心革新深度学习」，该公司由 Dado Banatao 和 Pete Foley 创立。一段时间以来，它一直处于隐身模式，从各种来源获得资金。

Wave Computing 的核心产品是数据流处理器单元（DPU），采用非冯诺依曼架构的软件可动态重构处理器 CGRA（Coarse grain reconfigurable array/accelerator）技术，适用于大规模异步并行计算问题。2019 年前后，Wave Computing 针对边缘计算市场的算力需求，将 MIPS 技术与 Wave 旗下 WaveFlow 和 WaveTensor 技术相结合，推出 TritonAI 64 IP 平台。但不幸的是，它在 2020 年申请了破产保护。

基于时间的 DPU 核映射。图源：Wave Computing

SambaNova 成立于 2017 年底，自那以来，该公司获得了由 Google Ventures，Intel Capital 和 Blackrock 领导的三轮融资以及在美国能源部的 Laurence Livermore 和 Los Alamos 的部署。他们现在已经可以为一些客户提供新产品。

SimpleMachines 的 Mozart 芯片。图源：SimpleMachines

该公司的首个 AI 芯片是 Mozart，该芯片针对推理进行了优化，在设计中使用了 16 纳米工艺，HBM2 高带宽内存和 PCIe Gen3x16 尺寸。2020 年，SimpleMachine 发布了第一代加速器，该加速器基于 Mozart 芯片，其由一个可配置的 tile 数组组成，它们依赖于控制、计算、数据收集等的专业化。

脉动阵列 VLIW: TPUv1、Groq、Habana

TPU

世界上首个专门为 AI 量身定制的处理器之一是张量处理单元（TPU），也称张量处理器，是 Google 开发的专用集成电路（ASIC），专门用于加速机器学习。自 2015 年起，谷歌就已经开始在内部使用 TPU，并于 2018 年将 TPU 提供给第三方使用，既将部分 TPU 作为其云基础架构的一部分，也将部分小型版本的 TPU 用于销售。

Groq TSP 执行框图。图源：Groq

Groq 的核心是张量流处理器（TSP）。TSP 架构与 TPU 有很多共同之处：两种架构都严重依赖脉动阵列来完成繁重的工作。与第一代 TPU 相比，TSP 增加了向量单元和转置置换单元（在第二代和第三代 TPU 上也可以找到）。

Esperanto 的 ET-SoC-1 的架构图。图源：Esperanto/HotChips

TensTorrent

TensTorrent 成立于 2016 年，总部位于加拿大多伦多，目前估值 10 亿美元，这是一家计算公司，开发旨在帮助更快和适应未来算法的处理器。TensTorrent 提供的芯片系列不仅针对数据中心，也针对小型平台，此外，他们还提供 DevCloud。

TensTorrent 核心。图源：YouTube/TensTorrent

Mythic

Mythic 是 AI 硬件领域最早的初创公司之一，它成立于 2012 年。迈克?亨利（Mike Henry）和戴夫?菲克（Dave Fick）为公司的核心创始人，他们分别担任 Mythic 公司的董事长和 CTO。该公司非常重视具备能源效率和成本更低的模拟技术，Mythic 提出了如何在模拟电路中使用较小的非数字电路电流来降低能量的消耗。

光子学与电子学计算属性。图源：HotChips/LightMatter

LightMatter 设计了一种基于脉动阵列的方法，通过使用编码为光信号波中不同相位的相移来操纵光子输入信号，以执行乘法和累加操作。由于光子学数据以光速流动，LightMatter 芯片以非常高的速度执行矩阵和矢量化运算，并且功率可降低几个数量级。

LightMatter 在 2021 年开始发售其首款基于光子的 AI 芯片 ——Envise，并为常规数据中心提供包含 16 个这种芯片的刀锋服务器。该公司目前已从 GV（前 Google Ventures）、Spark Capital 和 Matrix Partners 筹集到了 2200 万美元。

LightMatter 声称，他们推出的 Envise 芯片的运行速度比最先进的 Nvidia A100 AI 芯片快 1.5 至 10 倍，具体根据任务的不同有所差异。以运行 BERT 自然语言模型为例，Envise 的速度是英伟达芯片的 5 倍，并且仅消耗了其六分之一的功率。

Envise。图源：LightMatter

NeuReality

NeuReality 是一家于 2019 年在以色列成立的初创公司，由 Tanach 、 Tzvika Shmueli 和 Yossi Kasus 共同创立。

2021 年 2 月，NeuReality 推出了 NR1-P，这是一个以 AI 为中心的推理平台。2021 年 11 月，NeuReality 宣布与 IBM 建立合作伙伴关系，其中包括许可 IBM 的低精度 AI 内核来构建 NR1，这是一种非原型生产级服务器，与 FPGA 原型相比， AI 应用程序效率更高。

NeuReality NR1-P 原型。图源：ZDNet

本文来自作者:书影，不代表小新网立场！

转载请注明：https://www.xiaoxinys.cn/304908.html

书影注册用户

感动正能量的句子说说心情短语

上一篇 2022-12-20 11:29:00

孟晚舟已被引渡美国（为什么孟晚舟被软禁）

下一篇 2022-12-20 11:33:00

投稿

唐朝画家,被尊称为“画圣”，金桥三绝是哪三绝

03、金桥三绝开元十三年（公元725），唐玄宗到泰山封禅。吴道子随同皇帝一起出巡。封禅结束，皇帝的车队返回至潞州，车驾驶过金桥，唐玄宗看见整个仪仗队“曲折萦转”，延绵“数千里”，…

常悦销售向薪力
2023-04-03
网站改版如何降低对于seo优化的影响

在站点的实际运营中，网站的改版基本上是不可避免的，网站改版对于seo优化的影响相当于是一个未知数，很多的时候都超出了我们的预期。网站改版分为两种，一种是结构上的改版，一种是版式上的…

大咖说事
创业经验 2022-07-21
淘宝运营

淘宝店前期怎么做起来（开淘宝店前期如何运作）

做淘宝的都知道想要赚钱没有捷径可走，只有把细微处做精，才能有机会获得流量，淘宝向来都是以商品种类多著名，不管多稀奇古怪的商品在淘宝都能搜到，这也侧面反映出卖家面临的竞争压力有多么大…

路逸轿运-
2022-05-14
投稿

内存卡价格为什么差那么多(小米官网简介内容)

IT之家 12 月 28 日消息，近期小米商城上架了一款固速视频监控存储卡，支持广泛适配，数码设备理想伴侣。其中 32GB 售价 39.9 元，64GB 售价 59.9 元。小米…

科技无忧
2023-01-09
百科知识

宙斯和奥丁是什么关系（奥丁为什么说雷神比他强大）

对于西方神话一直以来都备受许多人的崇拜，因为在西方神话中有着很多非常厉害的任务，他们甚至能过统治整个世界。而在西方的神话故事中，最厉害的两个人当属奥丁和宙斯了。那么奥丁和宙斯两人之…

计市经济
2023-01-05
倪大红妻子和女儿首次曝光，倪大红妻子及个人资料简介

娱乐圈有很多知名老演员，演技和实力一直都受到粉丝追捧。比如倪大红老师，他的名气非常大，演过很多影视剧，演技一流。不过他虽然很有名气，但是家人却很好在公众面前露面。有网友曝出照片，倪…

书影
2023-02-17 • 投稿
百科知识

如何清洗眼镜清洗缝里的污垢，正确清洗眼镜的方法

眼镜脏了随手拽过衣角或纸巾就擦, 有油渍粘在上面等她自然风干…等到了晚上再去进行清洗。这些都是错误的行为。每天早上起来洗漱彻底清洗一下我们的眼镜才是最能大大延长我们的镜…

天问谈创业
2023-04-12
日活用户（抖音内容丰富范围广）

新京报讯（记者白金蕾）7月9日消息，截至2019年7月，字节跳动旗下产品全球总日活用户超过7亿，总月活跃用户超过15亿，其中抖音产品日活超过3.2亿。抖音市场总经理支颖在首届抖音…

电商百晓生
生活常识 2023-05-16
黄金真假的最简单检验方法（鉴别真假黄金方法）

据说今年黄金又再次热了起来，特别是临近春节这一个月，听说各大金店忙的是不亦乐乎，购买的人络绎不绝买黄金饰品最令人头疼的，恐怕就是不知道如何辨别其真假？应粉丝要求，今天就来分享简…

二手车教授
2022-07-24 • 投稿
俄罗斯电视剧按战时法律，俄语电视剧推荐

战斗民族的电视剧大家有没有心动呀，小编整理了10部最近几年最精彩的俄剧献给大家：一、《背叛》-《Измена》（都市情感剧）为什么第一部推荐《背叛》，这是一部神剧…

落落
2023-01-03 • 百科知识
买奔驰车的需要注意事项（奔驰大吉车图片和价格汽车）

买奔驰商务车为什么要选良辰吉日？中国人买车曾几何时非常着重挑选个好日子这样的概念，已潜移默化形成不成文的、惯例俗成的一种风尚。目的也非常纯粹，有的因为开车是件有一定风险之事，为保平…

科技无忧
2022-08-10 • 投稿
生活常识

北京如家快捷酒店价格标准间

上海2022年7月8日 /美通社/ — 昨日，2022年上海市秋季高考正式拉开帷幕，5万多名考生奔赴考场。高考之后，暑期出游必然成为学子们释放紧张感的重要方式。同程数据…

鬼斗车
2023-04-25

gpu加速（如何提高ai运行速度）

相关推荐