码迷,mamicode.com
首页 > 其他好文 > 详细

GPU 、APU、CUDA、TPU、FPGA介绍

时间:2018-01-29 22:32:38      阅读:267      评论:0      收藏:0      [点我收藏+]

标签:就是   部分   厂商   图形处理   产业链   对话   api   环境   com   

购买显卡主要关注:显存、带宽和浮点运算数量
 
GPU :图形处理器(英语:Graphics Processing Unit,缩写:GPU),又称显示核心、视觉处理器、显示芯片,是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上图像运算工作的微处理器。
用途是将计算机系统所需要的显示信息进行转换驱动,并向显示器提供行扫描信号,控制显示器的正确显示,是连接显示器和个人电脑主板的重要元件,也是“人机对话”的重要设备之一。显卡作为电脑主机里的一个重要组成部分,承担输出显示图形的任务,对于从事专业图形设计的人来说显卡非常重要。
APU:(Accelerated Processing Unit)中文名字叫加速处理器,是AMD“融聚未来”理念的产品,它第一次将中央处理器和独显核心做在一个晶片上,它同时具有高性能处理器和最新独立显卡的处理性能,支持DX11游戏和最新应用的“加速运算”,大幅提升了电脑运行效率。
CUDA:(Compute Unified Device Architecture),是显卡厂商NVIDIA推出的运算平台。 CUDA?是一种由NVIDIA推出的通用并行计算架构,该架构使GPU能够解决复杂的计算问题。 它包含了CUDA指令集架构(ISA)以及GPU内部的并行计算引擎。 开发人员现在可以使用C语言来为CUDA?架构编写程序,C语言是应用最广泛的一种高级编程语言。所编写出的程序于是就可以在支持CUDA?的处理器上以超高性能运行。CUDA3.0已经开始支持C++和FORTRAN。
TPU:(Tensor Processing Unit)即张量处理单元[1]  ,是Google设计一款为机器学习而定制的芯片,经过了专门深度机器学习方面的训练,它有更高效能(每瓦计算能力)。
因为它能加速其第二代人工智能系统TensorFlow的运行,而且效率也大大超过GPU――Google的深层神经网络就是由TensorFlow引擎驱动的。TPU是专为机器学习量身定做的,执行每个操作所需的晶体管数量更少,自然效率更高。[3]
TPU每瓦能为机器学习提供比所有商用GPU和FPGA更高的量级指令,这基本相当于7年后的科技水平。TPU是为机器学习应用特别开发,以使芯片在计算精度降低的情况下更耐用,这意味每一个操作只需要更少的晶体管,用更多精密且大功率的机器学习模型,并快速应用这些模型,因此用户便能得到更正确的结果
FPGA(Field-Programmable Gate Array),即现场可编程门阵列,它是在PAL、GAL、CPLD等可编程器件的基础上进一步发展的产物。它是作为专用集成电路(ASIC)领域中的一种半定制电路而出现的,既解决了定制电路的不足,又克服了原有可编程器件门电路数有限的缺点。
英伟达(Nvidia)的图形处理器(GPU)怎样分类的,分别面向什么市场?
https://developer.nvidia.com/cuda-gpus      英伟达官网介绍
 
http://wemedia.ifeng.com/26436703/wemedia.shtml                
从GPU、TPU到FPGA及其它:一文读懂神经网络硬件平台战局
2017年8月17   英伟达的 GPU
 
这一家是很难被战胜的。来自大型视频处理市场的收益驱动着巨大的规模经济。新款英伟达 V100 带有一种新的 Tensor Core 架构,速度可达 15 TFlops(单精度/SP)或 120 TFlops(浮点精度,其中带有 FP16 的乘法和 FP32 的累加或加法,非常适合机器学习)。英伟达在它们的 DGX-1 中装入了 8 块计算卡,速度可达 960 Tensor TFlops.
AMD 的 GPU
在机器学习领域,AMD 一直是英伟达的追赶者。即将发布的 AMD Radeon Instinct MI25 有希望达到 12.3 TFlops(SP)或 24.6 TFlops(FP16)。如果你把英伟达的 Tensor Core 也算进来,则 AMD 完全无力竞争。英伟达设备的带宽 900GB/s 也是 AMD 484GB/s 的两倍。
 谷歌的 TPU
谷歌原来的 TPU 相比于 GPU 有很大的领先,并帮助 DeepMind 的 AlphaGo 赢得了与李世石的围棋大战。据描述,原来的 700 MHz TPU 有 95 TFlops 的 8 位计算能力或 23 TFlops 的 16 位计算能力,同时功耗仅有 40W。这可比当时的 GPU 快得多,但现在落后于英伟达的 V100;但在单位功耗的计算能力上,TPU 并没落后。据称新的 TPU2 是一款带有 4 块芯片的 TPU 设备,速度可达到 180 TFlops 左右。每块芯片的性能都翻倍了,达到了 45 TFlops 的 16 位计算能力。你可以看到与英伟达 V100 的差距正在变小。你没法买到 TPU 或 TPU2。谷歌正在通过它们的云提供这些 TPU 服务,包含 64 台设备的 TPU pod 速度高达 11.5 PetaFlops。TPU2 上巨大的散热片说明了一些原因,但市场正在发生变化——从单独的设备转向了设备的组合以及将这些组合以云的形式提供。
 
CUDA助力英伟达成为AI产业目前最大受益者,FPGA、ASIC等“AI芯片”架构逐渐起步
 
CUDA是英伟达基于其生产的GPUs的一个并行计算平台和编程模型,便于更多的技术人员参与开发
CUDA,Compute Unified Device Architecture的简称,是由NVIDIA公司创立的基于他们公司生产的图形处理器GPUs的一个并行计算平台和编程模型。开发人员可以通过C/C++、Fortran等高级语言来调用CUDA的API,来进行并行编程,达到高性能计算目的。CUDA平台的推出,让很多开发人员在没有完全精通GPU的硬件架构和运算逻辑的情况下,参与到并行计算的开发中来。
CUDA帮助英伟达成为AI产业目前最大受益者,GPU生态效应使得英伟达处于领先地位
自从2013年开始英伟达发现的GPU硬件架构特别适合深度学习算法,越来越多的AI开发开始应用在英伟达GPU平台之上,同时CUDA良好的用户体验也从另一方面促进了英伟达GPU平台在深度学习市场的占有率,英伟达的股价从13年8月份的12美元涨到目前的170美元左右。CUDA开发平台以及GPU架构上的积累的开发者生态,使得英伟达在AI芯片领域处于领先地位。
CUDA之于GPU,相当于C/C++之于CPU,VHDL/Verilog之于FPGA,CUDA是目前最友好的AI开发平台
GPU、FPGA、ASIC是目前主流的三种AI计算架构,GPU目前使用最广,代表厂商有英伟达;FPGA主要用于云端的AI加速,主要厂商有Xilinx、Altera(被因特尔收购);ASIC主要用在终端等低功耗场景,代表厂商有谷歌TPU、寒武纪(华为NPU)。各种不同的硬件机构对应着不同的编程环境,经典的因特尔CPU架构,对应的是C/C++;GPU是目前AI应用的主流架构,而且CUDA的编程相对友好(可以使用C/C++,Fortran,Java等),优势相对明显;FPGA需要使用硬件语言VHDL/Verilog,硬件语言需要硬件架构、时序等底层知识,对开发人员的要求较高;ASIC一般会有自己指令集,例如寒武纪的芯片使用的是diannaoyu(将之前深度学习算法指令从CICS指令集转化成RSIC指令集),对开发人员的要求更高。
FPGA、ASIC等AI芯片架构逐渐起步,“AI芯片+”产业链公司投资机遇大
在FPGA方面,Xilinx、Altera等已经有云端服务器的AI加速产品上线,另外百度等公司在服务器优化等方面也使用大量的FPGA,整体来说国内FPGA实力较弱;ASIC架构方面,寒武纪、深鉴科技等中国企业在AI芯片方面在全球处于第一梯队,与其合作的公司有望获益。例如,中科曙光与寒武纪同为中科院系背景公司,在云端AI芯片方面开展合作(Digitimes报道),未来有望持续受益。

GPU 、APU、CUDA、TPU、FPGA介绍

标签:就是   部分   厂商   图形处理   产业链   对话   api   环境   com   

原文地址:https://www.cnblogs.com/bawu/p/8379584.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!