在今年 NVIDIA GTC 大会的主题演讲, NVIDIA 首席执行官黄仁勋一开始就谈到后摩尔定律时代的革新,现在单线程效能的提升已经逐渐趋缓,而能够在此世代引领革新的关键,可说是基于 GPU 的偕同运算,而在近五年更可看到整个业界对于机于 CUDA 的偕同运算技术获得重视, GTC 与会人员与 CUDA 开发者亦大幅增长。
基于照片仿真与 VR 的多人 VR 应用 Project Holodeck
在今年 GTC 所宣布的第一项新技术,是称为 Project Holodeck 的 VR 虚拟协作应用,结合 VR 与照片仿真技术,让四个使用者可在同一环境检视以照片仿真绘制的工业产品以及 3D 内容,可作为工业设计、内容制作应用。
黄仁勋也与瑞典超级跑车制造商 Koenigsegg 创办人 Christian von Koenigsegg 连线,以 Project Holodeck 在 VR 环境同欣赏其最新的 Regera 混合动力超跑,再搭配及时运算,可进行全车结构的检视,同时与参与 VR 会议的同伙置身在相同的 VR 环境中; Project Holodeck 预计在今年九月提供前期导入。
将深度学习用于 Ray Tracing 提升降噪效率
而后黄仁勋谈到深度学习对于整个产业的影响,在我们所认知包括搜寻、影像辨识、围棋、自动驾驶外,黄仁勋还指出深度学习亦可与 3D 影像的 Ray Tracing 的降噪技术结合,透过深度学习的方式学习包括影像去噪、光线反射等特性,使得设计 3D 模型后进行照片仿真的 Rendering 可更具效率且逼真。
SAP 将人工智能用于广告露出效益分析
同时 NVIDIA 也宣布 SAP 基于 DGX-1 超级电脑与 AWS 打造全球首个商业级人工智能,这套系统被应用在商业广告效益分析,透过客户影像内容输入到基于 NVIDIA 深度学习的 SAP 的机器视觉系统后,找出广告在影片中的曝光情况;另外 SAP 也将这套系统应用在企业的分类处理,减少因人力导致出错。
基于 Volta 架构的首款产品 Tesla V100
今年的重头戏,就是宣布基于全新的 Volta 架构的第一款产品 Tesla V100 ,就如同当初宣布 Pascal 架构一样先是以运算级的 Tesla 产品做为首发; Tesla V100 是一款拥有超过 210 亿个晶体管的核心,采用台积电 12nm FinFET 制程,封装尺寸约莫与 Apple Watch 相似,达到 815mm 平方。
Tesla V100 具备高达 5,120 个 CUDA 核心,内存采用三星 16GB HBM2 内存,达到 900GBs 传输速度,并具备全新的 NVLink 2 高速通道,达到 300GBs 的带宽;同时针对深度学习搭载全新的 Tensor Core ,运算能力可达到 7.5 FP64 TFLOPS 、 15 FP 32 TFLOPS ,并由 Tensor Core 提供120 Tensor TFLOPS 。而 Tesla V100 开发金额超过 300 亿美金。
当然 Tesla V100 也不是只能做为人工制护应用,黄仁勋也展示由 Square Enix 以 Tesla V100 搭配游戏引擎进行即时影像处理的 Kingsglaive: Final Fantasy XV 展示,人物与场景模组都采自电影素材,不过借由高效能的 Tesla V100 达到宛若电影处理后的效果。
同时 NVIDIA 也展示 Tesla V100 在包括 Caffe 2 、 微软 Cognitive Tookit 以及亚马逊 mxnet 的效能提升,同时也请到亚马逊 AWS 的深度学习与 AI 总经理 Matt Wood 分享深度学习如何结合 Alexa 产生技术与应用的。
Tesla V100 将提供从个人超级电脑到云超级电脑的完整阵容
随着 Tesla V100 , NVIDIA 也宣布三款不同层级的服务器主机,包括企业级超级电脑 DGX-1V ,中小企业与个人版超级电脑 DGX Station ,以及与微软合作的公众云超级电脑 HGX-1V ,其中 DGX-1V 与 HGX-1V 皆是将既有服务器架构内的 GPU 从 8 张 Tesla P100 升级到 8 张 Tesla V100 的性能提升版,而 DGX Station 则是首度亮相的个人版超级电脑。
DGX-1V 的建议售价为 149,000 美金,不过若在 5 月 10 日后购入DGX-1 的使用者,可免费升级到 DGX-1V 。
DGX Station 是一款 1,500W 电源供应、水冷设计的小型超级电脑,采用四张以 NVLink 2 贯串的 16GB Tesla V100 ,仍有高达 480 Tensor TFLOPS 的超高运算力,具备 3 个 DisplayPort ,售价为 69,000 美金。
针对 TensorFlow 的 TensorRT
此外,黄仁勋还宣布了针对 TensorFlow 的 TensorRT ( Tensor Run-Time )软件,透过 TensorRT 使得 Volta 缩短 12 倍的训练时间以及加速 6 倍的逻辑演算效能,以影像处理速度来说,也让 Volta 的效能甚至相较 Tesla P100 高出 7 倍以上的处理能力。
针对 HyperScale 提供 FHHL 版 Tesla V100
此外针对 Hyperscale ,黄仁勋也介绍了另一种特殊的 Tesla V100 封装,此种封装并非采用 NVLink 界面,而是使用工业标准的 FHHL PCIe 界面,尺寸宛若 CD 盒般,仅有 150W TDP ,效能达到 Skylake 的 15-25 倍,能将原本需要 500 台 CPU 架构的 Node 才能达到的运算力,以 33 台基于 Tesla V100 加速的 Node 达成,大量减少热排放与能耗。
让 AI 开发者可从端到云达到开发一致性的 NGC
同时黄仁勋还宣布了 NVIDIA GPU Cloud ( NGC ),让人工智能开发人员可借由云平台进行 AI 的开发并使用最新的深度学习框架,并且宣布 NGC 软件套件,同时可在搭载 Titan X 或是 GTX 1080 Ti的个人电脑以及 DGX-1 超级电脑甚至云主机使用相同的软件套件开发环境。 NGC 预计在今年第三季开始进行公众测试,服务订阅价格待后续宣布。
DrivePX 获得丰田采用, Xavier 搭载的 Xavier DLA 加速器将开源
在自动驾驶领域,黄仁勋宣布日本丰田汽车将与 NVIDIA合作,以其 DrivrePX 作为自动驾驶车的核心架构;同时也补充了关于新一代自动驾驶硬件平台 Xavier 的架构,除了客制化的 ARM 64 位元 CPU 以及 Volta GPU 以外,还具备称为 Xavier DLA ( Deep Learning Accelerator )的深度学习加速器,可提供 10 Deep Learning TFLOPS 效能。
同时黄仁勋也宣布 Xavior DLA 将作为开源项目释出,预计在 6 月进行前期释出,而在 9 月正式进行开源。
ISAAC 机器人模拟器加速基于 Jetson 机器人训练
此外也针对基于 Jetson的机器人开发,宣布名为 ISAAC的机器人模拟器,透过机于 NVIDIA 的 GPU 电脑模拟成 Jetson ,搭配 ISAAC 机器人模拟器进行虚拟培训,能够进行大量相同行为的机器人模拟学习,利用大量虚拟训练结果,使机于 Jetson 平台的机器人培训速度更快速。