阿里巴巴第一颗芯片今天诞生!
2019年9月25日,在杭州举行的阿里云栖大会上,阿里巴巴CTO、阿里云智能总裁、达摩院院长张建锋发布了阿里巴巴第一颗芯片“含光800”。
张建锋从口袋掏出含光800芯片进行展示
张建锋称,这是全球最强性能的AI推理芯片。是阿里平头哥成立之后第一款正式流片的芯片,也是阿里20年发展史上第一款用了自己的硬件架构、并集成阿里算法的芯片,也是互联网公司研发的第一款“大芯片”。
含光800的问世,是对张建锋一年前承诺的交代。一年前的阿里云栖大会上,张建锋宣布阿里巴巴将把此前收购的中天微和达摩院自研芯片业务整合成“平头哥半导体有限公司”,由集团全资控股,推进云端一体化的芯片布局。
张建锋当时宣称,达摩院已经开发一款神经网络处理器(NPU)芯片,预计将在2019年4月流片。按照设计,该芯片的性价比将是同类产品的40倍。从平头哥这款含光800的性能来看,“40倍于同类”所言非虚,其性能是应用最广的英伟达P4芯片的46倍。
张建锋说:“在全球芯片领域,阿里巴巴还是一个新人。我们的芯片是万里长征第一步,但阿里巴巴有足够信心、有足够能力,去做传统硬件公司能做到的和不能做到的事情。阿里巴巴今后会成为一家真正软硬件一体化协同发展的科技公司。”
“全球最高性能AI推理芯片”
张建锋介绍,含光800在业界标准的ResNet-50测试中推理性能达到78563IPS,比目前业界最好的AI芯片性能高4倍;能效比500IPS/W,是第二名的3.3倍。
根据科技自媒体“量子位”的比较,如果与英伟达最新的T4相比,含光800是T4性能的15倍,是应用最广的英伟达P4的46倍。
图片来源:量子位
据介绍,含光800采用12nm制程,其性能的突破得益于软硬件的协同创新:硬件层面采用阿里巴巴自研芯片架构,通过推理加速等技术有效解决芯片性能瓶颈问题;软件层面集成了达摩院先进算法,针对CNN及视觉类算法深度优化计算、存储密度,可实现大网络模型在一颗NPU上完成计算。
张建锋现场介绍,含光800已经率先在阿里内部多个业务场景开启大规模应用。从视频图像识别、分类、搜索,到城市大脑等,未来还可应用于医疗影像、自动驾驶等领域。
根据云栖大会的现场演示,在城市大脑中实时处理杭州主城区交通视频,需要40颗传统GPU,延时为300ms,使用含光800仅需4颗,延时降至150ms。这意味着1颗含光800的算力相当于10颗GPU。拍立淘商品库每天新增10亿商品图片,使用传统GPU算力识别需要1小时,使用含光800后可缩减至5分钟。
阿里巴巴平头哥方面介绍,含光800是一款云端AI推理芯片,不对外单独售卖,而是通过阿里云对外输出AI算力。云端AI芯片场景关注的重点就是性能和能效。
平头哥芯片版图
平头哥首席科学家、阿里巴巴高级研究员元尊介绍阿里巴巴造芯的具体优势包括“ABCDE”五个方面:A(Algorithm)为世界领先的AI技术和算法,B(Big Data)为广泛生态积累的大数据,C(Computing)为阿里云安全稳定的计算力,D(Domain knowledge)为满足各行各业需求的专业领域知识,E(Ecosystem)为比传统芯片公司更容易搭建的生态。
在这款NPU芯片前,平头哥在今年7月已经推出了RISC-V处理器玄铁910,8月推出无剑SoC平台,可谓动作频频。
据介绍,玄铁910是目前业界性能最强的一款RISC-V处理器,可以用于设计制造高性能端上芯片,应用于5G、人工智能以及自动驾驶等领域。
阿里巴巴集团副总裁戚肖宁介绍,在性能方面,玄铁910支持16核,单核性能达到7.1Coremark/MHz,主频达到2.5GHz,比目前业界最好的RISC-V处理器性能高40%以上。
戚肖宁还宣布了“普惠芯片”计划,未来平头哥将全面开放玄铁910IP Core,全球开发者可以免费下载该处理器的FPGA代码,快速开展芯片原型设计和架构创新;同时,平头哥还打造了面向领域定制优化的芯片平台(Domain specific SoC),提供包括CPU IP、SoC平台以及算法在内的软硬件资源,面向不同AIoT场景为企业和开发者提供不同层次的芯片服务。
“无剑”SoC芯片平台则是面向AIoT时代的一站式芯片设计平台,提供集芯片架构、基础软件、算法与开发工具于一体的整体解决方案,能够帮助芯片设计企业将设计成本降低50%,设计周期压缩50%。
平头哥半导体研究员孟建熠表示,平头哥将以“无剑”平台为核心,面向应用领域全栈开放集成,实现处理器、算法、操作系统等软硬件核心技术的深度融合,为企业提供从芯片到应用的全栈技术能力。
当时平头哥还发布了“无剑”视觉AI平台,平台基于高性能“玄铁”全系列CPU,最大存储带宽400Gbps,单通道PCIE接口带宽16Gbps,可支持16TOPS以下的边缘侧AI计算需求。该平台已经应用到多家IoT厂商的产品中,产品包括多媒体AI芯片、AI视觉芯片、边缘AI服务器芯片等。
再加上今天发布的AI推理芯片,平头哥已迅速集齐了从IP核、到SoC平台、到AI推理芯片多个层次的芯片业务能力和生态。
据平头哥方面介绍,未来还将研究云端AI训练芯片、端上推理芯片,以及用于阿里云神龙服务器的SoC专用芯片等,以满足更多场景的算力需求。
行业软硬件一体化发展趋势明显
从自研飞天操作系统、到今天发布云端AI推理芯片,阿里巴巴在芯片、云和AI三大业务之间的协同关系初现雏形。这应该是面向未来十年的布局。正如张建锋今天在演讲中所述,阿里云目标成为软硬件一体化的云平台。“未来的十年,是整个数字经济转型的关键时期,也是阿里云智能成为数字经济基础设施关键的十年。”
除了阿里巴巴,近来诸多以算法见长的AI公司都在选择“变硬”。今年5月,AI四小龙之一的依图科技发布了云端视觉推理AI芯片“求索”。该芯片也不进行单独销售,而是与自身云端服务器或边缘产品打包。
华为副董事长胡厚崑一周前在华为全联接大会上演讲表示,未来智能世界需要两个关键技术的持续创新和投入,一是连接,另一个是计算。华为认为,预计5年后,AI计算所消耗的算力,将会占到全社会算力消耗总量的80%以上。基于这样的变化,华为认为计算正在进入一个新的智能时代。Gartner数据预计,到2023年,计算产业的规模将超过2万亿美元。
此前CPU也可以执行AI算法、提供算力,但由于AI往往需要海量并行计算,CPU架构并不能达到最优性价比。因此GPU、FPGA、ASIC为代表的AI芯片应运而生,此外还有类脑芯片、可重构计算芯片架构的通用AI芯片等。
据美国市场研究公司ReportLinker研究报告,预计到2023年,AI芯片市场规模将达到108亿美元,复合年均增长率达到53.6%。
在资本助力下,AI芯片这一“增量”市场迅速群雄并起,既有英特尔、英伟达、谷歌等老牌玩家,也有寒武纪、地平线、深鉴科技等国内后起之秀。
清华大学微电子所所长魏少军认为,AI芯片各种架构孰优孰劣仍有待市场检验,未来是否会有通用架构、是否会出现像CPU时代英特尔这样一统江湖地位的公司仍未可知。
互联网公司的优势是“算法”和“速度”。张建锋强调,今天含光800的发布,代表了阿里巴巴硬件的能力、互联网公司的速度,“从芯片设计、验证一直到流片,总共只花了一年半时间”。从传统硬件厂商造芯过程来看,这几乎是一个不可能完成的任务。
软件公司变硬,硬件公司也没有闲着,归根到底是增强智能时代解决方案的能力。
比如,从去年到今年,华为已经构建了更全面更开放的AI解决方案版图。去年的全联接大会,华为发布了用于推理的昇腾310AI处理器和ModelArts应用开发平台。今年的全联接大会,华为发布了用于训练的全球算力最强的昇腾910AI处理器和AI计算框架MindSpore。至此,华为的全栈全场景AI解决方案全面落地。
在资本追捧、行业火热的势头下,华创投资投委会主席陈大同在今年5月的中关村IC创业大赛上也做出“提醒”:半导体行业出现跟风严重和高估值现象,AI芯片就是其中之一。芯片公司不应该染上“明星病”,必须要克服浮躁心理、埋头苦干、长期坚持、贴近市场、以需求促创新、避免“互联网病”。(本文图片除特殊说明外,均为阿里巴巴提供)
编辑:叶松
来源: 中国证券报