云端智能芯片是面向人工智能领域大规模数据中心和服务器提供的核心芯片。5月3日,中国科学院发布国内首款云端人工智能芯片,理论峰值速度达每秒128万亿次定点运算,达到世界先进水平,将广泛应用于智能手机、智能音箱、智能摄像头、智能驾驶等不同领域。智能芯片是前沿科技和社会关注的热点,也是人工智能技术发展过程中不可逾越的关键环节。可以说,不论有怎样领先的算法,要想最终应用,都必须通过芯片实现。
5月3日,全球新一代人工智能芯片发布会在上海召开,中科院旗下的寒武纪科技公司发布了我国自主研发的Cambricon MLU100云端智能芯片和板卡产品、寒武纪1M终端智能处理器IP产品。这款国内首个云端人工智能芯片,理论峰值速度达每秒128万亿次定点运算,达到世界先进水平。作为此次发布会焦点,首次正式亮相的Cambricon MLU100云端智能芯片,是我国首款云端AI芯片。据中科院计算所研究员、寒武纪公司创始人兼CEO陈天石介绍,云端智能芯片是面向人工智能领域大规模数据中心和服务器提供的核心芯片。云端的智能芯片规模更大,结构更加复杂,它和终端芯片的最大区别就在于其运算能力更强。
MLU100云端智能芯片采用寒武纪最新的MLUv01架构和TSMC 16nm的先进工艺,可工作在平衡模式(1GHz主频)和高性能模式(1.3GHz主频)下,平衡模式下的等效理论峰值速度达每秒128万亿次定点运算,高性能模式下的等效理论峰值速度更可达每秒166.4万亿次定点运算,但典型板级功耗仅为80瓦,峰值功耗不超过110瓦。“3年来,我们从研发两颗测试芯片,一直到现在云端智能芯片的最终亮相,我们时刻准备着‘由端入云’。”陈天石说,MLU100基于软硬件协同提升内存带宽利用率,不管是从性能比,还是功耗比来说,寒武纪都将树立智能芯片领域的新标杆。
与寒武纪系列终端处理器一样,MLU100云端芯片仍然延续了寒武纪产品一贯出色的通用性,可支持千万量级用户的大规模商用检验,搭载各类深度学习和经典机器学习算法,充分满足视觉、语音、自然语言处理、经典数据挖掘等领域复杂场景下(如大数据量、多任务、多模态、低延时、高通量)的云端智能处理需求。
此外,这次最新发布的寒武纪1M处理器是公司的第三代IP产品,它延续了前两代产品(寒武纪1H/1A)卓越的完备性,单个处理器核即可支持多样化深度学习模型,并更进一步支持经典机器学习算法和本地训练,为视觉、语音、自然语言处理以及各类经典的机器学习任务提供了灵活高效的计算平台,将广泛应用于智能手机、智能音箱、智能摄像头、智能驾驶等不同领域。
寒武纪科技公司脱胎于中科院计算所,于2016年发布了全球首款商用深度学习专用处理器——寒武纪1A处理器。它的横空出世打破了多项纪录,并入选了第三届世界互联网大会评选的十五项“世界互联网领先科技成果”。目前,寒武纪处理器也已应用于某知名国产手机新近发布的旗舰机型,实现了集成应用。近年来,人工智能产业迅猛发展,推动了芯片市场规模的快速增长,也推动了人工智能计算从终端向云端的延伸。陈天石表示,寒武纪在技术上贯彻“端云协作”的理念,这次发布的MLU100云端芯片,不仅可独立完成各种复杂的云端智能任务,更可以与寒武纪1A/1H/1M系列终端处理器完美适配,让终端和云端在统一的智能生态基础上协同完成复杂的智能处理任务。
中科院上海分院副院长、中科院院士张旭表示,从过去在手机等终端上应用的智能芯片,到今天更高一层的云端人工智能芯片,它可以使人们在手机等终端的应用上升为未来在云端等领域更加广阔的应用,所以这是一个开拓性的突破。当前,众多科技公司纷纷加大对人工智能芯片的研发,包括智能手机、无人驾驶、云计算等各领域巨头。根据相关机构预测,到2021年,人工智能芯片市场规模将超过110亿美元,而2016年这一数字仅为36亿美元。“寒武纪创立的初衷就是要让全世界都能用上智能处理器。”陈天石告诉记者,寒武纪将秉承学术界开放、协作的精神,以处理器IP授权的形式与全世界同行共享寒武纪最新的技术成果,使全球客户能够快速设计和生产具备人工智能处理能力的芯片产品。
发布会上,寒武纪部分产业伙伴公开展示了基于寒武纪芯片的应用方案。联想集团高级副总裁童夫尧在发布会上推出了基于寒武纪MLU100智能处理卡的ThinkSystem SR650,打破了37项服务器基准测试的世界纪录。“在新产品上,我们搭载了寒武纪的芯片,有助于各行各业在人工智能、VR、高性能计算等方面的研发和行业解决方案的落地。”童夫尧说。不仅如此,芯片成果还将运用于智能语音领域。“一小时的语音数据在一个传统处理器上进行智能应用处理,需要一万小时才能完成,科大讯飞一直在跟踪人工智能专用芯片的前沿进展。”上海讯飞总裁程甦介绍,寒武纪的智能处理器在语音智能处理上交出了优异的答卷,能耗效率领先竞争对手的云端GPU方案达5倍以上。它的强大处理能力使得手机本地端可以处理更加复杂的机器学习算法,使得语音本地识别准确率相对于传统处理器领先了9.8%,显著提高了用户体验。
中科曙光高级副总裁任京旸在发布会上同步推出了基于Cambricon MLU100智能处理卡的服务器产品列“PHANERON”,它的性能更为强劲,可以支持2—10块寒武纪MLU处理卡,灵活应对不同的智能应用负载。以升级版的PHANERON-10为例,单台服务器可集成10片寒武纪人工智能处理单元,为人工智能训练应用提供832T半精度浮点运算能力,为推理应用提供1.66P整数运算能力,典型场景下的能效提升30倍以上。“下一步,曙光与寒武纪之间的合作将不仅仅局限于整机领域,会从顶端科研一直延伸到低端应用,合力打造下游应用产业,共建人工智能生态链。”任京旸透露,中科曙光还将发布人工智能管理平台SothisAI,与寒武纪的芯片及开发环境实现无缝对接和深度融合。