宁波国际照明展
广州国际照明展览会(光亚展)
光影显示元宇宙展 2025年5月27 - 30日

从数据中心到边缘侧,英特尔全方案助力AI加速落地

为了支持对AI的需求,英特尔在最近几年在持续发布并更新AI加速器、支持大模型的软件栈、支持端侧AI需求的分离式显卡、内置GPU、CPU、NPU的处理器,以及面向AI的开源软件等产品。

2024年7月25日,在由专业电子机构媒体AspenCore与深圳市新一代信息通信产业集群联合主办的联合主办的“2024国际AIoT生态发展大会”上,英特尔中国解决方案架构师杨涛分享了该公司持续的算力创新动态。

他指出,近年来随着生成式AI的火爆,芯片行业有两大趋势日益突显——预计在未来两年内,约有80%的企业会部署生成式AI,对产业而言这是极大的市场机会。另外,约有50%的边缘计算设备具备机器学习功能,芯片企业需为端侧设备增加AI处理算力。

在此背景下,杨涛介绍了英特尔在算力创新方面的一些动态。为了支持对AI的需求,英特尔在最近几年在持续发布并更新AI加速器、支持大模型的软件栈、支持端侧AI需求的分离式显卡、内置GPU、CPU、NPU的处理器,以及面向AI的开源软件等产品。

英特尔先后发布了两款AI芯片——Gaudi® 2和Gaudi® 3——是面向数据中心主推的AI训练/推理芯片。

Gaudi® 2在2023年发布,采用了台积电7纳米技术,Gaudi® 3在2024年发布,采用了台积电5纳米技术。Gaudi® 3与前一代相比有诸多提升,比如在AI FP8(8位浮点数)算力提升2倍,BF16算力提升了4倍;同时网络带宽提升2倍,内存带宽提升1.5倍。

在杨涛看来,在大芯片上集成AI还存在较大的门槛。“门槛主要体现在软件生态方面,许多公司虽然推出了性能指标非常高的芯片,但是这些芯片如何与大模型公司结合仍存在挑战,而英特尔的AI芯片在软件生态上的适配度非常好。”

在今年4月,Meta发布了Llama 3大模型,紧接着,在7月24日,该公司又发布了升级版的Llama 3.1。在上述大模型发布的当日,英特尔就宣布自己的AI产品组合支持这些大模型,并通过开放生态系统软件实现针对性优化,这涵盖了 PyTorch 及英特尔® PyTorch 扩展包、DeepSpeed、Hugging Face Optimum库和vLLM等。

杨涛还介绍说,英特尔针对国内的大模型用户也有新动态。例如,上个月,阿里云发布了通义千问Qwen2大模型,英特尔在该模型发布的当天,也发布了支持通义千问Qwen2大模型的软件栈。“我们想强调的是,英特尔不仅有单一的AI指标,同时也有非常好的软件生态,能第一时间支持最新的大模型。”

除了应用在数据中心训练/推理场景的AI产品之外,英特尔也支持对端侧AIoT领域的AI算力提升。例如,英特尔在显卡领域已经布局很多年,但此前主要面向传统的PC集成显卡(核显)市场,多年来独立显卡市场一直被英伟达和AMD占据。

最近几年, 先是全民“挖矿”风潮兴起,紧接着又是生成式AI爆红,显卡的核心功能也从加速图形渲染,扩大到加速HPC高性能计算、DL深度学习、AI人工智能等能力上。一时间,显卡成为这几年红到不能再红的“炸子鸡”。

面对如此庞大的显卡市场,英特尔也开始加强在显卡领域的布局。2022年3月30日,英特尔正式发布最新的独立显卡,该显卡被命名为Intel ARC(中文名为锐炫)。到2024年,Intel ARC系列更新到了第二代,其GPU max系列产品针对数据中心超算部署。

英特尔的独立显卡均采用Xe GPU架构,该架构下的产品细分为主打集成显卡和入门独显的超低功耗Xe LP、针对游戏优化的高性能图形Xe LPG、面向数据中心和AI应用的高性能Xe HP、适合超级计算的高性能计算Xe HPC四种微架构。这些不同架构的显卡为不同应用场景优化,完整覆盖集成显卡、入门级独显、主流独显、旗舰独显、工作站、服务器数据中心、流媒体编解码、AI、HPC和超算等各个细分领域。

端侧设备有大量的AI需求,而如何去满足这些设备的AI算力是芯片企业需要考虑的问题。今年6月,在Computex 2024期间,英特尔CEO帕特·基辛格公布了下一代AI PC旗舰处理器Lunar Lake的架构细节。据介绍,该处理器在图形和AI处理能力上有较大提升,并且着重提高了轻薄本的高能效计算性能。Lunar Lake 将降低最高达40%的SoC功耗和带来超过3倍的AI算力。该处理器于2024年第三季度出货。

具体来看,下一代AI PC旗舰处理器Lunar Lake集成了CPU、GPU、NPU,这些器件总计带来了120TOPS的AI算力——CPU通过添加向量指令支持AI,可以带来5TOPS的算力,内置的GPU算力高达67TOPS,同时还带矩阵计算能力,NPU(神经网络处理器)带来更高的效率,带来了最高48TOPS的算力。

与数据中心领域一样,不仅有算力挑战,还有软件生态的挑战。边缘侧也面临着算力和软件层面的挑战。英特尔为了实现在多种硬件平台上进行优化的神经网络推理,‌加速AI工作负载的处理,‌并缩短开发周期,推出了一个深度学习工具包OpenVINO。

该工具包采用了一种“一次编写,‌随处部署”的方法,‌特别针对英特尔硬件平台进行了优化,‌包括CPU、‌GPU、‌VPU‌和FPGA。‌OpenVINO的支持涵盖了从模型选择、‌优化到部署的整个流程,‌使得开发人员能够更高效地利用英特尔硬件加速AI应用的开发和部署。‌

这是一个开源的软件,不仅支持英特尔的芯片架构,也支持第三方的芯片架构,“这是一个针对端侧、边缘侧的AI推理的软件框架,我们希望能够适用于各种边缘应用、AI PC,及云端CPU。”最后,杨涛指出,OpenVINO的大概的发展方向有三个:第一,模型训练;第二,模型优化;第三,模型部署。

本文来自李晋。 授权转载请注明出处:http://www.ledjia.com/article/pid-3927.html

快速评论 发表新评论

您还未登录!登录后可以发表回复

文章评论 0人参与

联系我们

联系我们

137-9836-0047

在线咨询: QQ交谈

邮箱: admin@ledjia.com

工作时间:周一至周五,9:00-17:00,节假日休息

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部