- 亿玖动态
- 行业资讯
Icelake英特尔至强之“芯”何以制胜数据时代?
发布时间:2021-06-22
到了现在,没人会再怀疑数据对互联网发展的重要性,大到5G、人工智能、大数据、物联网,小到刷脸、数字办公,基本上人们已经离不开数据了。以数字化技术为支撑的数字经济,逐渐成为了社会经济价值的“数字基建”。计算力可以看作是数字化技术形成的生产力,它更是“数字基建”的“基石”。这些都推动着数据中心向下一个发展阶段演进,更高效,更灵活,更安全和更稳定的数据中心成为了“必选题”,这其中,作为数据中心当中最根本的算力之源,处理器的高性能和强安全成为了推动高效能数据中心发展的关键。
作为一家集成设备制造商,英特尔已经不再是一家单纯的CPU公司,从CPU到GPU,从内存到FPGA,英特尔近年来大力增加对数据中心产品的研发和投入以满足数据中心的发展需要,这其中,最为人所熟知的,当属英特尔至强处理器系列。根据统计,从13年至今,已有5000万颗至强处理器被交付,超过800个云服务提供商都在使用,毫不夸张地说,几乎整个云计算都建构在英特尔的至强处理器之上。
今年4月份,英特尔正式发布第三代至强可扩展处理器,整体性能相比上一代提升了46%。从发布到现在也就一个月的时间,宁畅、浪潮、中兴等OEM厂商已相继推出搭载Ice-Lake SP的服务器产品,正如英特尔公司市场营销集团副总裁兼中国区数据中心销售总经理陈葆立所言:“未来的数据中心,无论是算力还是内存需求都在快速增长,英特尔长期致力于为市场提供高性价比或者容量更大的介质,这是我们的愿景。”
第三代英特尔至强可扩展处理器
安全才是硬道理
作为英特尔第一个主流双插槽并启用SGX英特尔软件防护扩展技术的数据中心处理器,第三代至强可扩展处理器提供了应用程序的隔离功能。SGX的最大好处在于允许应用程序和CPU进行交互,同时建立一个安全的内存区域,这些安全区域绕过了操作系统和程序管理层,允许在不暴露任何基础设施平台的情况下对机密信息进行操作。即便这个实际的平台软件组件甚至是硬件组织遭到入侵,依然可以保护该区域内的信息。
事实上英特尔SGX就是一种基于硬件的可信执行环境,这样的可信执行环境对企业而言重要性不言而喻。数据作为重要的生产力,近年来越来越多地被迁移到云端,在这样的背景下,云端的加密存储、云端与本地的加密传输、以及在本地使用中的动态加密,都是需要重视的问题。随着英特尔SGX的推出,当工作负载在数据中心CPU进行运算的时候,可以指定内存区域与当前的操作系统、硬件配置隔离,从而有效地对敏感数据进行隔离使用,从而提供全新形态的安全和隐私保护,进行必要的敏感数据运算。
英特尔SGX
除了安全运行环境外,SGX所拥有的远程认证功能为联邦学习这样的工作负载的加载提供了便利,加之SGX具有灵活的内存适应性,可以很好的助力联邦学习,更好地实现打破数据孤岛的任务。
与常规的隐私保护或者安全技术相比,SGX在安全性、性能和可用性方面都有明显优势。在安全性方面,它是一个硬件级的安全技术,基于对CPU的信任,可以有效避免以往依赖高权限软件而带来的安全隐患;性能方面,在第三代至强可扩展处理器平台上,SGX的计算性能优异,可以有效控制成本;可用性方面,SGX的生态利用LibOS(库操作系统),致力于避免打破现有的应用方式,可以很大程度上降低重新构建一些通信或者是底层架构的代价,从而使数据和模型的加载和保护更加便捷。最大限度上帮助程序开发者把整个数据应用进行无缝迁移,而不像安全多方计算和同态加密或者是差分隐私有一些明显的性能或者是精度上的问题。
SGX的驱动能力,在Ice-Lake SP发布之前就已在诸如阿里云的安全增强型实例、腾讯大数据和腾讯安全平台的远程验真能力、百度安全的MesaTEE架构,甚至德国电子医保数据的加载中加以使用。“SGX尽管刚刚在服务器上实现实际的硬件搭载,但是我们的生态也得到了各个合作伙伴的支持,英特尔很有信心在服务器领域继续提供这样一个全方位的数据隐私保护,使企业能够非常放心地在公有云上进行相对来说比较敏感的工作负载,包括代码和用户数据。”英特尔技术专家总结道。
另一方面,近年来随着需求的不断提升,无论在网络传输或者存储时所需要的密码操作对算力的要求也随之呈几何倍数的增长,英特尔在过去的十几年里,除了调整微架构之外,还过添加诸如AES-NI这样的新指令集、以及软件优化,结合硬件加速指令集扩展,进行密码操作的硬件加速。
密码操作硬件加速
第三代英特尔至强可扩展处理器也是如此,通过引入AVX-512的寄存器排列组合,可以实现基于整数的融合乘加操作,之后再通过VPMADD52指令和多缓存并行操作机制,可以在RSA 2048实现相比上一代CPU 5.6倍的提升。此外,在对称加密、伽罗华域、哈希等都有新的指令集,通过指令集架构的实现,以及多缓存并行执行和函数级别的缝合(function stitching)技术,最终实现了大幅度的密码操作硬件加速。
更强的AI加速能力
作为业内首家在处理器中集成AI加速功能的企业,英特尔也升级了第三代至强处理器的AI加速性能,例如DL Boost深度学习加速技术,在此基础上Mobilenet提升了66%,BERT语言处理提升了74%。相比上一代平台Cascade Lake的8280BERT语言处理能力,性能提升了1.74倍。与AMD EPYC Milan 64核产品相比,第三代至强在学习和推理方面的性能提高了25倍,在20个AI工作负载上则有1.5倍的性能提升。
到现在为止,至强仍然是唯一支持AVX-512的方案,英特尔及其合作伙伴围绕AVX-512也在软件方案上进行了深度优化,例如在Tensor Flow上优化ResNet性能、以及针对Scikit-Learn进行的优化,进而更好地发挥硬件潜力。
以现如今在游戏厂商中广受欢迎的3D人脸建模为例,利用英特尔Ice-Lake上面的VNNI指令集,在int8上实现了从人脸照片到三维模型的图像映射。通过一个FP32向int8的转换,可实现4.23倍的性能提升;在自然语言处理方面,英特尔也通过和阿里云对Transformer的一个模型进行优化,通过VNNI int8实现了3倍的性能提升。
Transformer的一个模型在Ice-Lake优化下的表现
目前市场上的主流开源框架,诸如TensorFlow、PyTorch、MXNet,包括英特尔开源倡导的AnalyticsZoo,都是在英特尔的DLBoost指令集上进行的优化,自然也得到了相应的性能提升,正因为如此,第三代至强可扩展处理器可以在深度学习的图像视频应用、或是NLP、推荐系统等应用场景中,具有针对性地使用int8、FP32或者BF16指令集进行加速,并根据软件需要及代码灵活实现。
随着AI的应用越来越成熟,越来越多的企业和开发者希望探索AI更多的应用场景,企业也需要越来越多的模型和AI开发工具满足自己的开发需求,在这个过程当中,英特尔提供了一个完整生态链的支持模式,不管客户现在用什么样的高级的AI开发工具,在英特尔优化过程当中,底层都提供了OneDNN,在低级的、更靠近硬件层英特尔优化的算法工具库来支撑上层的这些框架,比如Tensor Flow、PyTorch等,利用指令集架构的优势进行有机优化,从而多层次、多角度地支持整个AI负载,使得更多的应用都能运行在英特尔平台之上。
此外,英特尔至强平台的傲腾持久内存技术PMEM也在推荐系统中得到了广泛应用,因为英特尔的傲腾持久内存可以在3个节点上提供海量的内存容量,通过提供海量的内存容量,可以大大简化系统复杂度,降低应用成本。
当人工智能遇到隐私
随着AI落地越来越深入,越来越多的敏感数据需要被使用,再加上各国相继推出隐私保护的法案法规,隐私计算开始被越来越多开发者所重视。也正是因为这个原因,在联邦学习这样的技术方案出现之后,诸如金融等对隐私要求很高的行业就十分拥抱该技术,英特尔和银联结合Analytics Zoo技术,基于英特尔SGX,通过软件和硬件的综合数据保护,可以提供更高的数据保护等级,来满足AI深入应用过程当中行业监管的需求。
当然,Analytics Zoo可以大展身手的地方不止于此,通过Analytics Zoo,可以保证在大规模数据落地过程当中,端到端的AI落地不需要进行重复的代码重写,也不需要进行大规模数据的拷贝。这为大规模数据上的AI应用加速落地提供了可能。
结语:Xeon应万变,为数据中心而生
SGX也好,AI加速也好,这背后都离不开英特尔的XPU战略。上文早已提过,英特尔早就开启了从CPU到XPU的旅程,通过Xe架构补全了英特尔在GPU上的空白,从而拿下异构计算中最后一块重要拼图。
从提高云应用程序性能到5G网络性能、再到智能边缘提供更高算力,第三代至强可扩展处理器和平台可以带来巨大的商业机遇,而回顾至强的发展历史,也能看出英特尔技术的演化是为了支持企业数据分析及AI等应用的普及和加速。未来,英特尔将继续强化处理器集成的AI加速能力,并在此基础上推进异构算力平台的创新布局,打造更为高效、灵活和可靠的算力基石,进而更好地为全球的数据中心和边缘解决方案提供动能,释放数据价值,加速社会的数字化、智能化进程。
而在数字经济背景下,英特尔长期与生态合作伙伴合作,开发软件解决方案,应对工作负载,优化性能。而第三代至强可扩展处理器在经过大量实例反复验证下,已成为了数据中心最为重要的算力源泉之一。