更多 选择语言
< 返回主菜单
PG电子·(中国)官方网站 PG电子·(中国)官方网站

基于英特尔® 傲腾? 长期内存100系列的Spark计划实践

摘要

  英特尔® 傲腾? 长期内存是Intel在2019年宣布的一款革命性的产品 ,英特尔® 傲腾? 长期内存是一种全新的内存类型 ,其架构设计旨在从数据中心中罗致更多价值 ,重构数据中心内存/存储条理结构。差别于古板的DRAM ,英特尔® 傲腾? 长期内存集大容量、经济性和长期性于一身 ,能够支持数据中心多个应用场景。pg电子官网基于英特尔® 傲腾? 长期内存做了大宗的应用场景解决计划 ,笼罩大数据剖析、数据库、云与虚拟化、漫衍式存储等应用场景。为了资助用户通过越发灵活的架构来实现立异型的应用 ,助力企业实现性能突破 ,pg电子官网宣布了基于英特尔® 傲腾? 长期内存技术的Spark应用计划。

配景介绍

  Apache Spark是专为大规模数据处理而设计的快速通用的盘算引擎 ,常用来构建大型、低延迟的数据剖析应用程序。Spark 一个主要特点在于 ,其能够在内存中进行盘算 ,这使得其数据剖析效率往往高于其它盘算引擎 ,可是 ,效劳器内存资源的限制也使得其性能的扩展保存着一定的瓶颈 ,在超大规模负载中无法充分发挥其利用内存进行盘算的性能优势。为了解决此问题 ,pg电子官网在 Spark 计划验证中使用英特尔® 傲腾? 长期内存取代古板的 DRAM 内存 ,实现了数倍的性能提升 ,被证明可以作为 Spark 内存扩展的优先计划。

  Spark 搭载了高效的 DAG 执行引擎 ,可以通过基于内存来高效处理数据流。与Hadoop 的 MapReduce 相比 ,Spark 基于内存的运算要快 100 倍以上 ,基于硬盘的运算也要快10 倍以上 ,这使得其能够在大数据情况下关于数据进行实时处理。同时 ,其高容错性和高可伸缩性也使得其成为大数据安排的突出优势 ,用户可以将 Spark 安排在大宗廉价的硬件之上 ,形成集群 ,满足低本钱下的高性能盘算需求。

  在目今的应用情况下 ,Spark 可以用于批处理、交互式盘问(Spark SQL)、实时流处理(Spark Streaming)、机械学习(Spark MLlib)、图形盘算(GraphX)等负载 ,这些差别类型的处理都可以在同一个应用中无缝使用。正是因为 Spark 具备上述优势 ,所以其广泛应用于云盘算、物联网、机械学习等前沿领域的超大型数据集快速剖析处理之中。

  显然 ,高性能的数据剖析是 Spark 的一个重要优势 ,要提升性能 ,除了可以在软件优化方面入手之外 ,还可以从硬件角度进行考虑:由于 Spark 依赖内存进行盘算 ,所以内存的速度、容量关于盘算效率至关重要 ,如果数据量凌驾了集群内存能容纳的最大值 ,部分数据就会落在相对低速的磁盘上 ,这导致Spark数据处理能力无法充分发挥。

  扩展内存容量是一个比较简单、直接的要领 ,可是问题同样保存。首先 ,效劳器内存插槽有限 ,且一般支持128GB 的 DRAM 内存 ,这决定了单台效劳器扩展的总内存容量受到严格限制;其次 ,如果接纳增加效劳器节点的方法进行扩展 ,这些增长的效劳器节点不但意味着采购本钱的增加 ,也会带来不菲的空间、运维本钱。再加上企业级的大容量 DRAM 内存自己就价格腾贵 ,使得许多企业的 Spark 系统蒙受着巨大的本钱压力。

解决计划介绍

  由于介质、技术等原因限制 ,在现有的技术条件下古板 DRAM 内保存容量与本钱上很难实现质的突破 ,所以 ,寻找立异的存储介质与架构也就成为了 Spark 系统性能扩展的重要偏向。在比较英特尔® 傲腾? 长期内存与 DRAM 内存之后 ,pg电子官网决定实验接纳英特尔® 傲腾? 长期内存来进行 Spark 内存池扩展。

  pg电子官网选择英特尔® 傲腾? 长期内存的原因不难理解。首先 ,英特尔® 傲腾? 长期内存提供了行业领先的高吞吐率、低延时、高效劳质量和超高的耐用性 ,可以提供接近内存的延迟 ,并支持快速缓存和快速存储 ,对应用进行加速。

  其次 ,英特尔® 傲腾? 长期内存的单设备容量抵达512GB ,远超DRAM 内存的128GB ,这使得其可以将系统内存扩展至6TB(不包括系统自身内存)。并且 ,英特尔® 傲腾? 内存的单位容量价格要远低于DRAM 内存 ,这些特性支持企业在数据中心安排更大、更经济的数据集 ,在大型内存池中获得新的洞察。

  在本计划中 ,pg电子官网使用英特尔® 傲腾? 内存作为 Spark 系统的存储介质 ,以解决效劳器内存缺乏的问题。英特尔® 傲腾? 内存有App Direct 模式和内存模式两种模式。本次测试接纳App Direct 模式 ,App Direct 具有数据长期化、高容量、高可用性、显著加速存储速度等特点 ,是目前英特尔® 傲腾? 内存主要使用模式(两种计划的对好比图1所示)。

  图1

  图1

  为了验证英特尔® 傲腾? 长期内存的使用关于 Spark 系统性能的影响 ,pg电子官网基于英特尔® 傲腾? 内存与 DRAM 内存 ,并划分针对Spark SQL测试与Spark K-Means测试配置了比照计划(接纳相同的硬件配置和组网方法) ,两套计划的成内幕当 ,因此可以直观的反应出两套计划的性能价格比。

  图2

  图2

  首先进行的是 Spark SQL 单机测试(测试结果如图3)与集群测试(测试结果如图4)可以发明 ,英特尔® 傲腾? 内存计划的单机性能是DRAM计划的7.33倍 ,集群性能是 DRAM 计划的6.05倍。

  图3

  图3

  图4

  图4

  接下来pg电子官网进行了 Spark K-Means单机测试(测试结果如图5)与集群测试(测试结果如图6)。测试结果显示 ,在单机情况下 ,英特尔® 傲腾? 内存计划在训练方面的性能是DRAM计划的13.74倍 ,整体性能是DRAM计划的3.93倍;集群情况下 ,英特尔® 傲腾? 内存计划在训练方面的性能是DRAM计划的10.76倍 ,整体性能是 DRAM 计划的3.99倍。

  图5

  图5

  图6

  图6

客户收益

  效果:英特尔® 傲腾? 内存显著提升 Spark 计划性能与本钱效益

  以上测试显示 ,在 Spark 系统的构建历程中 ,如果需要处理的数据量高于效劳器内存资源 ,那么基于英特尔® 傲腾? 长期内存的配置计划性能将远超 DRAM 内存计划。这是由于凌驾效劳器内存池容纳能力的数据会落在低速的磁盘上 ,从而导致处理速度的降低 ,而英特尔® 傲腾? 内存不但可以提供速度接近 DRAM 内存的快速存储器 ,并且可支持的内存池总容量远超 DRAM 内存 ,这能够让 Spark 缓存更多的数据 ,从而充分发挥 Spark 的数据高速处理优势。

  尤为重要的是 ,英特尔® 傲腾? 内保存单位本钱上显著低于 DRAM 内存 ,这能够资助企业有效控制Spark 系统的TCO。在大型的 Spark 应用实践中 ,英特尔® 傲腾? 内存作为内存扩展计划 ,可以资助企业在牢固的性能目标下 ,有效控制效劳器节点数量以及内存采购本钱 ,从而实现性能与本钱效益的均衡。


线

?



×
PG电子·(中国)官方网站 联系pg电子官网
ERP、企业软件购置热线
400-018-7700
云效劳产品销售热线
400-607-6657
集团客户投诉热线
400-691-8711
智能终端产品客服热线
400-658-6111
网站地图