从 TPCH 测试看 SPL 性能优化技巧 1

twtiqfn

2019-07-05

测试环境说明

CPU：4颗，主频2.6G，每个CPU内核数8个。

硬盘：800G，15000转SAS硬盘，理论读写速度150m/s。

内存：64G。

操作系统：Linux cent os 6

SQL1

select   
   
          l_returnflag,   
   
          l_linestatus,   
   
          sum(l_quantity) as sum_qty,   
   
          sum(l_extendedprice) as sum_base_price,   
   
          sum(l_extendedprice * (1 - l_discount)) as sum_disc_price,   
   
          sum(l_extendedprice * (1 - l_discount) * (1 + l_tax)) as sum_charge,   
   
          avg(l_quantity) as avg_qty,   
   
          avg(l_extendedprice) as avg_price,   
   
          avg(l_discount) as avg_disc,   
   
          count(*) as count_order   
   
 from   
   
          lineitem   
   
 where   
   
          l_shipdate <= date '1998-12-01' - interval '90' day(3)   
   
 group by   
   
          l_returnflag,   
   
          l_linestatus   
   
 order by   
   
          l_returnflag,   
   
          l_linestatus;

LineItem表原始数据大小为79.6G（文本格式），数据行数600037902。

Oracle空间文件大小为200G，lineItem表数据导入时间20个小时。

SQL运行时间为637秒。

在SQL里增加并行选项select /+ parallel(lineitem 10) /后，运行时间下降到397秒。

用集文件执行

集文件为集算器支持的数据文件格式。特点是对数据进行一定的压缩，以提高查找和计算的磁盘性能。

集文件结构简单，应用范围明确，其生成速度远远高于oracle的数据导入速度。lineitem数据导入仅需48分28秒，最终生成的集文件大小为56.9G。

用集文件改写上面SQL的SPL脚本如下：

从 TPCH 测试看 SPL 性能优化技巧 1

上例运行时间为412秒，比SQL少了225秒。

groups和groupx的选用

在集算器中分组统计函数有两个，一个是groups，另一个是groupx。

在上例中已经介绍了groups的脚本。groupx脚本如下：

从 TPCH 测试看 SPL 性能优化技巧 1

本例中该脚本的运行时间为418秒，与groups相当。

groups与groupx的区别在于，groups全内存运行，支持并行运行，但当内存不足时不能利用外存，仅仅是抛出异常。groupx在内存不足时会利用外存完成计算，但不支持并行。

选用groups还是groupx需要预判统计计算过程中，内存占用的大小。决定统计计算中内存占用大小的决定因素是，分组表达式可能产生的分组的个数。

本例中L_RETURNFLAG为二值，L_LINESTATUS为枚举值，可以判断分组数非常小。因此这里采用groups是合适的(groups通过并行可以大幅提高执行效率，后面会介绍)。

关于游标使用

游标原意是为了减少内存消耗，保证大数据处理能力。但有时也能用于提高性能，原因在于减少内存使用后能减少磁盘换页机会，同时小内存块更容易分配出来、分配速度更快。

本例中因数据量大，必须使用游标。我们在笔记本上用1G的数据量进行过测试。当采用非游标运行的时候，内存占用达到了2380.2M，运行时间为100秒。而采用游标处理后内存占用降为183.49M，运行时间降为38秒。

用并行计算提高运算速度

我们看一下并行计算对运算效率的提升：

从 TPCH 测试看 SPL 性能优化技巧 1

这里采用的是8线程，运行时间为84秒，运算效率提升了近5倍。

并行计算可以充分利用CPU、硬盘等计算机资源，提升运算效率效果明显。

设置不同的并行运算数可以取得不同的运算效率。在实际运行中，还要受硬盘转速、CPU核数等多种条件的影响。即使相同条件下，多次测试的结果也会有一定的波动。具体的性能指标只有多次实测才能得出。

用组表提高计算速度

集算器还提供了列存格式，即组表。我们再用组表来尝试一下，先生成组表。用文本文件生成组表的SPL脚本，如下：

从 TPCH 测试看 SPL 性能优化技巧 1

组表有更好的压缩效率，最终生成的文件的大小为29.4G，其大小几乎只有集文件的一半。

组表运行脚本：

从 TPCH 测试看 SPL 性能优化技巧 1

运行时间变为60秒，相对于集文件效率提高了1/3。

组表提高运行速度的原因是：

1、采用列存方式，数据集中，需要加载的数据量更少。

2、列存使得压缩比更高，磁盘数据进一步减少。

组表排序后对性能的影响

组表的一个好处是，可以让组表存储时，针对一些常用数据有序，以提高性能。本脚本有个针对L_SHITDATE的条件，如果将数据按此字段排序后会提高过滤性能。下面程序是让组表针对L_SHIPDATE排序：

从 TPCH 测试看 SPL 性能优化技巧 1

排序后，再次运行脚本，运行时间为44秒（8线程），明显优于未排序情况。

spl 性能优化 h1

twtiqfn

0 关注 0 粉丝 0 动态

相关推荐

如何将 EXCEL 数据写入数据库

如何把格式复杂的EXCEL文件中的数据转变成结构化的数据集，然后存入数据库？要在程序语言中编程解决这个问题，工作量是非常大的。而且因为许多EXCEL文件的格式都不规整，编写的程序并不能通用，每次都要重新编写程序。如果使用集算器SPL来解决这个问题，那就很简

zxznsjdsj 2020-06-16

php的命名空间和自动加载实现

当我们在php代码中加载类时，我们必须要include或者require 某个类文件。但遇到类似的情况，例如:. 假如我们需要判断一个人的性别，如果是男的就实例化class1这个类，如果是女的就实例化class2这个类。其实就是封装整个项目的include

微麦PHP 2019-09-05

SPL 排序优化技巧

让我们一起去乾学院看个究竟吧：SPL 排序优化技巧本文介绍的SPL排序优化技巧，除了提供常规的排序算法外，还根据不同场景下的数据特性提供了排序的替代算法，从而减少比较次数和IO量，提升运算性能。SPL默认的排序算法是基于merge sort的多线程排序算法

duyifei0 2019-07-01

浅解比 SQL 更好用的 SPL（二）

上一篇我们针对单表的情形了解了如何把数据计算从 SQL 查询迁移到集算器，或者更准确地说，迁移到集算器所使用的SPL集算语言。这个迁移过程，既有相同的概念，也有不同的思路。接下来，我们一起针对多表的情况看一下集算器和SPL语言是如何发挥更大的优势的。JOI

programmerv 2019-06-28

PHP SPL 笔记

这个东西应该属于PHP中的高级内容，看上去很复杂，但是非常有用，所以我做了长篇笔记。不然记不住，以后要用的时候，还是要从头学起。由于这是供自己参考的笔记，不是教程，所以写得比较简单，没有多解释。但是我想，如果你是一个熟练的PHP5程序员，应该足以看懂下面的

ahxxx 2019-06-26

PHP SPL标准库之数据结构栈(SplStack)介绍

* 可见栈和双链表的区别就是IteratorMode改变了而已，栈的IteratorMode只能为：

phpsir 2019-04-11

PHP SPL标准库之SplFixedArray使用实例

SplFixedArray主要是处理数组相关的主要功能，与普通php array不同的是，它是固定长度的，且以数字为键名的数组，优势就是比普通的数组处理更快。echo PHP_EOL . "Testing size: $size" .

phptyong 2019-04-11

PHP SPL标准库之数据结构堆(SplHeap)简单使用实例

堆就是为了实现优先队列而设计的一种数据结构，它是通过构造二叉堆实现。根节点最大的堆叫做最大堆或大根堆，根节点最小的堆叫做最小堆或小根堆。二叉堆还常用于排序(堆排序)。显然它是一个抽象类，最大堆和最小堆就是继承它实现的。最大堆和最小堆并没有额外的方法SplH

守望丶 2019-04-11

PHP SPL标准库之接口(Interface)详解

实现Countable接口的对象可用于count()函数计数。调用count()函数时，Mycount::count()方法被调用count()函数的第二个参数将不会产生影响。自定义或修改迭代过程。print_r;RecursiveIterator接口：用

phptyong 2019-04-11

PHP SPL标准库之文件操作(SplFileInfo和SplFileObject)实例

PHP SPL中提供了SplFileInfo和SplFileObject两个类来处理文件操作。'getBasename' => $file->getBasename(), //获取无路径的basename. 'getLinkTarget' =&

zhangwei0php 2019-04-11

Yii中使用PHPExcel导出Excel的方法

本文实例讲述了Yii中使用PHPExcel导出Excel的方法。分享给大家供大家参考。最近在研究PHP的Yii框架,很喜欢,碰到导出Excel的问题,研究了一下,就有了下面的方法.// Register any existing autoloader fu

ruxingli 2019-04-10

PHP快速按行读取CSV大文件的封装类分享（也适用于其它超大文本文件）

CSV大文件的读取已经在前面讲述过了，但是如何快速完整的操作大文件仍然还存在一些问题。

展翅飞翔phpBoy00 2014-04-10

PHP使用标准库spl实现的观察者模式示例

本文实例讲述了PHP使用标准库spl实现的观察者模式。分享给大家供大家参考，具体如下：。前面使用纯php实现了一个观察者模式，现在使用php标准库spl在次实现观察者模式，好处是：随意的生成您想使用的观察者！

PHP100 2019-03-28

PHP基于SPL实现的迭代器模式示例

本文实例讲述了PHP基于SPL实现的迭代器模式。分享给大家供大家参考，具体如下：。echo "员工{$e->getName()}被分配到{$this->_name}中去";好了，现在LSGO实验室已经有两个部员了，现在我想把

PHP100 2019-03-28

PHP SPL 被遗落的宝石【SPL应用浅析】

本文实例讲述了PHP SPL应用方法。分享给大家供大家参考，具体如下：。SPL，PHP 标准库，从 PHP 5.0 起内置的组件和接口，并且从 PHP5.3 已逐渐的成熟。SPL 其实在所有的 PHP5 开发环境中被内置，同时无需任何设置。似乎众多的 P

PHP100 2019-03-28

PHP中spl_autoload_register()函数用法实例详解

分享给大家供大家参考，具体如下：。在了解这个函数之前先来看另一个函数：__autoload。这是一个自动加载函数，在PHP5中，当我们实例化一个未定义的类时，就会触发此函数。运行index.php后正常输出hello world。如果该栈中的函数尚未激活，

PHP100 2019-03-28

PHP SPL标准库中的常用函数介绍

PHP SPL标准库中提供了一些函数用来处理如自动加载、迭代器处理等。//设置include_path,autoload会在这些path中去寻找类文件,可通过PATH_SEPARATOR添加多个path. class_parents ― 返回指定类的父类。

PHP100 2019-03-28

php中spl_autoload详解

SPL有两个不同的函数 spl_autoload, spl_autoload_call，通过将autoload_func指向这两个不同的函数地址来实现不同的自动加载机制。spl_autoload首先将$class_name变为小写，然后在所有的 inclu

PHP100 2019-03-28

PHP之autoload运行机制实例分析

本文较为深入的分析了PHP的autoload运行机制。对于深入理解PHP运行原理有一定的帮助作用。通常在c扩展中使用。顾名思义，zend_call_function的主要功能是调用PHP函数。自动加载方便了面向对象和代码复用，但是多个类库不同的__auto

PHP100 2019-03-28

PHP中spl_autoload_register()和__autoload()区别分析

echo 'Trying to load ', $className, ' via ', __METHOD__, "()\n";详见PHP参考手册：关于SPL函数列表. 注意：如果在你的程序中已经实现了__autoload函数，它必须

PHP100 2019-03-27

twtiqfn

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号