pgbench — 运行 PostgreSQL 基准测试
pgbench -i [option...] [dbname]
pgbench [option...] [dbname]
pgbench是一个用于对PostgreSQL执行基准测试的简单程序。它会反复执行同一组 SQL 命令,必要时可在多个并发数据库会话中运行,然后计算平均事务速率(每秒事务数)。默认情况下,pgbench测试的是一个大体上基于 TPC-B 的场景,每个事务包含五条SELECT、UPDATE和INSERT命令。不过,通过编写自己的事务脚本文件,也很容易测试其他场景。
典型的pgbench输出如下:
transaction type: <builtin: TPC-B (sort of)> scaling factor: 10 query mode: simple number of clients: 10 number of threads: 1 maximum number of tries: 1 number of transactions per client: 1000 number of transactions actually processed: 10000/10000 number of failed transactions: 0 (0.000%) latency average = 11.013 ms latency stddev = 7.351 ms initial connection time = 45.758 ms tps = 896.967014 (without initial connection time)
前七行给出了若干最重要的参数设置。 第六行报告了出现串行化或死锁错误时事务允许的最大尝试次数(更多信息见Failures and Serialization/Deadlock Retries)。 第八行报告实际完成的事务数和预期事务数(后者仅为客户端数量与每个客户端事务数的乘积);除非运行在完成前失败,或者某些 SQL 命令执行失败,否则两者应当相等。(在-T模式下,只打印实际事务数。) 下一行报告因串行化或死锁错误而失败的事务数(更多信息见Failures and Serialization/Deadlock Retries)。 最后一行报告每秒事务数。
默认的类 TPC-B 事务测试要求预先建立特定的表。应使用-i(initialize)选项调用pgbench来创建并填充这些表。(测试自定义脚本时不需要这一步,但需要自行完成测试所需的准备工作。)初始化命令如下:
pgbench -i [other-options]dbname
其中dbname是已创建好的、用于执行测试的数据库名称。(可能还需要使用-h、-p和/或-U选项来指定如何连接到数据库服务器。)
pgbench -i会创建四个表pgbench_accounts、 pgbench_branches、pgbench_history和pgbench_tellers,并销毁任何已存在的同名表。如果数据库中已经存在这些名称的表,请务必改用其他数据库!
在默认的“比例因子” 1 下,这些表最初包含如下行数:
table # of rows --------------------------------- pgbench_branches 1 pgbench_tellers 10 pgbench_accounts 100000 pgbench_history 0
可以使用-s(比例因子)选项来增加行数,而且在大多数场景下也确实应该这样做。此时还可以配合使用-F(fillfactor)选项。
完成必要的准备后,就可以使用不带-i的命令运行基准测试,也就是:
pgbench [options]dbname
几乎在所有情况下,都需要附加一些选项才能得到有意义的测试。最重要的选项是-c(客户端数)、 -t(事务数)、-T(时间限制)以及-f(指定自定义脚本文件)。完整列表见下文。
下面分成三个部分。数据库初始化期间使用的选项和运行基准时会使用不同的选项,但也有一些选项在两种情况下都使用。
pgbench接受以下命令行初始化参数:
[-d] dbname[--dbname=]dbname #指定要测试的数据库名称。如果未指定,则使用环境变量PGDATABASE。 如果未设置该变量,则使用连接指定的用户名。
-i--initialize #进入初始化模式所必需。
-I init_steps--init-steps=init_steps #仅执行正常初始化步骤中的选定部分。 init_steps指定要执行的初始化步骤,每个步骤用一个字符表示。 各步骤会按照指定顺序调用。 默认值为dtgvp。 可用步骤如下:
d(删除) #删除任何现有的pgbench表。
t(创建表) #创建标准pgbench场景使用的表,即 pgbench_accounts、 pgbench_branches、 pgbench_history和 pgbench_tellers。
g或G(在客户端或服务器端生成数据) #生成数据并将其装载到标准表中,替换其中任何已有数据。
使用g(客户端生成数据)时,数据由pgbench客户端生成,再通过COPY发送到服务器,因此会大量占用客户端/服务器带宽。对于 14 及以上版本的PostgreSQL,pgbench会在普通(非分区)表上使用FREEZE选项装载数据,以加快后续的VACUUM。使用g时,在为所有表生成数据的过程中,每生成 100,000 行会输出一条日志消息。
使用G(服务器端生成数据)时, pgbench客户端只发送较小的查询,随后实际数据在服务器端生成。 这种方式几乎不需要额外带宽,但服务器会承担更多工作。 使用G时,生成数据期间不会打印任何进度消息。
默认初始化行为使用客户端生成数据(等同于g)。
v(清理) #在标准表上调用VACUUM。
p(创建主键) #在标准表上创建主键索引。
f(创建外键) #在标准表之间创建外键约束。 (请注意,默认情况下不执行此步骤。)
-F fillfactor--fillfactor=fillfactor #以给定的 fillfactor 创建pgbench_accounts、 pgbench_tellers和 pgbench_branches表。 默认值为 100。
-n--no-vacuum #初始化期间不执行任何清理。 (即使在-I中指定了v步骤,此选项也会抑制它。)
-q--quiet #将日志切换为静默模式,每 5 秒只输出一条进度消息。默认日志每生成 100,000 行输出一条消息, 因而往往会在每秒输出多行(尤其是在较好的硬件上)。
如果在-I中指定了G,则此设置无效。
-s scale_factor--scale=scale_factor #将生成的行数乘以比例因子。 例如,-s 100会在pgbench_accounts表中创建 10,000,000 行。 默认值为 1。 当比例达到 20,000 或更大时,用于保存账户标识符的列(aid列) 将切换到使用更大的整数(bigint), 以便容纳账户标识符的取值范围。
--foreign-keys #在标准表之间创建外键约束。 (如果初始化步骤序列中尚未包含f步骤,则此选项会把它加入进去。)
--index-tablespace=index_tablespace #在指定的表空间中创建索引,而不是默认的表空间。
--partition-method=NAME #使用NAME方法创建分区的pgbench_accounts表。 预期值为range或hash。 此选项要求--partitions设置为非零值。 若未指定,默认为range。
--partitions=NUM #创建带有NUM个大小近乎相等分区的pgbench_accounts分区表, 这些分区用于容纳按比例扩展后的账户数。 默认值为0,表示不分区。
--tablespace=tablespace #在指定的表空间中创建表,而不是默认的表空间。
--unlogged-tables #将所有表创建为不记录日志表,而不是永久表。
pgbench接受以下命令行基准测试参数:
-b scriptname[@weight]--builtin=scriptname[@weight] #将指定的内置脚本添加到待执行脚本列表中。 可用的内置脚本包括:tpcb-like、 simple-update和select-only。 也接受内置名称的无歧义前缀。 使用特殊名称list时,会显示内置脚本列表 并立即退出。
可选地,可在@后写一个整数权重,以调整此脚本相对于其他脚本的选中概率。 默认权重为 1。 详情请参见下文。
-c clients--client=clients #模拟的客户端数量,也就是并发数据库会话的数量。默认值为 1。
-C--connect #为每个事务建立一个新连接,而不是仅在每个客户端会话中执行一次。 这对于测量连接开销很有用。
-D varname=value--define=varname=value #定义一个变量,供自定义脚本使用(见下文)。 允许使用多个-D选项。
-f filename[@weight]--file=filename[@weight] #将从filename读取的事务脚本添加到要执行的脚本列表中。
可选地,可在@后写一个整数权重,以调整此脚本相对于其他脚本的选中概率。 默认权重为 1。 (如果脚本文件名本身包含@字符,可追加一个权重以消除歧义,例如filen@me@1。) 详情见下文。
-j threads--jobs=threads #pgbench中的工作线程数。 在多 CPU 机器上使用多个线程可能会有所帮助。 客户端尽可能均匀地分布在可用线程中。 默认值为 1。
-l--log #将每个事务的信息写入日志文件。 详情见下文。
-L limit--latency-limit=limit #持续时间超过limit毫秒的事务会被单独计数和报告,称为late。
使用限流(--rate=...)时,若某个事务落后于计划时间超过limit毫秒, 从而已经不可能满足延迟限制,则它根本不会被发送到服务器。此类事务会被单独计数并报告为skipped。
使用--max-tries选项时,若某个事务因串行化异常或死锁而失败, 且其所有尝试的总耗时大于limit毫秒,则不会再重试。 若只想限制尝试总时间而不限制尝试次数,请使用--max-tries=0。 默认情况下,--max-tries为 1,出现串行化/死锁错误的事务不会重试。 有关此类事务重试的更多信息,见Failures and Serialization/Deadlock Retries。
-M querymode--protocol=querymode #用于向服务器提交查询的协议:
simple: 使用简单查询协议。
extended: 使用扩展查询协议。
prepared: 使用带有预备语句的扩展查询协议。
在prepared模式下,pgbench 从第二次查询迭代开始复用解析分析结果,因此pgbench 比其他模式运行得更快。
默认值是简单查询协议。(更多信息见Chapter 54。)
-n--no-vacuum #在运行测试前不执行任何清理。 如果运行的是不包含标准表pgbench_accounts、 pgbench_branches、pgbench_history和 pgbench_tellers的自定义测试场景,则此选项是必需的。
-N--skip-some-updates #运行内置的 simple-update 脚本。 是-b simple-update的简写。
-P sec--progress=sec #每sec秒显示一次进度报告。报告包括自运行开始以来的时间、自上次报告以来的 TPS、 自上次报告以来事务延迟的平均值和标准差,以及失败事务数。使用限流(-R)时, 延迟是相对于事务计划开始时间计算的,而不是实际开始时间,因此其中也包含平均计划滞后时间。 当使用--max-tries启用事务在串行化/死锁错误后的重试时,报告还会包含发生过重试的事务数以及总重试次数。
-r--report-per-command #在基准测试完成后,报告每条语句的以下统计信息:平均延迟(从客户端视角看到的语句执行时间)、失败次数,以及该语句因串行化或死锁错误而发生的重试次数。仅当--max-tries选项不等于 1 时,报告才会显示重试统计信息。
-R rate--rate=rate #以指定速率执行事务,而不是像默认行为那样尽可能快地运行。速率以每秒事务数表示。 如果目标速率高于可达到的最大速率,则速率限制不会影响结果。
该速率通过让事务沿着一条符合泊松分布的时间线启动来实现。预期开始时间表是根据客户端首次启动的时间向前推进的,而不是根据前一个事务结束的时间。这意味着,当某些事务超过其原定结束时间时,后续事务仍有可能重新赶上计划。
启用限流后,运行结束时报告的事务延迟是从计划开始时间计算的,因此它包含每个事务等待前一个事务完成的时间。 这段等待时间称为计划滞后时间,其平均值和最大值也会单独报告。若要得到相对于事务实际开始时间的延迟,也就是事务在数据库中实际执行所花费的时间, 可以用报告中的延迟减去计划滞后时间。
如果同时使用--latency-limit和--rate, 一个事务可能会落后太多,以至于在前一个事务结束时已经超过了 延迟限制,因为延迟是从计划开始时间计算的。这样的事务 不会发送到服务器,而是完全跳过并单独计数。
较高的计划滞后时间表明,在所选客户端数和线程数下,系统无法以指定速率处理事务。 当平均事务执行时间长于事务之间的计划间隔时,后续事务会不断进一步落后, 而计划滞后时间也会随着测试持续时间增加。在这种情况下,只能降低指定的事务速率。
-s scale_factor--scale=scale_factor #在pgbench输出中报告指定的比例因子。 对于内置测试,这通常没有必要;系统会通过统计pgbench_branches表中的行数来检测正确的比例因子。 但在只测试自定义基准(-f选项)时, 除非使用此选项,否则比例因子会被报告为 1。
-S--select-only #运行内置的 select-only 脚本。 是-b select-only的简写。
-t transactions--transactions=transactions #每个客户端运行的事务数量。默认值为10。
-T seconds--time=seconds #让测试运行指定的秒数,而不是让每个客户端执行固定数量的事务。-t 和 -T 是互斥的。
-v--vacuum-all #在运行测试之前,对四个标准表全部执行清理。 如果既不使用-n也不使用-v,pgbench会对 pgbench_tellers和pgbench_branches 表进行清理,并截断pgbench_history。
--aggregate-interval=seconds #聚合间隔的长度(以秒为单位)。只能与-l选项一起使用。 使用此选项时,日志包含每个间隔的摘要数据,如下所述。
--exit-on-abort #当任一客户端因错误被中止时,立即退出。如果不指定该选项,即使某个客户端被中止,其他客户端仍可按-t或-T的设定继续运行,此时pgbench会输出不完整的结果。
请注意,串行化失败或死锁失败不会中止客户端,因此不受该选项影响。更多信息见 Failures and Serialization/Deadlock Retries。
--failures-detailed #在逐事务日志、聚合日志以及主报告和逐脚本报告中,按以下类型分组报告失败:
串行化失败;
死锁失败;
--log-prefix=prefix #设置由--log创建的日志文件的文件名前缀。默认值为pgbench_log。
--max-tries=number_of_tries #启用对出现串行化/死锁错误的事务进行重试,并设置最大尝试次数。此选项可与 --latency-limit组合使用,后者限制所有事务尝试的总耗时; 此外,如果没有--latency-limit或--time, 则不能使用无限次尝试(--max-tries=0)。 默认值为 1,出现串行化/死锁错误的事务不会重试。有关此类事务重试的更多信息,见 Failures and Serialization/Deadlock Retries。
--progress-timestamp #显示进度(选项-P)时,使用时间戳(Unix 纪元)而不是自运行开始以来的秒数。 单位为秒,小数点后精确到毫秒。 这有助于比较各种工具生成的日志。
--random-seed=seed #设置随机数生成器种子。它会先为系统随机数生成器设种,再生成一系列初始生成器状态,每个线程一个。 seed的取值可以是: time(默认值,种子基于当前时间), rand(使用强随机源,如果没有可用的则失败),或者无符号十进制整数值。 随机生成器既可以在 pgbench 脚本中显式调用(random...函数),也可以隐式调用(例如选项 --rate用于调度事务)。 显式设置时,实际用于设种的值会显示在终端上。 任何允许的seed值也可以通过环境变量 PGBENCH_RANDOM_SEED提供。 为确保提供的种子影响所有可能的用途,将此选项放在第一位或使用环境变量。
显式设置种子可以在随机数层面精确复现一次pgbench运行。 由于随机状态按线程管理,这意味着对于相同的调用,如果每个线程只有一个客户端,且不存在外部依赖或数据依赖, 那么pgbench运行可以完全一致。 从统计角度看,精确复现实验并不是好主意,因为它可能掩盖性能波动,甚至不恰当地提高性能, 例如反复命中与前一次运行相同的页面。 不过,这对调试也可能非常有帮助,例如重现会触发错误的棘手案例。 请谨慎使用。
--sampling-rate=rate #写入日志时使用的采样率,用于减少生成的日志量。如果给定此选项, 则只记录指定比例的事务。1.0 表示记录全部事务,0.05 表示只记录 5% 的事务。
处理日志文件时,记得把采样率考虑进去。例如,计算 TPS 值时,需要按采样率对数字进行相应换算(例如采样率为 0.01 时,只能得到实际 TPS 的 1/100)。
--show-script=scriptname #将内置脚本scriptname的实际代码输出到 stderr,然后立即退出。
--verbose-errors #打印关于所有错误和失败的消息(即不会重试的错误),包括超出了哪一种重试限制,以及对于串行化/死锁失败超出的幅度。(请注意,这种情况下输出量可能会显著增加。)更多信息见Failures and Serialization/Deadlock Retries。
成功运行会以状态 0 退出。状态 1 表示静态问题,例如无效的命令行选项,或者按理不应发生的内部错误。 在启动基准测试时发生的早期错误,例如初始连接失败,也会以状态 1 退出。 运行过程中出现的错误,例如数据库错误或脚本中的问题,会导致退出状态 2。在后一种情况下,如果未指定--exit-on-abort,pgbench会打印部分结果。
PGDATABASEPGHOSTPGPORTPGUSER #默认连接参数。
此实用程序与大多数其他 PostgreSQL 实用程序一样,使用 libpq 支持的环境变量(请参阅 Section 32.15)。
环境变量 PG_COLOR 指定是否在诊断消息中使用颜色。可能的值是always、auto 和 never。
pgbench会从指定列表中随机选取测试脚本来执行。 这些脚本既可以是用-b指定的内置脚本,也可以是用-f指定的用户脚本。 每个脚本都可以在其后加上一个以@引出的相对权重,以改变其被选中的概率。 默认权重为1。权重为0的脚本会被忽略。
默认的内置事务脚本(也可通过-b tpcb-like调用)会针对随机选取的aid、 tid、bid和delta在每个事务中发出七条命令。 该场景受 TPC-B 基准启发,但并不是真正的 TPC-B,因此才取了这个名字。
BEGIN;
UPDATE pgbench_accounts SET abalance = abalance + :delta WHERE aid = :aid;
SELECT abalance FROM pgbench_accounts WHERE aid = :aid;
UPDATE pgbench_tellers SET tbalance = tbalance + :delta WHERE tid = :tid;
UPDATE pgbench_branches SET bbalance = bbalance + :delta WHERE bid = :bid;
INSERT INTO pgbench_history (tid, bid, aid, delta, mtime) VALUES (:tid, :bid, :aid, :delta, CURRENT_TIMESTAMP);
END;
如果选择simple-update内置脚本(也就是-N),事务中将不包含第 4 步和第 5 步。这会避免在这些表上发生更新争用,但也会让该测试场景更不像 TPC-B。
如果选择select-only内置脚本(也就是-S),则只执行SELECT。
pgbench支持自定义基准测试场景:只需用从文件中读取的事务脚本(-f选项)替换默认事务脚本(见上文)即可。在这种情况下,一个“事务”就表示脚本文件的一次执行。
脚本文件包含一个或多个以分号结束的 SQL 命令。空行以及以--开头的行会被忽略。脚本文件还可以包含“元命令”,它们由pgbench自身解释,详见下文。
在PostgreSQL 9.6 之前,脚本文件中的 SQL 命令以换行结束,因此不能跨行。现在连续 SQL 命令之间必须用分号分隔(如果 SQL 命令后面跟着一个元命令,则不需要分号)。如果需要创建一个既能在旧版也能在新版pgbench下工作的脚本文件,务必将每个 SQL 命令写在单独一行,并以分号结束。
假定pgbench脚本不包含不完整的 SQL 事务块。如果在运行时客户端在尚未完成最后一个事务块时就到达脚本末尾,它将被中止。
脚本文件提供了一种简单的变量替换机制。变量名必须由字母(包括非拉丁字母)、数字和下划线组成,并且首字符不能是数字。 如上所述,变量可以用命令行-D选项设置,也可以用下文介绍的元命令设置。 除了通过-D命令行选项预先设置的变量之外,还有少量变量会被自动预设,列在Table 300中。 如果使用-D为这些变量指定值,则会覆盖自动预设值。 一旦设置好变量,就可以在 SQL 命令中写:variablename来插入其值。 当运行多个客户端会话时,每个会话都有自己的变量集合。 pgbench在单条语句中最多支持 255 次变量使用。
Table 300. pgbench 自动变量
| 变量 | 简介 |
|---|---|
client_id |
标识客户端会话的唯一编号(从零开始) |
default_seed |
默认在哈希和伪随机置换函数中使用的种子 |
random_seed |
随机数生成器种子(除非被-D覆盖) |
scale |
当前比例因子 |
脚本文件中的元命令以反斜线(\)开头,通常延伸到行尾,不过也可以通过写反斜线换行继续到后续行。元命令及其参数之间以空白分隔。支持的元命令如下:
\gset [prefix] \aset [prefix] #这些命令可用于结束 SQL 查询,以代替结尾分号(;)。
使用\gset命令时,前面的 SQL 查询预期返回一行,其各列会被存入以列名命名的变量;如果提供了prefix,则会加上该前缀。
使用\aset命令时,所有组合 SQL 查询(由\;分隔)的列都会被存入以列名命名的变量中;如果提供了prefix,则会加上该前缀。如果查询不返回任何行,则不会进行赋值,可以通过测试变量是否存在来检测这种情况。如果查询返回多行,则保留最后一个值。
\gset 和 \aset 不能用在管道模式,因为在命令需要它们的时候,查询结果还不可用。
下面的示例将第一个查询中的最终账户余额放入变量abalance, 并用第三个查询中的整数填充变量p_two和p_three。 第二个查询的结果会被丢弃。 最后两个组合查询的结果会被存入变量four和five。
UPDATE pgbench_accounts SET abalance = abalance + :delta WHERE aid = :aid RETURNING abalance \gset -- compound of two queries SELECT 1 \; SELECT 2 AS two, 3 AS three \gset p_ SELECT 4 AS four \; SELECT 5 AS five \aset
\if expression\elif expression\else\endif #这一组命令实现了可嵌套的条件块,类似于psql中的\if expression。条件表达式与\set中的表达式相同,非零值会被解释为真。
\set varname expression #将变量varname设置为根据expression计算出的值。该表达式可以包含NULL常量、布尔常量TRUE和FALSE、5432这样的整数常量、3.14159这样的双精度常量、对变量的引用:variablename、 操作符(保留其通常的 SQL 优先级和结合性)、函数调用、 SQL CASE通用条件表达式以及括号。
函数和大部分操作符在NULL输入上会返回NULL。
就条件判断而言,非零数值为TRUE,零值和NULL为FALSE。
过大或过小的整数和双精度常量,以及整数算术操作符(+、-、*和/)都会在溢出时引发错误。
在没有为CASE提供最终的ELSE子句时,默认值是NULL。
示例:
\set ntellers 10 * :scale
\set aid (1021 * random(1, 100000 * :scale)) % \
(100000 * :scale) + 1
\set divx CASE WHEN :x <> 0 THEN :y/:x ELSE NULL END
\sleep number [ us | ms | s ] #让脚本执行休眠指定时长,单位可以是微秒(us)、毫秒(ms)或秒(s)。如果省略单位,则默认为秒。number可以是整数常量,也可以是引用了整数值变量的:variablename。
示例:
\sleep 10 ms
\setshell varname command [ argument ... ] #将变量varname设置为 shell 命令command在给定argument参数下的结果。该命令必须通过标准输出返回一个整数值。
command和每个argument都可以是文本常量,也可以是引用某个变量的:variablename。如果要使用以冒号开头的argument,请在其开头再写一个冒号。
示例:
\setshell variable_to_be_assigned command literal_argument :variable ::literal_starting_with_colon
\shell command [ argument ... ] #与\setshell相同,但命令结果会被丢弃。
示例:
\shell command literal_argument :variable ::literal_starting_with_colon
\startpipeline\syncpipeline\endpipeline #这组命令用于实现 SQL 语句的流水线执行。流水线必须以\startpipeline开始,并以\endpipeline结束;在两者之间可以出现任意数量的\syncpipeline,它会发送一个sync 消息,但不会结束当前流水线,同时会刷新发送缓冲区。在流水线模式下,语句会发送到服务器,而不等待前一条语句的结果。更多细节见Section 32.5。流水线模式要求使用扩展查询协议。
Table 301中列出的算术、按位、比较和逻辑操作符都内置于pgbench中,可用于\set中的表达式。 这些操作符按优先级从低到高列出。除非另有说明,接受两个数字输入的操作符只要任一输入为双精度,就会产生双精度结果;否则产生整数结果。
Table 301. pgbench 操作符
|
操作符 简介 示例 |
|---|
|
逻辑或
|
|
逻辑与
|
|
逻辑非
|
|
布尔值测试
|
|
空值测试
|
|
等于
|
|
不等于
|
|
不等于
|
|
小于
|
|
小于等于
|
|
大于
|
|
大于等于
|
|
按位或
|
|
按位异或
|
|
按位与
|
|
按位非
|
|
按位左移
|
|
按位右移
|
|
加
|
|
减
|
|
乘
|
|
除法(如果两个输入都是整数,则将结果截断为零)
|
|
模(余数)
|
|
取反
|
Table 302中列出的函数都内置于pgbench,可用于\set中的表达式。
Table 302. pgbench 函数
|
函数 简介 示例 |
|---|
|
绝对值
|
|
将参数打印到stderr,并返回参数。
|
|
转换为 double。
|
|
指数(
|
|
选择参数中的最大值。
|
|
这是
|
|
计算 FNV-1a 哈希。
|
|
计算 MurmurHash2 哈希。
|
|
转换为 integer。
|
|
选择参数中的最小值。
|
|
自然对数
|
|
模(余数)
|
|
|
|
π的近似值
|
|
|
|
计算
|
|
计算
|
|
计算
|
|
计算
|
|
平方根
|
random函数使用均匀分布生成值,也就是说,指定范围内的所有值都以相同概率被抽取。random_exponential、random_gaussian和random_zipfian函数则需要额外提供一个 double 参数,用来确定分布的精确形状。
对于指数分布,parameter通过在parameter处截断一个快速衰减的指数分布,再将其投影到边界之间的整数上,从而控制分布。准确地说,
f(x) = exp(-parameter * (x - min) / (max - min + 1)) / (1 - exp(-parameter))
则min和max之间(含边界)的值i会以f(i) - f(i + 1)的概率被抽中。
直观地说,parameter越大,越靠近min的值越容易被抽到,而越靠近max的值越不容易被抽到。parameter越接近 0,分布就越平坦(也就越均匀)。对这种分布的一个粗略近似是:范围内最靠近min的那 1% 常见值,大约会占到parameter% 的抽样次数。parameter必须严格大于 0。
对于高斯分布,该区间会映射到一个标准正态分布(经典钟形高斯曲线),并在左侧-parameter和右侧+parameter处截断。区间中部的值更容易被抽到。准确地说,如果PHI(x)是标准正态分布的累积分布函数,均值mu定义为(max + min) / 2.0,则有
f(x) = PHI(2.0 * parameter * (x - mu) / (max - min + 1)) /
(2.0 * PHI(parameter) - 1)
则min和max(包含边界)之间的值i被抽中的概率为:f(i + 0.5) - f(i - 0.5)。直观地说,parameter越大,越靠近区间中间的值被抽到的频率越高,而越靠近min和max边界的值被抽到的频率越低。大约 67% 的值会落在区间中部1.0 / parameter这一段内,也就是均值两侧各0.5 / parameter的范围内;约 95% 的值会落在区间中部2.0 / parameter这一段内,也就是均值两侧各1.0 / parameter的范围内。例如,如果parameter为 4.0,则 67% 的值会落在区间中间四分之一(1.0 / 4.0)内,也就是从3.0 / 8.0到5.0 / 8.0;95% 的值会落在区间中间一半(2.0 / 4.0)内,也就是第二和第三四分位。允许的最小parameter值为 2.0。
random_zipfian会生成一个有界的 Zipfian 分布。 parameter定义该分布的倾斜程度。parameter越大,越靠近区间起始处的值被抽到的频率就越高。 这种分布满足:假设范围从 1 开始,抽到k与抽到k+1的概率之比为 ((。 例如,k+1)/k)**parameterrandom_zipfian(1, ..., 2.5)生成值1的频率大约是生成2的(2/1)**2.5 = 5.66倍,而生成2的频率又大约是生成3的(3/2)**2.5 = 2.76倍,依此类推。
pgbench的实现基于《Non-Uniform Random Variate Generation》,Luc Devroye,Springer 1986,第 550-551 页。 受该算法限制,parameter的取值范围被限制在 [1.001, 1000]。
在设计以非均匀方式选择行的基准测试时,要注意被选中的行可能与其他数据相关,例如与序列生成的 ID 或物理行顺序相关,这可能会扭曲性能测量结果。
为避免这一点,可以使用permute函数,或采用其他具有类似效果的额外步骤,对选中的行进行打乱并移除此类相关性。
哈希函数hash、hash_murmur2和hash_fnv1a都接受一个输入值和一个可选的种子参数。 如果没有提供种子,则会使用:default_seed的值;除非通过命令行-D选项覆盖,否则该值会被随机初始化。
permute接受一个输入值、一个大小参数以及一个可选的种子参数。它会生成范围[0, size)内整数的伪随机排列,并返回输入值在该排列中的索引。如果未指定种子,则默认使用:default_seed。与哈希函数不同,permute保证输出值中不会出现冲突或空洞。区间之外的输入值会按size取模解释。如果size不是正数,该函数会报错。permute可用于打散诸如random_zipfian或random_exponential这类非均匀随机函数的分布,使那些更常抽到的值不再具有显而易见的相关性。例如,下面的pgbench脚本模拟了社交媒体和博客平台中一种可能的真实工作负载,其中少数账户会产生过量负载:
\set size 1000000 \set r random_zipfian(1, :size, 1.07) \set k 1 + permute(:r, :size)
在某些情况下,需要若干彼此不相关的不同分布,这时可选种子参数就很有用:
\set k1 1 + permute(:r, :size, :default_seed + 123) \set k2 1 + permute(:r, :size, :default_seed + 321)
也可以用hash近似实现类似的行为:
\set size 1000000 \set r random_zipfian(1, 100 * :size, 1.07) \set k 1 + abs(hash(:r)) % :size
但是,由于hash会产生冲突,有些值将永远不可达,而另一些值则会比原始分布所预期的更常出现。
作为一个示例,内置的类 TPC-B 事务的全部定义是:
\set aid random(1, 100000 * :scale) \set bid random(1, 1 * :scale) \set tid random(1, 10 * :scale) \set delta random(-5000, 5000) BEGIN; UPDATE pgbench_accounts SET abalance = abalance + :delta WHERE aid = :aid; SELECT abalance FROM pgbench_accounts WHERE aid = :aid; UPDATE pgbench_tellers SET tbalance = tbalance + :delta WHERE tid = :tid; UPDATE pgbench_branches SET bbalance = bbalance + :delta WHERE bid = :bid; INSERT INTO pgbench_history (tid, bid, aid, delta, mtime) VALUES (:tid, :bid, :aid, :delta, CURRENT_TIMESTAMP); END;
该脚本允许事务的每次迭代都引用不同的随机选中行。(这个示例也说明了为什么每个客户端会话都必须拥有自己的变量 — 否则它们就无法彼此独立地访问不同的行。)
使用-l选项时(但未指定--aggregate-interval选项),pgbench会将每个事务的信息写入日志文件。日志文件名为,其中prefix.nnnprefix默认为pgbench_log,nnn是pgbench进程的 PID。可以用--log-prefix选项修改此前缀。如果-j选项为 2 或更大,即存在多个工作线程,则每个工作线程都有自己的日志文件。第一个工作线程的日志文件名与标准单工作线程情况相同。其他工作线程的附加日志文件名为,其中prefix.nnn.mmmmmm是每个工作线程从 1 开始的顺序编号。
每行日志文件描述一个事务。 它包含以下以空格分隔的字段:
client_id标识运行事务的客户端会话
transaction_no统计该会话已执行的事务数量
time事务耗时,单位为微秒
script_no标识该事务所使用的脚本文件 (当通过-f或-b指定多个脚本时很有用)
time_epoch事务完成时间,以 Unix 纪元时间戳表示
time_us事务完成时间的小数秒部分,以微秒为单位
schedule_lag事务开始延迟,即事务计划开始时间与实际开始时间之间的差值,单位为微秒 (仅在指定--rate时出现)
retries该事务在发生串行化或死锁错误后的重试次数 (仅当--max-tries不等于 1 时出现)
当同时使用--rate和--latency-limit时, 跳过事务的time将被报告为skipped。 如果事务以失败结束,其time将被报告为failed。 如果使用--failures-detailed选项,失败事务的time会根据失败类型报告为serialization或deadlock(详见Failures and Serialization/Deadlock Retries)。
这里是在单个客户端运行中生成的一个日志文件的片段:
0 199 2241 0 1175850568 995598 0 200 2465 0 1175850568 998079 0 201 2513 0 1175850569 608 0 202 2038 0 1175850569 2663
另一个示例使用的是--rate=100以及--latency-limit=5(注意额外的 schedule_lag列):
0 81 4621 0 1412881037 912698 3005 0 82 6173 0 1412881037 914578 4304 0 83 skipped 0 1412881037 914578 5217 0 83 skipped 0 1412881037 914578 5099 0 83 4722 0 1412881037 916203 3108 0 84 4142 0 1412881037 918023 2333 0 85 2465 0 1412881037 919759 740
在这个示例中,事务 82 迟到了,因为它的延迟(6.173 ms)超过了 5 ms 限制。接下来的两个事务被跳过,因为它们在开始之前就已经迟到了。
以下示例显示了一个带有失败和重试的日志文件片段,最大尝试次数设置为10(请注意额外的retries列):
3 0 47423 0 1499414498 34501 3 3 1 8333 0 1499414498 42848 0 3 2 8358 0 1499414498 51219 0 4 0 72345 0 1499414498 59433 6 1 3 41718 0 1499414498 67879 4 1 4 8416 0 1499414498 76311 0 3 3 33235 0 1499414498 84469 3 0 0 failed 0 1499414498 84905 9 2 0 failed 0 1499414498 86248 9 3 4 8307 0 1499414498 92788 0
如果使用--failures-detailed选项,失败的类型将在time中报告,如下所示:
3 0 47423 0 1499414498 34501 3 3 1 8333 0 1499414498 42848 0 3 2 8358 0 1499414498 51219 0 4 0 72345 0 1499414498 59433 6 1 3 41718 0 1499414498 67879 4 1 4 8416 0 1499414498 76311 0 3 3 33235 0 1499414498 84469 3 0 0 serialization 0 1499414498 84905 9 2 0 serialization 0 1499414498 86248 9 3 4 8307 0 1499414498 92788 0
在能够处理大量事务的硬件上运行长时间测试时,日志文件可能会变得非常大。可以使用--sampling-rate选项,仅记录事务的随机样本。
使用--aggregate-interval选项时,日志文件会采用不同的格式。每一行日志描述一个聚合时间间隔,包含以下以空格分隔的字段:
interval_start该时间间隔的起始时间,以 Unix 纪元时间戳表示
num_transactions该时间间隔内的事务数
sum_latency事务延迟的总和
sum_latency_2事务延迟的平方和
min_latency最小事务延迟
max_latency最大事务延迟
sum_lag事务开始延迟的总和 (除非指定了--rate,否则为零)
sum_lag_2事务开始延迟的平方和 (除非指定了--rate,否则为零)
min_lag最小事务开始延迟 (除非指定了--rate,否则为零)
max_lag最大事务开始延迟 (除非指定了--rate,否则为零)
skipped因为启动时间会太晚而被跳过的事务数 (除非指定了--rate和--latency-limit,否则为零)
retried发生过重试的事务数 (除非--max-tries不等于 1,否则为零)
retries串行化或死锁错误后的重试总次数 (除非--max-tries不等于 1,否则为零)
serialization_failures发生串行化错误且其后未再重试的事务数 (除非指定了--failures-detailed,否则为零)
deadlock_failures发生死锁错误且其后未再重试的事务数 (除非指定了--failures-detailed,否则为零)
下面是使用该选项生成的示例输出:
pgbench --aggregate-interval=10 --time=20 --client=10 --log --rate=1000 --latency-limit=10 --failures-detailed --max-tries=10 test
1650260552 5178 26171317 177284491527 1136 44462 2647617 7321113867 0 9866 64 7564 28340 4148 0
1650260562 4808 25573984 220121792172 1171 62083 3037380 9666800914 0 9998 598 7392 26621 4527 0
请注意,普通(未聚合)日志格式会显示每个事务所使用的脚本,而聚合格式不会。因此,如果需要按脚本区分的数据,就必须自行聚合。
使用-r选项,pgbench为每个语句收集以下统计信息:
latency — 每条语句的耗时。pgbench报告该语句所有成功执行的平均值。
该语句的失败次数。更多信息请参见Failures and Serialization/Deadlock Retries。
该语句因串行化或死锁错误而发生的重试次数。更多信息请参见Failures and Serialization/Deadlock Retries。
报告仅在--max-tries选项不等于1时显示重试统计信息。
所有数值都是针对每个客户端执行的每条语句计算的,并在基准测试完成后报告。
对于默认脚本,输出将类似如下:
starting vacuum...end. transaction type: <builtin: TPC-B (sort of)> scaling factor: 1 query mode: simple number of clients: 10 number of threads: 1 maximum number of tries: 1 number of transactions per client: 1000 number of transactions actually processed: 10000/10000 number of failed transactions: 0 (0.000%) number of transactions above the 50.0 ms latency limit: 1311/10000 (13.110 %) latency average = 28.488 ms latency stddev = 21.009 ms initial connection time = 69.068 ms tps = 346.224794 (without initial connection time) statement latencies in milliseconds and failures: 0.012 0 \set aid random(1, 100000 * :scale) 0.002 0 \set bid random(1, 1 * :scale) 0.002 0 \set tid random(1, 10 * :scale) 0.002 0 \set delta random(-5000, 5000) 0.319 0 BEGIN; 0.834 0 UPDATE pgbench_accounts SET abalance = abalance + :delta WHERE aid = :aid; 0.641 0 SELECT abalance FROM pgbench_accounts WHERE aid = :aid; 11.126 0 UPDATE pgbench_tellers SET tbalance = tbalance + :delta WHERE tid = :tid; 12.961 0 UPDATE pgbench_branches SET bbalance = bbalance + :delta WHERE bid = :bid; 0.634 0 INSERT INTO pgbench_history (tid, bid, aid, delta, mtime) VALUES (:tid, :bid, :aid, :delta, CURRENT_TIMESTAMP); 1.957 0 END;
使用可串行化默认事务隔离级别的默认脚本的另一个输出示例 (PGOPTIONS='-c default_transaction_isolation=serializable' pgbench ...):
starting vacuum...end. transaction type: <builtin: TPC-B (sort of)> scaling factor: 1 query mode: simple number of clients: 10 number of threads: 1 maximum number of tries: 10 number of transactions per client: 1000 number of transactions actually processed: 6317/10000 number of failed transactions: 3683 (36.830%) number of transactions retried: 7667 (76.670%) total number of retries: 45339 number of transactions above the 50.0 ms latency limit: 106/6317 (1.678 %) latency average = 17.016 ms latency stddev = 13.283 ms initial connection time = 45.017 ms tps = 186.792667 (without initial connection time) statement latencies in milliseconds, failures and retries: 0.006 0 0 \set aid random(1, 100000 * :scale) 0.001 0 0 \set bid random(1, 1 * :scale) 0.001 0 0 \set tid random(1, 10 * :scale) 0.001 0 0 \set delta random(-5000, 5000) 0.385 0 0 BEGIN; 0.773 0 1 UPDATE pgbench_accounts SET abalance = abalance + :delta WHERE aid = :aid; 0.624 0 0 SELECT abalance FROM pgbench_accounts WHERE aid = :aid; 1.098 320 3762 UPDATE pgbench_tellers SET tbalance = tbalance + :delta WHERE tid = :tid; 0.582 3363 41576 UPDATE pgbench_branches SET bbalance = bbalance + :delta WHERE bid = :bid; 0.465 0 0 INSERT INTO pgbench_history (tid, bid, aid, delta, mtime) VALUES (:tid, :bid, :aid, :delta, CURRENT_TIMESTAMP); 1.933 0 0 END;
如果指定了多个脚本文件,则会分别为每个脚本文件报告所有统计信息。
注意,为逐语句延迟计算收集额外的计时信息会带来一定开销。这会拖慢平均执行速度,并降低计算出的 TPS。减速幅度在很大程度上取决于平台和硬件。比较启用和未启用延迟报告时的平均 TPS 值,是判断这一计时开销是否显著的好方法。
在执行pgbench时,有三种主要类型的错误:
主程序错误。它们最为严重,总是会导致pgbench立即退出,并显示相应的错误消息。它们包括:
pgbench开始执行时的错误(例如选项值无效);
初始化模式中的错误(例如,用于创建内置脚本所需表的查询失败);
在线程启动之前发生的错误(例如无法连接到数据库服务器、元命令中有语法错误、线程创建失败);
内部pgbench错误(理论上永远不该发生……)。
线程在管理其客户端时发生的错误(例如,客户端无法开始连接数据库服务器,或客户端连接数据库服务器所用的套接字已经失效)。在这种情况下,该线程的所有客户端都会停止,而其他线程继续工作;但是,如果指定了--exit-on-abort,则所有线程都会立即停止。
直接客户端错误。在发生内部pgbench错误(理论上不应发生)或指定了--exit-on-abort时,它们会导致pgbench立即退出并显示相应错误消息。否则,最坏情况下只会中止失败的客户端,而其他客户端继续运行(但某些客户端错误会在不中止客户端的情况下处理并单独报告,见下文)。本节后续默认讨论的都是直接客户端错误,而不是内部pgbench错误。
客户端在发生严重错误时会中止运行;例如,与数据库服务器的连接丢失,或者脚本在最后一个事务尚未完成时就结束了。 另外,如果 SQL 或元命令执行失败,且原因不是串行化或死锁错误,客户端也会中止。 否则,如果 SQL 命令因串行化或死锁错误而失败,客户端不会中止。 在这种情况下,当前事务会回滚,也包括将客户端变量设置为此事务运行之前的状态 (假设一个事务脚本只包含一个事务;详见What Is the "Transaction" Actually Performed in pgbench?了解更多信息)。 发生串行化或死锁错误的事务会在回滚后重新执行,直到成功完成,或者达到最大尝试次数(由--max-tries指定)、达到最大重试时间(由--latency-limit指定),或者基准测试结束(由--time指定)。如果最后一次尝试仍然失败,该事务会被报告为失败,但客户端不会中止,而是继续工作。
不指定--max-tries选项时,事务在发生串行化或死锁错误后永远不会重试,因为其默认值为 1。可以使用无限次尝试(--max-tries=0)并配合--latency-limit选项,仅限制重试的最长时间。也可以使用--time选项,在无限次尝试的情况下限制基准测试持续时间。
在重复包含多个事务的脚本时要小心:脚本总是完全重试,因此成功的事务可能会执行多次。
使用 shell 命令重试事务时要小心。与 SQL 命令的结果不同,shell 命令的结果不会回滚,唯一的例外是\setshell命令设置的变量值。
成功事务的延迟包括事务执行的整个时间,包括回滚和重试。延迟仅针对成功的事务和命令进行测量,而不针对失败的事务或命令。
主报告包含失败事务的数量。如果--max-tries选项不等于 1,主报告还会包含与重试相关的统计信息:发生过重试的事务总数以及重试总次数。每个脚本报告都会继承主报告中的这些字段。逐语句报告仅在--max-tries选项不等于 1 时显示重试统计信息。
如果希望在逐事务日志、聚合日志以及主报告和逐脚本报告中按基本类型对失败进行分组,请使用--failures-detailed选项。如果还希望按类型区分所有错误和失败(即不会重试的错误),包括超出了哪一种重试限制,以及串行化/死锁失败超出了多少,请使用--verbose-errors选项。
可以为 pgbench 表指定表访问方法。环境变量PGOPTIONS用于指定通过命令行传递给 PostgreSQL 的数据库配置选项(见Section 19.1.4)。例如,可以用如下方式为 pgbench 创建的表指定一个名为wuzza的假想默认表访问方法:
PGOPTIONS='-c default_table_access_method=wuzza'
很容易用pgbench得出完全没有意义的数字。下面给出一些有助于获得有用结果的准则。
首先,绝不要相信任何只运行了几秒钟的测试。使用-t或-T选项让测试至少持续几分钟,以便平滑掉噪声。在某些情况下,可能需要数小时才能得到可复现的结果。一个好做法是把同一测试运行几次,看看结果是否可复现。
对于默认的类 TPC-B 测试场景,初始化比例因子(-s)应至少与计划测试的最大客户端数(-c)一样大;否则,测到的主要将是更新争用。pgbench_branches表中只有-s行,而每个事务都要更新其中一行,因此-c超过-s时,必然会有大量事务阻塞等待其他事务。
默认测试场景还会对表初始化后的时间长短非常敏感:表中死元组和空闲空间的累积会改变结果。要理解这些结果,必须跟踪更新总数以及何时发生清理。如果启用了自动清理,它可能会给测得的性能带来不可预测的变化。
pgbench的一个局限是:在尝试测试大量客户端会话时,它自己也可能成为瓶颈。可以通过在与数据库服务器不同的机器上运行pgbench来缓解这一点,不过网络延迟必须足够低。甚至可以在多台客户端机器上同时运行多个pgbench实例,对同一台数据库服务器施压。
如果不可信用户能够访问尚未采用安全的模式使用模式的数据库,就不要在该数据库中运行pgbench。pgbench使用非限定名称,并且不会更改搜索路径。
如果您发现文档中有不正确的内容、与您使用特定功能的经验不符或需要进一步说明,请使用此表单来报告文档问题。