TSM 处理器函数返回一个通过 palloc 分配的 TsmRoutine 结构体, 其中包含下文所述支持函数的指针。大多数函数是必需的,但有些是可选的, 对应指针可以为 NULL。
void
SampleScanGetSampleSize (PlannerInfo *root,
RelOptInfo *baserel,
List *paramexprs,
BlockNumber *pages,
double *tuples);
该函数在规划阶段调用。它必须估计采样扫描期间将读取的关系页数,以及 该扫描将选出的元组数。(例如,可以先估计采样比例,再将 baserel->pages 和 baserel->tuples 的值乘以该比例,并确保结果舍入为整数值。) paramexprs 列表保存 TABLESAMPLE 子句参数对应的表达式。如果出于估算目的需要这些值,建议使用 estimate_expression_value() 尝试将这些表达式化简为 常量;但即使无法化简,该函数也必须给出大小估计,而且即便这些值看起来无效 也不应失败(别忘了,它们只是对运行时取值的估计)。 pages 和 tuples 参数是输出参数。
void
InitSampleScan (SampleScanState *node,
int eflags);
为 SampleScan 计划节点的执行进行初始化。该函数在执行器启动期间调用。 它应执行开始处理前所需的任何初始化工作。 SampleScanState 节点已经创建,但其 tsm_state 字段为 NULL。 InitSampleScan 函数可以通过 palloc 分配采样方法所需的 任何内部状态数据,并将其指针存入 node->tsm_state。 待扫描表的信息可通过 SampleScanState 节点的其他 字段访问(但注意 node->ss.ss_currentScanDesc 扫描 描述符尚未设置)。 eflags 包含描述执行器对此计划节点工作模式的标志位。
当 (eflags & EXEC_FLAG_EXPLAIN_ONLY) 为真时,不会 实际执行该扫描,因此这个函数只应做使节点状态对 EXPLAIN 和 EndSampleScan 有效所需的最少工作。
该函数可以省略(将指针设为 NULL),此时 BeginSampleScan 必须执行采样方法所需的全部初始化工作。
void
BeginSampleScan (SampleScanState *node,
Datum *params,
int nparams,
uint32 seed);
开始执行一次采样扫描。它会在第一次尝试提取一个元组之前调用;如果该扫描需要 重启,也可能再次调用。待扫描表的信息可通过 SampleScanState 节点的字段访问(但注意 node->ss.ss_currentScanDesc 扫描描述符尚未设置)。 长度为 nparams 的 params 数组包含 TABLESAMPLE 子句中提供的参数值。这些参数的个数和类型 与该采样方法的 parameterTypes 列表中指定的一致,并且 已确认不为 NULL。seed 包含采样方法内部生成随机数时 要使用的种子; 如果给定了 REPEATABLE 值,它就是从该值派生出的哈希值, 否则就是 random() 的结果。
该函数可以调整 node->use_bulkread 和 node->use_pagemode 字段。 如果 node->use_bulkread 为 true (默认如此),扫描将使用一种鼓励在使用后回收缓冲区的缓冲区访问策略。 如果该扫描只会访问该表页的一小部分,把它设为 false 可能更合理。 如果 node->use_pagemode 为 true (默认如此),扫描将对每个访问页上的所有元组以单遍方式执行可见性检查。 如果该扫描只会从每个访问页中选出一小部分元组,把它设为 false 可能更合理。这样执行的元组可见性检查会更少, 但每次检查的代价会更高,因为需要更多加锁。
如果采样方法被标记为 repeatable_across_scans,那么在 重扫描期间它必须能够像最初那样选出相同的一组元组;也就是说,重新调用 BeginSampleScan 必须像之前一样选出相同的元组 (如果 TABLESAMPLE 参数和种子没有变化)。
BlockNumber NextSampleBlock (SampleScanState *node, BlockNumber nblocks);
返回下一页要扫描的块号;如果没有剩余页可扫描,则返回 InvalidBlockNumber。
该函数可以省略(将指针设为 NULL),此时核心代码将对整个关系执行顺序 扫描。这样的扫描可能使用同步扫描,因此采样方法不能假定每次扫描都会按 相同顺序访问关系页。
OffsetNumber
NextSampleTuple (SampleScanState *node,
BlockNumber blockno,
OffsetNumber maxoffset);
返回指定页上下一个要采样的元组的偏移号;如果没有剩余元组可采样,则返回 InvalidOffsetNumber。maxoffset 是该页上 正在使用的最大偏移号。
NextSampleTuple 不会被显式告知在 1 .. maxoffset 范围内哪些偏移号实际上包含有效元组。 通常这不是问题,因为核心代码会忽略对缺失或不可见元组的采样请求;这不应 在样本中引入任何偏差。不过,如有需要,该函数可以使用 node->donetuples 来检查它返回的元组中有多少是有效且 可见的。
NextSampleTuple 绝不能假定 blockno 与最近一次 NextSampleBlock 调用返回的页号相同。它是由之前某次 NextSampleBlock 调用返回的,但核心代码可以在真正 扫描页之前就调用 NextSampleBlock,以支持预取。 可以假定的是,一旦开始对某个给定页进行采样,后续连续的 NextSampleTuple 调用在返回 InvalidOffsetNumber 之前都指向同一页。
void EndSampleScan (SampleScanState *node);
结束扫描并释放资源。通常不必专门释放通过 palloc 分配的内存,但任何对外 可见的资源都应清理掉。如果通常不存在此类资源,则这个函数可以省略(将 指针设为 NULL)。
如果您发现文档中有不正确的内容、与您使用特定功能的经验不符或需要进一步说明,请使用此表单来报告文档问题。