02.等距抽样

如何对一本书进行等距抽样阅读? #

1 #

上篇文章中提到通过 简单随机抽样法 选取一本书的核心章节,我们已经了解,简单随机抽样主要是以全书进行抽样,保证被抽中的章节数量的覆盖率达到最低20%的标准。

如果只是通过简单随机抽样的方式进行阅读会慢慢发现,这种方法有时候会存在一些类似盲人摸象的缺陷。

这里可以做一个简单的思想实验:

你是一个盲人,一个明眼人对你说,他牵来了一头大象,让你通过触摸它的肢体来猜猜大象长得像什么。同时他还特别强调,大象一共有20个部位可以触摸,但为了节省时间,只能选择4个部位。

请问:这时候你通过随机抽样的方式可否实现对大象体型的判断?

答案是不一定。

理由很简单,比如我们选择简单随机抽样,并且抽中的是该大象的鼻孔、鼻尖、鼻身、鼻根这四个部位的话,就会发现,无论我们对这四个器官进行怎样的触摸,依然不能得到对大象体型的基础判断。

阅读层面也类似,仍以《行为科学统计》为例,我尝试对其进行三次随机抽样,核心章节抽样结果如下:

随机抽样次数 抽样结果
第一次 4, 6, 9, 10, 14
第二次 1, 4, 6, 7, 8
第三次 1, 6, 7, 10, 12

如果我们将这些抽样的章节集中放在全书的章节架构分析会发现,不同批次抽样的结果存在一些覆盖偏差:

image-20231214113959970

比如第二次抽样中,最后11章(红色部分)完全没有被抽中;第三次抽样中,最后7章完全没有被抽中。这样就导致抽样结果影响我们对全书核心章节的预判,比如作者刻意将重要的章节放在最后几章,那我们就忽视了这些重要信息。就好比前面的思想实验,虽然我们抽取了20%的章节,但可能这20%的被抽中部分对整本书的覆盖率不足导致抽样偏差。

2 #

如何解决这个问题呢?

回到盲人摸象规则,如果只能选择四个器官,我们可以让这四个器官覆盖动物的的「头 - 身 - 尾」来增加最终判断的准确率。

image-20231214120302481

切换到对全书的简单随机抽样,我们的标准并不再是单纯满足20%章节的覆盖就够了,还叠加了抽样章节对全书内容覆盖的程度。

image-20231214122214470

所以,我们可以在简单随机抽样的基础上进行适当修正 —— 在简单随机抽样的基础上增加「等距」标准。而这,就是等距抽样。顾名思义,等距抽样就是将全书章节按照指定间隔进行随机章节抽取。

3 #

等距抽样同样分两步:

1.计算整本书的抽样章节数量 #

如何判断指定间隔呢?这时候我们需要借鉴上一篇文章中提到的简单随机抽样法中的公式:

抽样章节 = 书本章节总数 × 20% × 系数(1.1~1.6)

注:为了计算方便,我们依然将系数默认设为1.3

按照这个公式计算《行为科学统计》的抽样章节数量为5。

2.计算整本书的等距间隔章数 #

因为我们知道了全书的章节总数,所以就可以求出等距间隔的章数(即间隔章数的数量):

全书章节总数 ÷ 抽样章节数 = 等距间隔章节数

将上述数字带入这个公式,得出《行为科学统计》的间隔数量为4:

19/5 = 3.8 ≈ 4 (四舍五入)

如果我们将全书的第一章作为起点,那么全书我们需要阅读的章节就是第1章、第6章、第11章、第16章:

image-20231214120514548

由上图可知,同样是抽取20%的章节,但这次每个抽中的章节中间通过前面计算的4章进行区隔,较好的实现了对全章的覆盖。

而一般书籍的章节总数不会超过50章,简单计算可以得出间隔的章节最大不超过5。那我们可以按照这个标准,制作一个等距抽样的快捷操作Excel表格:

image-20230527081440350

参照上述表格,我们只需操作一步,就能快速得到要等距抽样的章节 —— 直接在左上方「章节总数」表格内填写要等距抽样阅读的章节数量,然后按回车,就自动计算出抽样章节的数量,然后我们在第一列中找到对应的等距间隔数字,就可以按照标记颜色的章节进行等距阅读了。

操作的 表格链接 在此。

到这里,我们可以发现等距抽样与简单随机抽样的区别:

抽样方法 抽样率 随机性 抽中章节的关系 操作步骤
简单随机抽样 20% 完全随机 1.计算抽样章节数;2.随机抽样
等距抽样 20% 部分随机 等距 1.计算抽样章节数;2.计算抽样章节间隔数;3.等距抽样

因为这两种抽样方式都不考虑书本内容,所以操作便捷快速,也暗示这两种方法更适合相对陌生、不知如何把握章节主题的书。

Ref:

《聪明的阅读者》