logo一言堂

总统选举重新计票的探讨

这两天美国总统选举扣人心弦,在多个州都出现了两个候选人票数相当接近的情况。根据选举法律,当双方票差小于1%的时候,一方可以要求重新计票。在2000年小布什对戈尔的时候,在佛罗里达州就出现了这种情况。今年很有可能多个州都会票差小于1%,我估计双方都会要求重新计票。有鉴于此,让我们先用数学探讨一下重新计票究竟有没有用,翻盘的概率能有多少。

统计模型

为简化起见,我先排除第三方候选人的所得票数,毕竟本来也不多,就1%~2%。假定如下:

  • 本州有N个选民,N/2选共和党候选人(R), N/2选民主党候选人(D)。
  • 由于工作人员失误,每张选票都有小概率计错,把R计成D,或者把D计成R。
  • 每张选票计错的概率分布为独立同分布,(IID)

假如我们把R选票当作0,D选票当作1,则那N/2个本来选R的选票将成二元随机分布,以1-p的概率为0,p的概率为1. 它们的和 (SumR) 也是一个随机分布. 由于样本足够多,根据 中心极限定理, 它将是一个正态分布,由两个统计特征决定:

  • 数学期望: μ = N/2*((1-p)*0 + p * 1) = pN/2
  • 方差:σ2 = N/2*((1-p)*p*p + p*(1-p)*(1-p)) = p(1-p)N/2

同理,N/2个本来选D的选票也成二元随机分布,它们的和 (SumD) 也是一个正态随机分布,

  • 数学期望: μ = N/2*((1-p)*1 + p * 0) = (1-p)N/2
  • 方差:σ2 = N/2*((1-p)*p*p + p*(1-p)*(1-p)) = p(1-p)N/2

那两个和的和当然也是正态随机分布:

  • 数学期望: μ = (1-p)N/2 + pN/2 = N/2
  • 方差:σ2 = p(1-p)N/2 + p(1-p)N/2 = p(1-p)N

所以说,虽然每张票有错误可能,但总和的数学期望仍然是N/2,和p无关。但是总和会有随机性,不一定是N/2了,上下会有所浮动,这个浮动和p紧密相关,p越大,浮动范围就越大。

假说验证

在数理统计中常用的分析方法是假说验证。你会有两种互补的假设:

  • 原始假设(Null hypothesis), 即原来的普遍认知
  • 新假设(Alternative hypothesis), 即你提出的新主张

这个分析方法是这样的:你先假定NH是对的,并用这为起点计算你的到的实验数据的概率。假如你得到的概率足够小,例如小于1%, 我们就可以推翻NH,从而证明AH。

我们以当前已经出的最接近的Wisconsin结果为例:

  • Biden 得票1,630,541
  • Trump 得票1,610,007

双方得票非常接近,只差20534票,占总票数(3,240,548)的千分之六,符合重新计票的前提。会不会由于工作人员失误,导致本来Trump赢得局面变成Biden赢的局面?好,让我们来验证一下。

  • NH:D <= N/2
  • AH: D > N/2

这即所谓单边假说验证。在单边假说验证的时候,我们选取对AH最有利的NH情况,就是D = N/2。延续以上模型,把R选票当作0,D选票当作1,所以说,Sum的的数学期望是N/2,即1,620,274, 但统计结果是1,630,541, 偏了10,267票。我们根据这个偏差认为Biden赢了,会不会有问题?计票可能有错误的,不是吗?

我们先假定计票错误概率为 p = 0.01, 即百分之一出错率。貌似有点合理。

现在我们计算方差。σ2 = p(1-p)N = 32081.4252, 所以:σ = sqrt(p(1-p)N) = 179

所以统计结果偏了 10267/179 = 57 倍σ,这在统计上是天文数字。单边概率无限接近于零,所以NH一定错,AH一定对,Biden虽然只赢了千分之六,但这在统计上已经是铁证如山!

会不会我们高估了Wisconsin工作人员的能力,他们其实出错率比1%高的多呢?好,我们姑且假定出错概率不是1%, 而是10%。这已经是草菅人命型出错概率了,应该算够放得开吧。

σ2 = p(1-p)N = 291649.32, 所以:σ = sqrt(p(1-p)N) = 540

所以统计结果偏了 10267/540 = 19 倍σ,这在统计上仍然是天文数字。单边概率无限接近于零,之前结论仍然成立。

2000年的Florida

我们翻出有史以来最接近的一次选举,就是2000年的Florida,Bush vs Gore。

  • Bush得票2,912,790
  • Gore得票2,912,253

双方仅差537票!代入以上公式:

N = 5825043, N/2 = 2912521.5 实际票数统计偏了 268.5

假定p = 0.1, 则:

σ = sqrt(p(1-p)N) = 724

偏的只有 0.37倍σ, 单边概率35.6%,我们当然无法排除Gore获胜的可能性。即使我们假定 p = 0.01, σ 还是有240. 偏差还是只有一个多σ,单边概率13.2%,不能排除。所以,2000年的Florida,Gore 真的有可能赢了。

注意,以上两个概率并非Gore赢的概率,而是假定Gore打平,获得当前如此偏差数据的条件概率。我们只能说Gore赢面还是小于50%, 但不能忽略。

回到当下

目前看来,Wisconsin未必是最接近的一个州。且看能否破掉2000年Florida的历史记录吧。从我的数学模型来看,至少Wisconsin是铁案。用通俗的话说,在百万级别选票统计中,对单个选票统计正确性的要求其实相当低。当然,以上模型假定两边出错概率一致,这未必是对的。只要有任何系统性偏差,也就是有舞弊现象,则所有结论作废。

本文仅使用了基础数理统计,理工类或经济类大学课程想必都有包括。但多年不用,大家可能都生疏了。