首页 > 原创>正文

如何证明本福特定律

中亿财经网 kefu03 2023-11-15 09:27:39

一、如何证明本福特定律

1938年,本福特发现了统计报表中的这样一个规律:ltZ中亿财经网财经门户

一堆从实际生活得出的数据中,以1为首位数字的数的出现机率约为总数的三成,接近期望值1/9的3倍。推广来说,越大的数,以它为首几位的数出现的机率就越低。它可用於检查各种数据是否有造假。ltZ中亿财经网财经门户

在十进制首位数字的出现机率(%,小数点后一个位):ltZ中亿财经网财经门户

1 30.1%ltZ中亿财经网财经门户

2 17.6%ltZ中亿财经网财经门户

3 12.5%ltZ中亿财经网财经门户

4 9.7%ltZ中亿财经网财经门户

5 7.9%ltZ中亿财经网财经门户

6 6.7%ltZ中亿财经网财经门户

7 5.8%ltZ中亿财经网财经门户

8 5.1%ltZ中亿财经网财经门户

9 4.6%ltZ中亿财经网财经门户

证明如下:假设我们有一个很大的样本空间,有随机变量x,x,...,x_{n},这里n足够大。x,x,...,x_{n}的演化规律可以用上边所讲的指数方程来模拟。ltZ中亿财经网财经门户

如果我们对于指数定律的解两边取以10为底的对数,我们就会得到lg x(t)正比于时间t的结论。ltZ中亿财经网财经门户

如果我们问变量x介于80-90的概率有多大,我们只需要求出x(t=80)时t的解t,和x(t=90)时t的解t. 那么占总时间T的比率(t-t)/T即为x介于80-90的概率。ltZ中亿财经网财经门户

那么如果我们问首位数字是8的概率呢?多亏了duanx和zhuww的想法,我们只需要关心lg x的小数部分介于lg 8和lg 9之间的长度为多少即可。ltZ中亿财经网财经门户

这是由于关于10的对数lg x的整数部分决定着x是几位数(整数部分是1,说明是两为数;整数部分是2,说明是3位数……)。而lg x的小数部分则决定着x的每位数字是什么。ltZ中亿财经网财经门户

如果画一个lg x的小数部分关于时间t的图像,实际上就相当于把lg x的图像折叠到[lg 0,lg 10]区间。这样,我们就不需要关心时间T有多大,因为时间轴也被折叠了。那么首位数字为D的概率即为 [lg(D+1)-lg(D)]/(lg 10-lg 1)=lg(D+1)-lg(D)。ltZ中亿财经网财经门户

以上结果即为本福特发现的规律ltZ中亿财经网财经门户

二、如何解释本福特定律

本福特定律,也称为本福德法则,说明一堆从实际生活得出的数据中,以1为首位数字的数的出现机率约为总数的三成,接近期望值1/9的3倍。ltZ中亿财经网财经门户

三、本福特定律??

本福特定律的含义如下:一组随机发生的数字,各个数字的首位存在一定规律,越小的数字出现的比率越高,既0出现的概率是100%(实际上首位不可能是0,因此我们可以认为其出现的概率是100%),1出现的概率是31%,2出现的概率是18%,依次类推,9出现的概率只有不到5%。其实,本福特定律也服从大数法则和中心极限定理,但是其证明比较复杂,这里不赘述。下图是美国物理学家 T. P. Hill 于1998年7-8月试验本福特定律的概率图:本福特定律的应用条件是:(1)数据不能是规律排序的,比如发票编号、身份证号码等;(2)数据不能经过人为修饰。二、本福特定律在审计中的应用我们知道,本福特定律的适用条件是数据不能经过人为修饰。如果数据来自舞弊所得到的结果,则这些数据将不再服从本福特定律。注册会计师可以利用本福特定律来发现被审计单位舞弊,提高审计效果。ltZ中亿财经网财经门户

四、本福特定律的解释

1881年,天文学家西蒙纽康伯发现对数表包含以1起首的数那首几页较其他页破烂。可是,亦可以以任何书起首数页也会较破烂这个观点解释。这个故事可能是虚构的。ltZ中亿财经网财经门户

1938年,物理学家法兰克本福特重新发现这个现象,还通过了检查许多数据来证实这点。ltZ中亿财经网财经门户

2009年,西班牙数学家在素数中发现了一种新模式,并且惊讶于为何那时才为人发现。虽然素数一般被认为是随机分布的,但西班牙数学家发现素数数列中每个素数的首位数字有明显的分布规律,它可以被描述了素数的本福德法则。这项新发现除了提供对素数属性的新洞见之外,还能应用于欺骗检测和股票市场分析等领域。ltZ中亿财经网财经门户

数字统计的一种内在规律,指所有自然随机变量,只要样本空间足够大,每一样本首位数字为1至9各数字的概率在一定范围内具有稳定性。见右图。即以1开首的样本占样本空间的0.3,以2开首的样本占样本空间0.17-0.19,而以9或8开首的样本始终只占0.05左右。ltZ中亿财经网财经门户

世界上千千万万的数据的开头数字是1到9中的任何一个数字,而且每个数字打头的概率本应该差不多,但如果你统计的数据足够多,就会惊讶地发现,打头数字是1的数据最多。ltZ中亿财经网财经门户

1935年,美国的一位叫做本福特的物理学家在图书馆翻阅对数表时发现,对数表的头几页比后面的页更脏一些,这说明头几页在平时被更多的人翻阅。ltZ中亿财经网财经门户

本福特再进一步研究后发现,只要数据的样本足够多,数据中以1为开头的数字出现的频率并不是1/9,而是30.1%。而以2为首的数字出现的频率是17.6%,往后出现频率依次减少,9的出现频率最低,只有4.6%。ltZ中亿财经网财经门户

本福特开始对其它数字进行调查,发现各种完全不相同的数据,比如人口、物理和化学常数、棒球统计表以及斐波纳契数列数字中,均有这个定律的身影。ltZ中亿财经网财经门户

1961年,一位美国科学家提出,本福特定律其实是数字累加造成的现象,即使没有单位的数字。比如,假设股票市场上的指数一开始是1000点,并以每年10%的程度上升,那么要用7年多时间,这个指数才能从1000点上升到2000点的水平;而由2000点上升到3000点只需要4年多时间;但是,如果要让指数从10000点上升到20000点,还需要等7年多的时间。因此我们看到,以1为开头的指数数据比以其他数字打头的指数数据要高很多。ltZ中亿财经网财经门户

2001年,美国最大的能源交易商安然公司宣布破产,当时传出了该公司高层管理人员涉嫌做假账的传闻。事后人们发现,安然公司在2001年到2002年所公布的每股盈利数字就不符合本福特定律,这证明了安然的高层领导确实改动过这些数据。ltZ中亿财经网财经门户