登录
主页
本福特定律:辨别数据真伪的天然工具
2026-05-26
  
754
深数据
本福特定律(也译作本福德定律,别称首位数字定律、异常数字定律),核心内容为:在无人工干预、自然生成、数值跨度足够大的海量数据集中,数据首位1-9的出现概率并非平均分布,整体呈现数字越小、作为首位出现概率越高的特征。该定律最早由天文学家纽科姆发现,后由物理学家弗兰克·本福特完善并验证,因此也被称作纽科姆-本福特定律。
日常大众普遍默认1-9九个数字作为首位的概率均等,各占11.1%左右,但自然数据的分布规律完全打破这一固有认知。
一、标准首位数字概率
经过数万组跨领域数据验证,1-9作为数据首位的标准概率如下,也是检测数据真伪的核心参照:
1.首位为1:30.1%(占比最高,接近三分之一)
2.首位为2:17.6%
3.首位为3:12.5%
4.首位为4:9.7%
5.首位为5:7.9%
6.首位为6:6.7%
7.首位为7:5.8%
8.首位为8:5.1%
9.首位为9:4.6%(占比最低)
二、原理
1.缩放不变性
自然数据不受计量单位、统计尺度影响。例如将河流长度从米换算为千米、将股票价格币种进行切换,数据集的首位数字分布依旧贴合本福特定律,这也是该定律具备普适性的关键。
2.增长逻辑本质
现实中多数数据呈倍数增长模式(人口、资产、营收、物种数量等)。数值从1增长到2,仅需翻倍;而从9增长到10(首位回归1),需要增长超10%。这就导致数值停留在以1、2为首位区间的时间远长于8、9,最终形成差异化分布。
三、适用与不适用场景
1.适用场景(自然数据)
满足两个基础条件:数据无人工筛选篡改、数值区间跨度大;常见类型包含:地理数据(河流长度、区域面积)、社会数据(城市人口、死亡率、街道门牌号)、金融数据(股票价格、企业营收、账单金额、交易流水)、自然常数等。
2.不适用场景
•人为限定区间的数据:如考试满分100分的成绩、固定规格产品的编号、1-10范围内的随机数;
•统一阈值生成的数据:如员工工号、手机号、身份证号、邮政编码等编码类数据;
•数值跨度极小的数据集:如某部门固定薪资区间的员工工资。
四、应用
1.金融审计与财务反舞弊(最常用)
是审计师、税务部门核心辅助工具,广泛用于排查企业财报、报销单据、银行流水、纳税报表。普通人造假时,会下意识均匀分配1-9首位数字,或偏好6、8、9等吉利数字,导致数据严重偏离定律标准概率。美国财政部长期利用该定律筛查税务造假,诸多企业财务舞弊案件均以此为突破口侦破。
2.司法取证与刑侦领域
属于司法数字取证手段,可鉴别虚假合同、伪造账单、涉案资金流水;同时也能辅助排查诈骗案件、贪腐案件中的伪造数据,作为司法佐证材料。
3.公共事务核验
部分国家将其用于选举数据核验,排查选票数据造假问题;也可用于统计部门筛查人口、产值等官方统计数据的异常点。
五、局限性
•仅能筛查异常,无法直接判定造假:数据偏离定律仅代表存在人为干预嫌疑,可能是人工筛选数据、统计口径调整,并非绝对等同于造假;
•可被高阶规避:精通该定律的专业造假者,可按照标准概率配比首位数字,规避检测;
•样本量门槛:数据样本过少时,分布无参考意义,通常数百及以上样本才能发挥检测作用。
六、总结
自然世界偏爱小数,人工直觉偏爱平均;本福特定律本质是捕捉自然数据的底层增长规律,用最简单的首位数字分布,低成本甄别人类肉眼无法识别的数据谎言,也是低成本、高效率的初步数据风控工具。
点赞数:2
© 2021 - 现在 杭州极深数据有限公司 版权所有 (深数据® DEEPDATA® 极深®) 联系我们 
浙公网安备 33018302001059号  浙ICP备18026513号-1号