Solidot 登录
[ 创建一个新帐号 ]
研究人员用本福特定律分析伊朗大选,称不作弊的概率是0.05%
选举舞弊研究专家Walter Melban前不久发布了2009年伊朗总统选举结果的分析报告,认为虽然没有充足证据,但有明显迹象指示存在舞弊。6月20日的《华盛顿邮报》发表了另一篇统计分析报告,作者使用本福特定律统计具体的投票数目,分析结果是选举合法的概率为0.05%。
本福特定律认为自然数0到9的使用概率是呈现从高到低分别,排在前面的使用频率最高,排在后面的使用频率越低。如果选举是合法的,没有人为操控,那么投票数字应该呈现出本福特分布。假如伊朗的某位候选人在一个省获得了14579张选票(迈赫迪卡鲁比在伊斯法罕所获得票数),那么7和9这两个数字便值得关注。两位作者使用伊朗官方提供的29个省的投票统计数据,分析了内贾德、穆萨维、卡鲁比和雷扎伊各自获得的票数,发现数字7出现的频率占到了17%,数字5只有4%,0、1、2占大约10%。作者对比了去年美国大选奥巴马和麦凯恩的的票数,发现后面的数字出现频率都低于14%。研究人员还根据了另一项理论进行分析:心理学家发现人习惯于写出相邻的数字,不习惯写出不相邻的数字,伊朗大选数字显示不相邻的数字所占比率仅为62%。综上所述,他们认为选举合法的概率只有0.05%。
相关文章
互联网: 匿名黑客窃取10万伊朗外交部电邮 4 条评论
[+]
匿名黑客入侵了伊朗政府服务器,获得了超过10万封伊朗外交部电邮。邮件存档已发布到海盗湾(63.19 MB)。到目前为止外交部网站依因攻击下线中。
随着6月15日伊朗选举纪念日的到来,匿名组织黑客策划对伊朗政府发动名为#OpIran的攻击。2009年的选举被指舞弊,引发了大规模的街头抗议。匿名组织通过DDoS攻击窃取了外交部的邮件。这些邮件内容主要是一系列签证和护照的批准或拒绝。一位伊朗的匿名组织成员称,他们希望在选举周年到来之际做些事情,表示将在6月15日发动一整天的DDoS攻击。
本福特定律和万物之源 5 条评论
[+]
北京大学的研究人员发现,本福特定律与物理学中广泛使用的统计分布规律存在联系,这项发现暗示本福特定律可能是宇宙的基本规律之一。
物理学家法兰克·本福特于1938年发现了以他姓命名的本福特定律(Benford's law),这一规律描述了常用数字集和数据序列中数的首位数字分布。比如在实际生活中,以1为首位数字的数的出现机率约为总数的三成,接近期望值1/9的3倍。总体上说,1出现的几率是30.1%,2是17.6%,3是12.5%...9是4.6%。推广来说,越大的数,以它为首位的数出现的机率就越低。不过,并不是所有的数据集都符合本福特定律,比如彩票和电话号码就不遵守这一定律。但是现在北京大学物理系马伯强教授和研究生邵立晶的新发现为本福特定律的性质提供了新的见解。他们发现,物理学的三大统计学方法:Boltzmann-Gibbs分布、费米-狄拉克分布和玻色一爱因斯坦分布都符合本福特定律。研究人员认为,本福特定律可能是自然复杂性背后的一项基本原则。
论文发表在预印本网站arxiv
数字87.53%的背后 24 条评论
[+]
“87.53”这一数字近来走红网络:调查100个人,为什么会出现87.53%结果呢?这没什么奇怪,因为统计是编的,而编者可能数学没学好,他/她信守写了一个完全不合逻辑的数据,结果贻笑大方。
如果真的是随机调查,那么:第一结果肯定应符合实际,第二它也会呈现出某种统计规律,比如本福特定律(0到9的使用概率呈从高到低分布,排在前面的使用频率最高,排在后面的使用频率越低)。今年6月举行的伊朗大选,美国的研究人员分析了各个选区候选人所得票数的个位数字,结果发现与本福特定律不符,于是断言大选舞弊的可能性超过九成五。
如果统计是编出来的(或者不是编出来的),结果也会呈现出规律,因为数字是有限的,比如统计常用xx.xx%的格式,共包含10000个数字,当样本量够大(超过10000)时,编出来的结果肯定会出现重复,这是抽屉原理所决定的。抽屉原理的简单表述是“若有n个笼子和n+1只鸽子,所有的鸽子都被关在鸽笼里,那么至少有一个笼子有至少2只鸽子”。87.53%并不神奇,鉴于gov.cn各网站已经积攒了足够多的统计数字,你可以搜索类似的数字(使用Google site:Gov.cn),比如17.53%(10,400个结果)、27.53%(55,700)、37.53%(7,030)、47.53%、57.53%、57.53%、67.53%、77.53%、87.53%(4,750)、97.53%;或者你也可以随手写一个如12.34%。如果有人足够闲,可以写个小程序,遍历全部xx.xx%在gov.cn的分布情况,看看是不是真的有特别被偏爱的数字,至少87.53%并不够神奇。
如果统计是编出来的(或者不是编出来的),结果也会呈现出规律,因为数字是有限的,比如统计常用xx.xx%的格式,共包含10000个数字,当样本量够大(超过10000)时,编出来的结果肯定会出现重复,这是抽屉原理所决定的。抽屉原理的简单表述是“若有n个笼子和n+1只鸽子,所有的鸽子都被关在鸽笼里,那么至少有一个笼子有至少2只鸽子”。87.53%并不神奇,鉴于gov.cn各网站已经积攒了足够多的统计数字,你可以搜索类似的数字(使用Google site:Gov.cn),比如17.53%(10,400个结果)、27.53%(55,700)、37.53%(7,030)、47.53%、57.53%、57.53%、67.53%、77.53%、87.53%(4,750)、97.53%;或者你也可以随手写一个如12.34%。如果有人足够闲,可以写个小程序,遍历全部xx.xx%在gov.cn的分布情况,看看是不是真的有特别被偏爱的数字,至少87.53%并不够神奇。
数学统计显示民意调查有假 1 条评论
[+]
当数字分布是非随机的,也不接近于随机,那么至少我们可以断定其结果可疑。以今年6月的伊朗总统选举为例,对伊朗政府发布的候选人所获票数的数字统计分析,显示选举舞弊的可能性超过99%。人类确实不擅长于伪造随机数字,他们常常会屈服于直觉,如赌徒谬误,以为随机序列中一个事件发生的机会率与之前发生的事件有关:重复抛一个硬币,当连续多次抛出反面朝上,赌徒可能错误认为下一次抛出正面的机会会较大,反之亦然。
民意调查者向来对他们使用的方法保密,但结果显然不会。Nate Silver分析了一家民意调查公司Strategic Vision过去5年的民调数据,统计了总共超过100次调查,发现尾数的分布十分均衡,完全看不出随机性,他怀疑这家公司伪造了数据。
统计分析质疑伊朗大选 1 条评论
[+]
受争议的选举结果在伊朗国内引发一场声势浩大的政治风波,无数人走上街头抗议选举的不公(波士顿环球报的大图1,2),街头的暴力冲突已导致7人死亡,伊朗政府则动手屏蔽了包括CNN在内的国外新闻网站,以及Facebook和Twitter等社交网站。伊朗的Twitter用户请求外界帮助他们建立代理服务器,为了让伊朗用户能继续通过互联网通信,美国国务院因此要求Twitter推迟系统维护时间。
与此同时,选举舞弊研究专家Walter Melbane教授发表了一份选举统计分析报告(PDF),虽然他没有发现舞弊的确切证据,但发现模型预测的所有偏差数据都偏向于现任总统内贾德,这不禁令人生疑:Melbane教授使用伊朗官方提供的2009年(Excel文件)和2005年地区投票统计数据,2005年的选举在反对派政治家的号召下,拥护改革派的人抵制了选举;那么这些人在2009年显然会投票给改革派候选人,2005年投票给内贾德的人可能多数会在今年的投票中继续支持他,此消彼长,较高投票率无疑会减少内贾德所获选票的比例。Melbane教授在不平均分布二项式模型(over-dispersed binomial model)中测试了这个假说,发现模型与多数选区的结果相当吻合,但是凡是与模型发生偏差的地方,数据都是偏向内贾德。
This discussion has been archived.
No new comments can be posted.
声明:
下面的评论属于其发表者所有,不代表本站的观点和立场,我们不负责他们说什么。









靠谱吗?
(得分:1)彩票适用?
(得分:1)116个样本
(得分:1)( http://wanderor.blogspot.com/ )
奇迹
(得分:1)