手机浏览器扫描二维码访问
第11讲掌握多条信息时的推理②以垃圾邮件过滤器为例
banner"
>
11-1垃圾邮件过滤器以贝叶斯推理为基础
在进行统计推算与贝叶斯推理等概率推算时,通常需要两条以上的信息。
并且,信息数量越多,推算出的结果可信度越高。
后面的三讲,会讲解如何利用多条信息来进行推算的问题,而其中的要点则是上一讲中提到的“概率的乘法公式”
。
在这一讲,会讲解如何利用两条信息来计算出后验概率。
本讲主要探讨垃圾邮件过滤器的问题。
所谓的垃圾邮件,指的就是一些不良商家通过网络随意发送的广告邮件。
而垃圾邮件过滤器的功能之一就是自动判别垃圾邮件,并把它归入“垃圾邮件”
的分类中。
事实上,贝叶斯推理的实际应用中,最广为人知的正是这种垃圾邮件过滤器。
而目前,垃圾邮件过滤器已经被引进更为广泛的网络邮件服务当中。
读者们在使用该服务之后,都会为它在分类判断方面的准确性而惊叹不已,而这一切都要归功于贝叶斯推理。
11-2在过滤器上设置“先验概率”
和前面的操作步骤相同,第一步是设定事前类别,并在获得一条信息之后,计算出后验概率。
在这里我们要做的,并不是“自己去判断收到的邮件是否为垃圾邮件”
,而是为大家讲解“电脑会对所收到的邮件做出机械判断”
的原理。
首先,电脑在对收到的邮件进行扫描之前,会为每个类别分配“这封邮件是垃圾邮件还是正常邮件”
先验概率。
在这里,利用“理由不充分原理”
(见3-2),使双方各占0.5的概率。
这就意味着,对于接收到的邮件,过滤器会做出“垃圾邮件的概率是0.5,正常邮件的概率也是0.5”
的判断。
而此时如果有可信度更高的概率,也可以将其设定为先验概率,如图表11-1所示。
图表11-1理由不充分原理的先验概率
11-3扫描字句与条件概率的设定
接下来要做的是,设定一些在垃圾邮件里常见的字句及特征。
但需要注意的是,“贴有其他网页的URL链接”
这一特征,是电脑判断一封邮件疑似为垃圾邮件的关键点。
佛前有花,名优昙华,一千年出芽,一千年生苞,一千年开花,弹指即谢,刹那芳华!除却君身三尺雪,天下谁人配白衣,这是一个,佛魔颠倒的故事!...
...
一朝之间,穿越成了庆国太子,为王之路,注定布满荆棘。所幸,金手指在身,欧皇附体,发发暴击,金色传说。李淳罡传承加身,一剑开天门令四顾剑为之拜服。招募令在手,无数历史名臣猛将纷纷来投。一路走来,他立钱庄,治水患,整军伍,收南诏,灭西胡,平东夷,征北齐。孤身入太极殿,百官拜服,庆帝亦只能退位让贤。而当他登基为王,统一天下,成为了天下共主之时,一切才刚刚开始!...
十八位获邀参加神秘人举办的游戏的玩家,将在‘人性别墅’角逐一千万现金大奖。然而,正是人类本我的贪念欲望,将十八人的命运引向了名为绝命游戏掩藏的深渊!方瑶的逃杀之旅也拉开了序幕...
关于邪恶进化从蜘蛛开始毒杀万物没进化前蝴蝶挺好吃,母蜘蛛也不是不可以。进化一次努力生存。进化三次努力变强。进化十次我不吃牛肉。林风穿越成蜘蛛,绑定邪恶进化系统,只要毒杀对手就能进化。人类不过是我蜘蛛网中的猎物罢了。杀人,灭宗,屠兽族,成为这个世界的噩梦。君子报仇,十年不晚,蜘蛛报仇,就在今晚。...
关于荒年灾情不断!我有商城坐怀不乱{美食开道发家致富今穿古身穿爽文温馨向交易商城萌宝}{无男主}七星大厨周棉棉在参加完国外的厨师大赛拿到金厨奖后,为奖励自己她决定在A市市中心买一套房!结果,在购房签约当天,上午她刚拍完古装写真,因好奇心作祟的她悲催的用自己的血开启了穿梭之门,一朝穿越来到大凤国一个叫张家村的山旮旯里。要房没房,要钱没钱,要什么没什么的她正愁不知拿什么在荒年求生存时,终于老天垂怜,给了她一个交易商城!叮!野...