手机浏览器扫描二维码访问
一秒记住【xiaoyanwenxue.com】精彩无弹窗免费!“罗辑思维荐书集锦(套装共24册)(.shg.tw)”!
第二章榨取数据——机器能学会的知识
导读
在深入探讨机器如何学习暗知识之前,我们先要知道机器也能够自己学习明知识和默知识。在这一章我们介绍机器学习的五大流派的底层逻辑和各自不同的先验模型。虽然现在神经网络如日中天,但其他四大流派也不容忽视。
上一章我们说了人类通过感官和逻辑能掌握明知识和默知识,但人类对暗知识既无法感受也无法理解。现在我们要看看机器能掌握哪些知识,并擅长掌握哪些知识。
机器学习明知识
计算机科学家最早的想法是把自己的明知识,包括能够表达出来的常识和经验放到一个巨大的数据库里,再把常用的判断规则写成计算机程序。这就是在20世纪70年代兴起并在20世纪80年代达到高潮的“知识工程”和“专家系统”。比如一个自动驾驶的“专家系统”就会告诉汽车,“如果红灯亮,就停车,如果转弯时遇到直行,就避让”,依靠事先编好的一条条程序完成自动驾驶。结果你可能想到了,人们无法穷尽所有的路况和场景,这种“专家系统”遇到复杂情况时根本不会处理,因为人没教过。“专家系统”遇到的另一个问题是假设了人类所有的知识都是明知识,完全没有意识到默知识的存在。一个典型的例子是20世纪80年代中国的“中医专家系统”。当时计算机专家找到一些知名的老中医,通过访谈记录下他们的“望闻问切”方法和诊断经验,然后编成程序输入到计算机中。在中医眼中每一个病人都是独特的。当他看到一个病人时会根据经验做出一个整体的综合判断。这些经验连老中医自己都说不清道不明,是典型的默知识。所以中医诊断绝不是把舌苔的颜色划分成几种,把脉象分成几十种,然后用查表方式就可以做判断的。“专家系统”既不能给机器输入足够的明知识,更无法把默知识准确地表达出来输入给机器。所以,“专家系统”和“知识工程”在20世纪80年代之后都偃旗息鼓了。
要想把一个领域内的所有经验和规则全部写出来不仅耗费时间,而且需要集合许多人。即使如此,那些谁也没有经历过的情况还是无法覆盖。电脑的信息处理速度比人脑快得多,那么能不能把大量的各种场景下产生的数据提供给机器,让机器自己去学习呢?这就是现在风行一时的“机器学习”。
今天的机器可以自己学习两大类明知识:用逻辑表达的判断规则和用概率表达的事物间的相关性。
符号学派——机器自己摸索出决策逻辑
前面说过,理性主义认为事物间都有因果关系,基于因果关系,通过逻辑论证推理就能得到新知识。在机器学习中这一派被称为符号学派,因为他们认为从逻辑关系中寻找的新知识都可以归结为对符号的演算和操作,就像几何定理的推理一样。这种知识通常可以用一个逻辑决策树来表示。决策树是一个根据事物属性对事物分类的树形结构。比如冬天医院门诊人满为患,测完体温,主任医生先问“哪里不舒服”,病人说“头疼,咳嗽”,主任医生再听呼吸。感冒、流感、肺炎都可能是这些症状的原因,现在要根据这些症状判断病人到底得了什么病,这种从结果反着找到因果链条的过程就叫“逆向演绎”。这时候主任医生用的就是一个决策树:体温低于38.5℃,咳嗽,头痛,可能是普通感冒,回去多喝白开水!体温高于38.5℃,还剧烈咳嗽呼吸困难,可能是肺炎,咳嗽不厉害就可能是流感。实际情形当然要比这复杂。但原理就是根据观察的症状逐项排除,通过分类找到病因。
这时候门诊新来了实习医生小丽,要在最短时间内学会主任医生的诊断方法。主任医生忙得根本没时间教她,就扔给她一沓过去病人的病历和诊断结果,自己琢磨去!小丽看着几十个病人的各项指标和诊断结果,不知道从哪里下手。这时候刚学了决策树的主治医生小张路过说:我来帮你。咱先随便猜一个主任的判断逻辑,比如先看是否咳嗽,再看是否发烧。把这些病例用这个逻辑推演一遍,如果逻辑的判断结果和主任的诊断结果吻合,咱就算猜中了。如果不吻合,咱就换个逻辑,无非是换些判断准则,比如你可能一开始把体温标准定在了37.5℃,结果把很多普通感冒给判断成流感了。当你用39℃时,又会把流感判断成普通感冒。几次试验你就找到了38.5℃这个最好的值。最后你找到的逻辑对所有病例的判断都和主任医生的诊断完全吻合。
所以决策树学习就是先找到一个决策树,它对已知数据的分类和已知结果最接近。好的分类模型是每一步都能让下一步的“混杂度”最小。在实际的机器学习中,决策树不是猜出来而是算出来的。通过计算和比较每种分类的混杂度的降低程度,找到每一步都最大限度降低混杂度的过程,就是这个决策树机器学习的过程。所以机器学习决策树的原理是:根据已知结果可以反推出事物间的逻辑关系,再用这些逻辑关系预测新的结果。
在这个例子里的“知识”就是医生的诊断方法,作为明知识被清晰表达为决策逻辑树。而这种计算和比较分类混杂度的方法就是让机器自动学习医生诊断知识的方法。
贝叶斯学派——机器从结果推出原因的概率
符号学派认为有因必有果,有果必有因。贝叶斯学派问,因发生果一定发生吗?感冒是发烧的原因之一,但感冒不一定都发烧。贝叶斯学派承认因果,但认为因果之间的联系是不确定的,只是一个概率。
我们的经验中比较熟悉的是当一个原因发生时结果出现的概率,例如你感冒后会发烧的概率,但我们的直觉不太会把握逆概率,即知道结果要求推出原因的概率,也就是要判断发烧是感冒引起的概率。贝叶斯定理就是教我们怎么算这样的概率。举个例子,某人去医院检查身体时发现艾滋病病毒呈阳性,现在告诉你一个艾滋病人检查结果呈阳性的概率是99%,也就是只要你是艾滋病人,检查结果基本都是阳性。还告诉你,人群中艾滋病患者大约是0.3%,但所有人中查出阳性的人有2%。现在问得艾滋病的概率多大?你的直觉反应可能是,要出大事了!现在我们看看贝叶斯定理怎么说。贝叶斯定理如下:
P(得艾滋病|检查呈阳性)=P(得艾滋病)×P(检查呈阳性|得艾滋病)P(检查呈阳性)=99%×0.3%2%=14.85%。
也就是说即使他检查呈阳性,他得病的概率也不到15%!这个结果非常违反直觉。原因在哪里呢?在于人群中查呈阳性的概率远大于人群中得艾滋病的概率。这主要是由于检测手段不准确,会“冤枉”很多好人。所以以后不管谁查出了什么病呈阳性,你要问的第一件事是检查呈阳性和得病的比率有多大,这个比率越大就可以越淡定。所以贝叶斯定理告诉我们的基本道理是:一个结果可能由很多原因造成,要知道一个结果是由哪个原因造成的,一定要先知道这个原因在所有原因中的占比。
一个好的医生知道,要判断病人是否感冒,只看是否发烧这一个症状不够,还要看是否有咳嗽、嗓子痛、流鼻涕、头痛等症状。也就是我们要知道P(感冒|发烧、咳嗽、嗓子痛、流鼻涕、头痛……)。贝叶斯定理告诉我们计算上面的概率可以通过计算P(发烧、咳嗽、嗓子痛、头痛……|感冒)获得。为了简化计算,我们这里假设发烧、咳嗽、嗓子痛、头痛这些症状都是独立的,互相不是原因(很显然这个假设不完全对,很可能嗓子疼是咳嗽引起的),这样P(发烧、咳嗽、嗓子痛、头痛……|感冒)=P(发烧|感冒)×P(咳嗽|感冒)×P(嗓子痛|感冒)×P(头痛|感冒)×……
这里每一个概率都比较容易得到。这在机器学习里叫作“朴素贝叶斯分类器”。这个分类器广泛应用于垃圾邮件的过滤。我们知道垃圾邮件往往会有“免费、中奖、伟哥、发财”这类词汇,这类词汇就相当于感冒会出现的症状,垃圾邮件就相当于感冒。过滤垃圾邮件变成了判断在出现这些词汇的情况下这封邮件是垃圾邮件的概率,也就是通过统计P(出现“免费”|垃圾邮件),P(出现“中奖”|垃圾邮件)等的概率,来算出P(垃圾邮件|出现“免费、中奖、伟哥、发财”……)的概率。
同样的原理还被广泛应用在语音识别上。一个单词有各种各样的发音,语音识别就是听到一个发音判断是某个单词的概率。如果我们把“吃饭”这个词的天南地北男女老少的发音都收集起来,统计出“吃饭”这个词和各种发音的频次,我们听到一个发音“洽碗”时,就可以判断是否在说“吃饭”。为什么说贝叶斯朴素分类器是机器学习呢?因为它是通过采集大量数据统计出每个单词和它们分别对应的发音的频率来判断一个发音是什么单词的。这些数据越多,判断的准确性就越高。
在这个例子里,“知识”是知道当一个结果发生时是哪个原因造成的。这个知识被清晰地表达为一个条件概率。机器通过统计每种原因的占比来算出从结果到原因的概率。
有人说,教练的任务是带领球队获得胜利,有人说,教练的任务是指导球员更加出色,有人说,作为教练的任务是让球队更加辉煌这些我都做到了,但是却还不够。而我要说的则是,作为教练,除了这些追求之外,最高的追求,是让足球运动,更加伟大。...
村里家徒四壁的穷兄弟花光积蓄买了一个丑媳妇,却是一个拥有穿越而来的杀手,从此只有不但把自己变成了最漂亮的媳妇,还带着相公发家致富,赚钱买地,成为豪绅。...
顾乐儿掉入海中被救起来意外发现自己竟然穿书了,还穿成一个作死女配。望着面前让人闻风丧胆的男主,顾乐儿痛定思痛美色虽可贵,生命价更高!她当众高调宣布我不喜欢苏白了,亦不会再纠缠他。本以为一别两宽各自安好,可是剧情画风却突变。某日午夜,男人一脸落寞抽着烟,你可知道暗恋是一个人的兵荒马乱?顾乐儿喝着酒,你装什么装?我还不知道你的尿性?嗨起来!男人起身压向她,好啊。后来外界传言苏爷的媳妇又野又狗,苏爷也被她带偏了,没有节操还不要脸!...
四年之前,家族被灭,林凡沦为家族余孽,机缘巧合成为上门女婿。为了复仇,他消失三年,浴血奋战,成为天下战神,傲世无双!战神归来,只为那个单纯善良的女孩苦等三年当我执起你的手,这天下便再无一人可欺你,辱你!!...
为了钱被逼嫁给一个只有五岁智商患有怪病,还死过五个老婆的男人,这个世界上没有谁比她更可悲了。偏偏她这位帅到极至的傻子老公在家里一点地位都没有,父母冷落他,兄弟姐妹欺负他,就连佣人都敢使唤他。当她刚想认命接受现实的时候,却意外怀孕了,孩子不是她那傻子老公的!家法难逃,世俗难奈,在她陷入万般绝境的时候,拯救她的居然是孩子的亲生父亲,那位冷酷帅气的一夜男人,而他的真实身份既然是最不起眼的他各种巧合,各种真相,各种震憾,究竟,谁才是她的真老公!!...
她和初恋同时落水,他选择救初恋,因为他欠初恋一条命,从那以后,她学会游泳。初恋公司失火,生死不明,他弃她生日去找初恋,因为性命攸关,从那以后,她知道原来他还兼职消防员。初恋不能生育,他要她捐赠子宫,因为他不要小孩,她留着子宫没用擦!简直欺人太甚!她甩他一脸离婚协议书,我什么都不要,包括你!再次相见,他对她死...