手机浏览器扫描二维码访问
默知识和明知识主要有以下四点区别:
(1)默知识无法用语言和文字描述,因此不容易传播,无法记录和积累,只能靠师傅带徒弟。像大量的传统工艺和技能,如果在一代人的时间里没人学习就会从历史上彻底消失。
(2)获取默知识只能靠亲身体验,传播只能靠人与人之间紧密的互动(你第一次骑自行车时你爸在后面扶着)。而这种互动的前提是相互信任(你不敢让陌生人教你骑自行车)。获得默知识必须有反馈回路(骑自行车摔了跤就是姿势错了,不摔跤就是姿势对了)。
(3)默知识散布在许多不同人的身上,无法集中,很难整合,要想使用整合的默知识需要一群人紧密协调互动。由于无法言传,所以协调极为困难(比如杂技叠罗汉)。
(4)默知识非常个人化。每个人对每件事的感觉都是不同的,由于无法表达,因而无法判断每个人感觉的东西是否相同。
基于对默知识的理解,奥地利经济学家哈耶克(FriedrichHayek,1899—1992)论证了市场是最有效的资源配置形式。因为市场上的每个人都有自己不可表达的、精微的偏好和细腻的需求,而且没人能够精确完整地知道其他人的偏好和需求,也就是说供需双方实际上无法直接沟通。供需双方最简洁有效的沟通方式就是通过商品的价格。在自由买卖的前提下,市场中每个人只要根据价格信号就可以做出决定。价格可以自动达到一个能够反映供需双方偏好和需求的均衡点。一个价格数字,就把供需双方的无数不可表达的信息囊括其中。这种“沟通”何其简洁,这种“协调”何其有效,这种自发形成的秩序何其自洽。哈耶克根据同样的道理论证了国家或政府永远都无法集中这些不可表达的分散信息。
在机器学习大规模使用之前,人类对于默知识没有系统研究。但现在我们发现机器非常擅长学习默知识。这就给我们提出了三个严肃的问题。
(1)默知识在所有知识中占比有多大?
(2)默知识在人类社会和生活中有多大用处?
(3)如何使用默知识?
第一个问题的简单粗暴的回答是默知识的量远远大于可陈述的明知识。原因是事物的状态很多是难以观察的,更多是不可描述的。人类的描述能力非常有限,只限于表达能力极为有限的一维的语言文字。在所有已经产生的信息中,文字只占极少的比例,大量的信息以图片和视频方式呈现。人类现代每年产生的各种文字大约是160TB。世界最大的美国国会图书馆有2000万册书,几乎涵盖了人类有史以来能够保存下来的各种文字记录,就算每本书有100万字,这些书的总信息量也只有20TB。而目前用户每分钟上传到YouTube的视频是300小时,每小时视频算1GB,每年上传的量就是157680TB。如果把每个人手机里的视频都算上,那么视频信息是文字信息的上亿倍。今后这个比例还会不断加大。虽然这些视频或图片都是“信息”,还不是“知识”,但我们也可以想象从视频图片中能提取出的隐藏的相关性的量一定远远大于所有的文字知识。
有了第一个问题的答案,就容易回答第二个问题。很显然,用机器学习从视频和图片中萃取知识是人类认识世界的一个新突破,只要有办法把事物状态用图片或视频记录下来,就有可能从中萃取出知识来。如果视频和图片的信息量是文字的上亿倍,那么我们有理由期待从中萃取出的知识呈爆炸式增长,在社会和生活中起到关键甚至主导作用。人工智能通过观看大量人类历史上的影视作品,可以归纳提取出影视中的经典桥段,创作出新颖的配乐、台词和预告片,供人类借鉴或使用。2016年,IBM(国际商业机器公司)的沃森系统为二十世纪福克斯电影公司的科幻电影《摩根》(Morgan)制作了预告片。IBM的工程师们给沃森看了100部恐怖电影预告片,沃森对这些预告片进行了画面、声音、创作构成的分析,并标记上对应的情感。它甚至还分析了人物的语调和背景音乐,以便判断声音与情感的对应关系。在沃森完成学习后,工作人员又将完整的Morgan电影导入,沃森迅速挑出了其中10个场景组成了一段长达6分钟的预告片。在沃森的帮助下,制作预告片的时间由通常的10天到1个月,缩减到了短短的24个小时。同样道理,机器学习可以从海量的生态、生产和社会环境数据中萃取出大量的未曾发现的知识。
第三个问题最有意思。由于机器萃取出的知识是以神经网络参数集形式存在的,对人类来说仍然不可陈述,也很难在人类间传播。但是这些知识却非常容易在机器间传播。一台学会驾驶的汽车可以瞬间“教会”其他100万台汽车,只要把自己的参数集复制到其他机器即可。机器间的协同行动也变得非常容易,无非是用一组反馈信号不断地调整参加协同的每台机器的参数。
如果用一句话总结默知识和明知识的差别那就是波兰尼说的:Weknowmorethanwecantell(知道的远比能说出来的多)。明知识就像冰山浮出水面的一角,默知识就是水下巨大的冰山。这两类知识也包括那些尚未发现的知识,一旦发现,人类要么可以感受,例如第一个登上珠峰的人能感受到缺氧;要么从理性上可以理解,例如看懂一个新的数学定理的推导过程。
既不可感受也不能表达的“暗知识”
既然可以感受的是默知识,可以表达的是明知识,那么机器刚刚发现的,既无法感受也无法表达的知识就是暗知识。我们用是否能感受作为一个坐标轴,用是否能表达(或描述)作为另一个坐标轴,就可以用图1.3把三类知识的定义清晰地表达出来。在这张图里,明知识又被分为两类:第一类是那些既可以感受又可以表达的,例如浮力定律、作用力反作用力定律等。第二类是不可感受可以表达的,如大部分的数学以及完全从数学中推导出来但最后被实验验证了的物理定律,以及相对论和量子力学。
图1.3知识的分类
为了理解暗知识的本质,我们必须先搞清楚“知识”与我们今天常用的“信息”和“数据”有什么不同。稍加研究就能发现关于信息、数据和知识的定义有很多并且非常混乱。笔者在下面给出一组符合信息论和脑神经科学研究结果的简单而自洽的定义。
信息是事物可观察的表征,或者说信息是事物的外在表现,即那些可观察到的表现。在我们没有望远镜时,谈论肉眼以外星空里的信息毫无意义。
数据是已经描述出来的部分信息。任何一个物体的信息量都非常大,要想精确地完全描述一块石头,就要把这块石头里所有基本粒子的状态以及它们之间的关系都描述出来,还要把这块石头与周围环境和物体的关系都描述出来。而关于这块石头的数据通常则少得多,例如它的形状、重量、颜色和种类。
知识则是数据在时空中的关系。知识可以是数据与时间的关系,数据与空间的关系。如果把时间和空间看作数据的一部分属性,那么所有的知识就都是数据之间的关系。这些关系表现为某种模式(或者说模式就是一组关系)。对模式的识别就是认知,识别出来的模式就是知识,用模式去预测就是知识的应用。开普勒的行星运动定律就是那些观测到的数据中呈现的时空关系。牛顿定律的最大贡献可能不在于解释现有行星的运动,而在于发现了海王星。这些数据在时空中的关系只有在极少数的情况下才可以用简洁美妙的数学方程式表达出来。在绝大多数情形下,知识表现为数据间的相关性的集合。这些相关性中只有极少数可以被感觉、被理解,绝大多数都在我们的感觉和理解能力之外。
人类的理解能力由感受能力和表达能力组成。人类的感受能力有限,局限性来自两个方面。一是只能感受部分外界信息,例如人眼无法看到除可见光之外的大部分电磁波频谱,更无法感受大量的物理、化学、生物和环境信息。二是人类的感官经验只局限在三维的物理空间和一维空间。对高维的时空人类只能“降维”想象,用三维空间类比。对于数据间的关系,人类凭感觉只能把握一阶的或线性的关系,因为地球的自转是线性的,所以“时间”是线性的。例如当我们看到水管的水流进水桶里时,水面的上升和时间的关系是线性的,我们凭感觉可以预测大概多长时间水桶会满。人类感官对于二阶以上的非线性关系就很难把握。例如当水桶的直径增加1倍时,水桶能盛的水会增加4倍,这点就和“直觉”不相符。
人类的表达能力只限于那些清晰而简单的关系,例如少数几个变量之间的关系,或者是在数学上可以解析表达的关系(“解析表达”的意思就是变量之间的关系可以用一组方程式表达出来)。当数据中的变量增大时,或当数据间的关系是高阶非线性时,绝大多数情况下这些关系无法用一组方程式描述。所以当数据无法被感受,它们之间的关系又无法用方程解析表达时,这些数据间的关系就掉入了人类感官和数学理解能力之外的暗知识大海。
我们现在可以回答“一个人类无法理解的暗知识的表现形式是什么样的”,暗知识在今天的主要表现形式类似AlphaGoZero里面的“神经网络”的全部参数。在第三章详细介绍神经网络之前,我们暂时把这个神经网络看成一个有许多旋钮的黑盒子。这个黑盒子可以接收信息,可以输出结果。黑盒子可以表达为一个一般的数学函数:Y=f(X)。这里Y是输出结果,f(X)是黑盒子本身,X是输入信息,w是参数集,就是那些旋钮,也就是暗知识。
我们如何知道这个函数代表了知识,也即这个函数有用?这里的判别方法和现代科学实验的标准一样:实验结果可重复。对AlphaGoZero来说就是每次都能赢;用严格的科学语言来说就是当每次实验条件相同时,实验结果永远可重复。读完第三章,读者就会从细节上清楚暗知识是如何被验证的。
注意,暗知识不是那些人类尚未发现但一经发现就可以理解的知识。比如牛顿虽然没有发现相对论,但如果爱因斯坦穿越时空回去给他讲,他是完全可以理解的。因为理解相对论用到的数学知识如微积分牛顿都有了。即使在微积分产生之前,如果爱因斯坦穿越2000年给亚里士多德讲相对论,亚里士多德也能理解,至少能理解狭义相对论背后的物理直觉。但如果给亚里士多德讲量子力学他就不能理解,因为他的生活经验中既没有薛定谔的猫(用来比喻量子力学中的不确定性,一个封闭的盒子里的猫在盒子没打开时同时既是死的也是活的,一旦打开盒子看,猫就只能有一种状态,要么是死要么是活),他的数学水平也无法理解波动方程。那么我们可以说对亚里士多德来说,量子力学就是暗知识。量子力学因为没有经验基础,甚至和经验矛盾,在刚发现的初期,几乎所有的物理学家都大呼“不懂”,至今能够透彻理解的人也极少。甚至连爱因斯坦都不接受不确定性原理。
人类过去积累的明知识呈现出完美的结构,整个数学就建立在几个公理之上,整个物理就建立在几个定律之上,化学可以看成是物理的应用,生物是化学的应用,认知科学是生物学的应用,心理学、社会学、经济学都是这些基础科学的应用组合。这些知识模块之间有清晰的关系。但是机器挖掘出来的暗知识则像一大袋土豆,每个之间都没有什么关系,更准确地说是我们不知道它们之间有什么关系。
我们可以预见一幅未来世界的知识图谱:所有的知识分为两大类界限分明的知识——人类知识和机器知识。人类的知识如果不可陈述则不可记录和传播。但机器发掘出来的知识即使无法陈述和理解也可以记录并能在机器间传播。这些暗知识的表现方式就是一堆看似随机的数字,如一个神经网络的参数集。这些暗知识的传播方式就是通过网络以光速传给其他同类的机器。
暗知识给我们的震撼才刚刚开始。从2012年开始的短短几年之内,机器已经创造了下面这些“神迹”:对复杂病因的判断,准确性超过医生;可以惟妙惟肖地模仿大师作画、作曲,甚至进行全新的创作,让人类真假难辨;机器飞行员和人类飞行员模拟空战,百战百胜。
我们在第六章会看到更多这样的例子。人类将进入一个知识大航海时代,我们将每天发现新的大陆和无数金银财宝。我们今天面对的许多问题都像围棋一样有巨大的变量,解决这些问题和围棋一样是在组合爆炸中寻求最优方案,例如全球变暖的预测和预防、癌症的治愈、重要经济社会政策的实施效果、“沙漠风暴”这样的大型军事行动。系统越复杂,变量越多,人类越无法把握,机器学习就越得心应手。无数的机器将不知疲倦地昼夜工作,很快我们就会发现机器新发掘出来的暗知识会迅速积累。和下围棋一样,暗知识的数量和质量都将快速超过我们在某个领域积累了几百年甚至几千年的知识。明知识就像今天的大陆,暗知识就像大海,海平面会迅速升高,明知识很快就会被海水包围成一个个孤岛,最后连珠穆朗玛峰也将被淹没在海水之下。
这场人类认知革命的意义也许会超过印刷术的发明,也许会超过文字的发明,甚至只有人类产生语言可与之相比。请系好安全带,欢迎来到一个你越来越不懂的世界!
★总有一天,老子要坐在主席台的正中间!★曾经的逍遥帮老大,如今的官道牛人,华丽转身后,心计用遍搏官场!猪角的信条是当官就要耍猾耍流氓装B无耻恐吓骗艳暧昧借刀杀人道貌岸然行贿受贿笑里藏刀浑水摸鱼装神弄鬼扮猪吃虎广收小弟沽名钓誉无毒不丈夫官商勾结,一切尽在官心计!本文并非严肃性官场文,力求轻松好看,有啥不太严谨的地方,大家谅解!★PS本书全本免费!★又PS老怒已完成混在国企也逍遥,全书200多万字!★再PS本书已买断,请朋友们放心收藏阅读!老怒感激不尽!读者群81404363...
叶玄立志成为相师...
佣金在手,天下我有!于是乎黎筱筱一不留神代驾变代嫁,偏偏还嫁给了死对头!人生艰难,她却迎难而上。不仅要提防身份被识破,还得提防明枪暗箭。终于任务结束,她想全身而退却被男人按在床上,进了狼窝,还想跑出去?...
车祸以后,霍东丞为了追妻,臭不要脸的假装失忆。各路牛鬼蛇神趁机找上门,欺之辱之,捧高踩低。喻明薇拼死相护霍东丞,别怕,我护你。霍东丞打得牛鬼蛇神哭爹喊妈。一个个放下豪言知道我是谁吗?就敢打?霍东丞笑不知道哦,我失忆了呢。仗着失忆,霍东丞打架斗殴,怼天怼地,活出六亲不认的气势。直到有一天,喻明薇看到霍东丞打电话,对失忆前的事情如数家珍。喻明薇恍悟混蛋,你竟然假装失忆?霍东丞理不直气也壮老婆,不假装失忆,怎么名正言顺的赖上你?这是一个甜宠无虐,男主腹黑无上限的故事。1VS1,男女主身心干净,宝贝们放心入坑。...
一塔一世界,一层一天地!...
简介蓝星上的所有人,全都莫名其妙的来到了一个丧尸遍野的末日世界。所有人的目标只有一个,活下去。活到十阶段的幸存者,将会前往新世界。开局抽取初始物资,陈雀获得了无限祝福的技能。击杀丧尸,获得面饼,十倍祝福,获得超级肉夹馍。击杀异兽,获得手枪,百倍祝福,获得火神加特林。收养小蛇,千倍祝福,获得灭世大金龙。收养猫咪,万倍祝福,获得猫娘。...