笔趣阁

手机浏览器扫描二维码访问

第六章 暗知识神迹机器能否超越人类(第2页)

(2)设计实验:验证可控变量和可测变量之间的关系。

(3)如果实验不能验证,就重新回到步骤(1)。如果能够验证,就把验证过的关系制造成仪器,使原来的可测变量变为可控变量。然后回到步骤(1)。

机器学习在每个步骤中都能加快速度。在步骤(1),机器学习可以通过阅读历史文献提出大量可能的组合。虽然在大量的备选假设中最终还要科学家定夺为哪个做实验,但机器可以帮助科学家想得更全面。在步骤(2)最花时间的是改变可控变量的值来测量可测变量,这正是机器的拿手好戏。在收集、整理、分析数据方面机器比人要快,也更准确。在步骤(3)制造仪器方面又分为设计、实验和制造三个步骤,机器学习在实验和制造上都能加快速度。可以想象在不久的将来会出现“机器人研究生”,人类科学家给机器一个大致的研究方向,当机器遇到困难时请教一下导师,剩下的大部分研究工作就是机器自己做了。它们不知疲倦,7×24小时做研究,阅读速度是人类研究生的一亿倍,测量分析数据速度是人类研究生的一万倍。只要有电力和算力,世界上可以有几十亿个这样的“研究生”在研究人类关心的各种课题。

唐诗高手

机器学习不仅在科学技术的进步上大显神威,而且也开始进入人文领域。下面的四首律诗中有两首是人写的,两首是机器写的。

云峰

白云生处起高峰,

鬼斧神工造化成。

古往今来谁可上,

九重宫阙握权衡。

画松

孤耐凌节护,

根枝木落无。

寒花影里月,

独照一灯枯。

悲秋

幽径重寻黯碧苔,

倚扉犹似待君来。

此生永失天台路,

老凤秋梧各自哀。

春雪

飞花轻洒雪欺红,

雨后春风细柳工。

一夜东君无限恨,

不知何处觅青松。

在告诉读者答案之前,先看看机器写诗的原理。把机器写诗的原理讲得最清楚的莫过于《红楼梦》里的林黛玉。在《红楼梦》第四十八回中,被薛宝钗带进大观园的姑娘香菱让黛玉教她写诗:

黛玉道:“什么难事,也值得去学!不过是起承转合,当中承转是两副对子,平声对仄声,虚的对实的,实的对虚的,若是果有了奇句,连平仄虚实不对都使得的。”香菱笑道:“怪道我常弄一本旧诗偷空儿看一两首,又有对的极工的,又有不对的,又听见说‘一三五不论,二四六分明’。看古人的诗上亦有顺的,亦有二四六上错了的,所以天天疑惑。如今听你一说,原来这些格调规矩竟是末事,只要词句新奇为上。”黛玉道:“正是这个道理,词句究竟还是末事,第一立意要紧。若意趣真了,连词句不用修饰,自是好的,这叫作‘不以词害意’。”香菱笑道:“我只爱陆放翁的诗‘重帘不卷留香久,古砚微凹聚墨多’,说的真有趣!”黛玉道:“断不可学这样的诗。你们因不知诗,所以见了这浅近的就爱,一入了这个格局,再学不出来的。你只听我说,你若真心要学,我这里有《王摩诘全集》你且把他的五言律读一百首,细心揣摩透熟了,然后再读一二百首老杜的七言律,次再李青莲的七言绝句读一二百首。肚子里先有了这三个人作了底子,然后再把陶渊明、应玚,谢、阮、庾、鲍等人的一看。你又是一个极聪敏伶俐的人,不用一年的工夫,不愁不是诗翁了!”

黛玉说的第一件事是格律,押韵合辙,平仄对仗。这是律诗的基本规则,属于作诗的明知识。而词语之间的相关性,也即一个词出现在另一个词后面的概率,对诗人来说则是默知识。学习这些默知识是机器最擅长的,机器通过大量的阅读,对每个词后面出现什么词都有了“感觉”。黛玉说的第二件事是训练集要大,要多样化。陆游一生写了万余首诗,但一个诗人毕竟有局限性,例如陆游的诗题材单调,意境空疏。如果香菱只学陆游的诗就会像黛玉说的那样“一入了这个格局,再学不出来的”,这就是机器学习里面当训练数据集太小时出现的“过度拟合”问题。所以黛玉让香菱学王维、杜甫、李白等不同风格的诗人,王维的空灵幽远,杜甫的悲天悯人,李白的潇洒豪放,都会避免“过度拟合”,多种风格的混合才能出新意。

机器作诗的原理和人学作诗类似,本质上也是模式识别,通过大量学习识别然后记忆平仄、对仗、押韵、词句的常见组合,即一个词出现在另一个词后面的概率。诗歌是文字的一部分,是一个前后有相关性的序列数据流,第三章里提到过,RNN最适合序列数据处理。产生诗歌的思路有两种。第一种思路是将诗歌的整体内容作为训练语料送给RNN语言模型进行训练。训练完成后,先给定一些初始内容,然后就可以按照语言模型输出的概率分布进行采样得到下一个词,不断地重复这个过程就产生完整的诗歌。具体步骤如下:首先由用户给定的关键词生成第一句,然后由第一句话生成第二句话,由第一句话和第二句话生成第三句话,重复这个过程,直到诗歌全部生成。该模型由三部分组成。

(1)卷积语句模型(ConvolutionalSentenceModel,CSM):这个卷积模型用于获取一句话的向量表示。

(2)复发上下文模型(RecurrentContextModel,RCM):句子级别的RNN,根据历史生成句子的向量,输出下一个要生成句子的上下文向量。

(3)复发生成模型(RecurrentGenerationModel,RGM):字符级别的RNN,根据RCM输出的上下文向量和该句之前已经生成的字符,输出下一个字符的概率分布。解码的时候根据RGM模型输出的概率和语言模型概率加权以后,生成下一句诗歌,由人工规则保证押韵。

第二种思路是把写诗看成一个翻译过程。将上一句看成源语言,把下一句看成目标语言,用机器翻译模型进行翻译,并加上平仄押韵等约束,得到下一句。通过不断地重复这个过程,得到一首完整的诗歌。

现在到了揭开谜底的时候:第二首和第四首诗是机器写的,仔细看还是能看出来。一首好诗首先是要语句自然流畅,意境浑然天成。第二首的第一句“孤耐凌节护”根本不知所云。除了句子不通顺,两首机器写的诗还很难让读者有画面感。一首好诗重要的是意境,正如黛玉所说:“词句究竟还是末事,第一立意要紧。若意趣真了,连词句不用修饰,自是好的,这叫作‘不以词害意’。”目前机器写诗像一个缺乏天资的但极为刻苦的诗歌爱好者,怎么做都无法有“意境”。能够打动人的好诗需要“触景生情”,并且能引起读者的共鸣。这更是目前机器学习还无法企及的境界。最绝妙的诗歌除了以上几点,还要能出奇出新,打破常规,使用从来未使用过的词句组合但又合情合理。正如黛玉在进一步提点香菱时所说:

“可领略了些滋味没有?”香菱笑道:“领略了些滋味,不知可是不是,说与你听听。”黛玉笑道:“正要讲究讨论,方能长进。你且说来我听。”香菱笑道:“据我看来,诗的好处,有口里说不出来的意思,想去却是逼真的。有似乎无理的,想去竟是有理有情的。”黛玉笑道:“这话有了些意思,但不知你从何处见得?”香菱笑道:“我看他《塞上》一首,那一联云:‘大漠孤烟直,长河落日圆。’想来烟如何直?日自然是圆的:这‘直’字似无理,‘圆’字似太俗。合上书一想,倒像是见了这景的。若说再找两个字换这两个,竟再找不出两个字来。还有‘渡头余落日,墟里上孤烟’:这‘余’字和‘上’字,难为他怎么想来!我们那年上京来,那日下晚便湾住船,岸上又没有人,只有几棵树,远远的几家人家做晚饭,那个烟竟是碧青,连云直上。谁知我昨日晚上读了这两句,倒像我又到了那个地方去了。”

热门小说推荐
斗罗大陆3龙王传说

斗罗大陆3龙王传说

伴随着魂导科技的进步,斗罗大陆上的人类征服了海洋,又发现了两块大陆。魂兽也随着人类魂师的猎杀走向灭亡,沉睡无数年的魂兽之王在星斗大森林最后的净土苏醒,它要...

灵棺夜行

灵棺夜行

送葬上山,我却被装在棺材里活活给埋了,随之整个村子三百多口人一夜之间全都消失了,只有晚上这里才人声鼎沸。我从棺材里爬出来,才发现新书期间,一天二更。...

火影之穿越万界

火影之穿越万界

火影世界,一灵魂带着系统穿越而来成为自来也,精彩不断,满世界到游历,且看豪杰自来也一生传奇!!...

小妾不乖:傲娇王爷来侍寝

小妾不乖:傲娇王爷来侍寝

纳尼?大婚当天,他堂堂一个王爷就被人讹上了,不仅要帮人家养儿子,还要履行丈夫职责?!不行,我不同意。某男抗议。抗议无效。某女叉腰道。命你亥时之前洗刷干净,候着!神啊!又要侍寝?能不能装死?嘤嘤嘤...

总裁被渣指南

总裁被渣指南

每逢莫少结婚,苏与言必定出现砸场子!第七次!这是莫邵谦第七次结婚了!苏与言,你想说什么?莫公子,恭喜您又被渣了。...

每日热搜小说推荐