笔趣阁

手机浏览器扫描二维码访问

第五章 飓风袭来将被颠覆的行业(第9页)

图像和视频识别可以分为下列几大类应用。

(1)人脸识别及统计(包括唇语识别)。

(2)虹膜/指纹识别。

(3)表情识别-测谎仪。

(4)物体识别及动作顺序。

(5)网络特定类图片监控。

(6)第四类步态识别。

第一类图像识别是人脸识别。全世界人脸识别最大的市场是中国,人脸识别在中国已经被广泛应用于手机支付、ATM机、门禁、打卡、海关、车(机)票、交通违规监测、安全监控等。人脸识别甚至开始应用于快餐店,利用老客户的点餐习惯加快点餐速度。人脸识别还可以用于寻找早年被拐卖的儿童。中国各地目前有大约1.8亿个摄像头,到2020年将增加到4.5亿个,平均每三个人一个摄像头。中国已经建成了世界上最大的视频监控网“中国天网”,利用人工智能和大数据进行警务预测。2017年4月,深圳已经开始利用人脸识别技术来识别乱穿马路的行人。2016年,中国安防行业市场规模已经达到5400亿元,同比增长9%。预计未来几年,中国安防行业市场规模将从2015年的近5000亿元增长到2020年的8759亿元,年增长率在11%以上。

人脸识别的主要任务有两类:一类是在一组未知的图像中找出是否有某个人;另一类是判断一张图像是否为某个特定的人。传统的自动图像识别分为以下几步。

(1)先用一组事先定义的人脸特征把将要识别的人脸进行分类,每个人脸都表现为特征集中的一组参数。

(2)在图像中首先识别有没有人脸,如果有,再识别在图像中的什么位置。

(3)提取图像中每个人脸的特征,将这些特征和已经存在于数据库的各个人脸特征参数进行比较,找到相似度最高的人脸。

而深度学习放弃了使用事先定义好的人脸特征集,而是用已知人脸图像去训练模型。目前,在图像识别中主要使用CNN,不论是什么样的应用,都是先有一组已经标注的训练图像,用这组训练图像将CNN训练好以后,用CNN来识别未知的图像。比较简单的应用是个人图像认证,例如手机刷脸密码。这种应用的图像清晰(基本都是对着镜头的大头照),而且只需要识别是否为某一个人,训练集只是一个人的不同照片。第二类是门禁、打卡、车票等系统类,需要识别出摄像头前是存在数据库里的一群人中的哪一位。这两类应用都是被识别人“希望被认出来”,所以问题相对简单。比较困难的是“不希望被认出来”的情形,例如,在公共场合的摄像头里监控是否有某一群人中的一个或几个出现。挑战在于摄像头的分辨率有限,被摄影人离镜头的距离太远,光线和朝向、姿势都有许多变化,更别提如果化妆或者整形的情况了。假设摄像头的分辨率为1920×1080(高清电视),可靠地识别一个人脸需要分辨率不低于100×100。根据不同的景深和画幅,当人脸和摄像头距离10~20米时,人脸识别的可靠性就会大幅下降。另外摄像头的安装位置都远远高于人脸,当人离摄像头太近时,头顶会遮挡人脸。总体来说在一个公共场合,例如商场或广场角落的摄像头想要准确识别人流中是否有记录在案的人是一件非常有挑战性的事。指纹识别和虹膜识别的原理都和人脸识别类似,但细节不同。

目前公共场合图像和视频监控的一个技术发展方向是把识别能力和摄像头放在一起。设想一个大城市有上百万个摄像头,如果每个摄像头按照每秒64k比特速率向云端传送,每天就会产生上千TB的数据,无论是处理还是储存成本都非常高。更重要的是从监控特定人群的角度来看,这些数据绝大部分都是无用数据。如果识别能力放在摄像头端,那么只有当发现疑似目标时才会上传数据。这种摄像头端的识别可以用高速CPU和GPU来做,但价格太高。假设一个监控点的整个成本为1万元人民币(包括摄像头、拉电源、拉网线、安装费用),识别芯片的成本不应该超过2000元人民币。而且耗电不能太高,因为户外环境不容易安装散热设备。目前的解决方案主要是FPGA(现场可编程门阵列),但当算法稳定和标准形成后,长远解决方案一定是低功耗、低成本的专用芯片。设计生产这种芯片的可以是芯片设计厂商,但更有优势的是那些已经大量生产和部署摄像头的公司。

人脸识别中还包括表情识别和唇语识别。用表情识别来测谎可能比心电图更准确。由于表情的定义本身比较模糊,分类也很有挑战,所以很难另外取得被测者的标注数据。唇语识别是一项集机器视觉与自然语言处理于一体的技术,即通过人的口型变化推测说了什么话。早在2003年,英特尔便开发了“视听说识别系统”软件,供开发者研制能读懂“唇语”的计算机。2016年,谷歌DeepMind英文唇语识别系统便已经可以支持17500个词了,新闻测试集识别准确率达50%以上。目前口型识别的准确率能够达到约60%。2017年12月,搜狗推出了中文版的唇语识别,可以直接从有人讲话的视频中,通过识别说话人的唇部动作,来解读说话者所说的内容。通过端到端深度神经网络技术进行中文唇语序列建模,经过数千小时的真实唇语数据训练,打造了一个“唇语模型”,在非特定人开放口语测试集上,该系统达到60%以上的准确率,在垂直场景命令集例如车载、智能家居等场景下甚至已经达到90%的准确率。(见图5.23)

第二类图像识别是物体识别和统计。例如在卫星照片中识别地面有多少架飞机、分别是什么型号,地铁站每天有多少乘客,商场有多少特定类型的顾客(例如年轻女性)等。有挑战的是在视频中识别一个物体的某个部位的连续动作,例如识别一个挖掘机铲斗在一个时间段里挖掘了多少斗矿石。

图5.23唇语识别技术原理

图片来源:搜狗。

第三类图像识别是识别出网络中上传的图像或视频是否违规,例如黄色图片。这种应用也相当有挑战性,原因之一是被识别类别不容易清晰界定(比如到底什么算黄色),原因之二是训练集可能会非常大,使训练和识别的成本都非常高。

第四类图像识别是步态识别,中国科学院研究出了一种新兴的生物特征识别技术——步态识别。该技术只看走路的姿态,在50米内,眨两下眼睛的时间,摄像头就能准确辨识出特定对象,即使遮挡了面部也有效。虹膜识别通常需要目标在30厘米以内,人脸识别需在5米以内,而步态识别在超高清摄像头下,识别距离可达50米,识别速度在200毫秒以内。此外,步态识别无须识别对象主动配合,即便一个人在几十米外戴着面具背对普通监控摄像头随意走动,步态识别算法也可以对其进行身份判断。步态识别还能完成超大范围人群密度测算,能够对100米外或者1000平方米内的上千人进行实时计数。这些技术能广泛应用于安防、公共交通、商业等场景。

预测管理

2014年12月31日晚间发生在上海外滩的踩踏事件,造成36人死亡,49人受伤。其原因就是跨年夜活动引发了相当多的游客光临,而城市管理者不清楚人流密度,从而没有及时疏散,该类问题随着AI的到来将逐步得到解决。AI结合大数据技术,已经能够在城市的人流预测、天气预测、灾害预测等方面发挥作用。微软亚洲研究院借助CNN、RNN技术与城市的数据,已经能够成功预测未来十几个小时的城市人流情况、雾霾发生概率等,这将在一定程度上改写城市的管理方式。

微软亚洲研究院以贵阳出租车的实时数据为样本,基于人工智能、云计算、大数据做了实时的人流量预测系统。系统把城市划成1000米×1000米的格子,预测每个格子里面未来会有多少出租车进出。每个格子颜色不同,代表了不同的信息,每点一个格子就会跳出一个图形和表格,能清楚知道整个城市某个区域人群流动接下来十几个小时会呈现什么状态。比如已经发生过的出租车进出情况,未来的人流情况,昨天同一时间的情况等。同样地,任何人流预测数据来源,比如手机信号、地铁刷卡记录等,都可以通过该系统模型进行运算从而得到某地将有多少人进出的结果,并预测未来十几个小时的城市人流情况。微软亚洲研究院的郑宇博士领导了这个研究,该研究成果《城市人群流动的深度时空预测网络》(DeepSpatio-TemporalResidualNetworksforCitywideCrowdFlowsPrediction)已经发表在第31届人工智能大会AAAI-17上。(见图5.24)

图5.24贵阳实时人流量预测系统

图片来源:微软亚洲研究院。

未来这个方向的研究还会有更深远的发展,该研究已经可以用来预测城市雾霾等空气质量情况。未来应该还可以预测几天内有无大暴雨,基于城市基础设施,预测哪些地方会被淹,哪些地方排水不够等。

重复体力劳动者将被机器人全面替代

机器人中最大的一支就是自动驾驶汽车,因为这个产业太大,通常大家把它专门拿出来研究。不算自动驾驶汽车和无人机的机器人市场到底有多大?IDC研究报告预计,到2019年全球机器人市场规模将达到1350亿美元,2015年全球机器人支出为710亿美元,并将以17%的年复合增长率增长。

这个市场主要包括三个类型:装配线机器人、(与人)合作型机器人、自主型机器人。装配线机器人的特点是动作程式化,并且不需要判断。根据工业装配线的事先设计要求给机器人输入指令后,机器人一直做重复性的动作。合作型机器人主要是和人一起完成生产线上的任务,由人来做复杂和需要判断的事情,由机器做辛苦但重复性强的工作。合作型机器人和装配线机器人类似,但是因为和人近距离在一起操作,所以需要有紧急保护装置,以防伤人。人工智能影响最大的是自主型机器人,这类机器人目前主要是做服务型工作,例如商场导购、酒店门厅接待、医院送器械和药、小区巡逻、家庭卫生、食品制作等。目前最成熟的是扫地机器人,每年能卖出上千万台,其他的都还不成熟。原因之一在于每一个服务项目的感知、判断和行动决策都很复杂,与自动驾驶类似,如果成本太高,就没有经济价值。服务型机器人的第二个问题是如何和现有流程配合。例如小区巡逻,如果机器人无法一次取代保安的所有复杂工作,那么机器人如何和小区保安分工协调?故障和维修如何解决?自主型机器人未来的主要市场仍然是工业生产线。目前高产值重型装配,例如汽车,已经越来越多地使用机器人,但许多低产值的轻型装配还需要使用大量人工。随着机器人成本的降低,这类生产线也将逐渐配备机器人。另一类是非装配型的生产线,例如食品加工、禽畜屠宰、货物分拣等。这些工作在理论上都能逐渐被机器人取代,前提是一台机器人的成本低于一个生产工人的1~2年的工资福利。在技术上要求这类机器人有一定的视觉感知,较快的处理速度。最重要的是机器人大脑软件必须适应性极强,能够在现场设置匹配各种不同的生产过程或者能够学习新技能,而不必为每个生产流程专门制作软件。这要求开发出一款通用机器人大脑软件,包括通用的感知、判断和控制,并且能够方便地设置成不同的应用场景。可以预见,能开发出这种软件的公司将有巨大的商业前景。与此同时,一个能够装在大批中低端自主型机器人上的将感知、控制、通信都集成到一起的低成本芯片也会很有商业前景。

打通巴别塔——黑天鹅杀手级应用

当所有人对AI的注意力都集中在诸如自动驾驶、人脸识别等“低垂果实”上时,一场最深刻的革命很可能发生在自然语言翻译和理解领域。这场革命可能改变自几十万年前智人发出第一声有意义的“哼哼”以来的人类文明史。人类有可能第一次无障碍地协同盖起一座“巴别塔”。一旦语言的隔离被打破,文化的隔阂也将在几代人之间被冲破。

图5.25巴别塔

图片来源:http:nolabelsnolies.different-tower-of-babel。

笔者2015年在巴西自驾旅行时须臾不可离的就是手机里的谷歌翻译应用。巴西能讲英语的人不多,不论是租车还是住店,笔者都要掏出手机给谷歌翻译说一通英语让手机翻译成葡萄牙语,然后拿着手机给对方播放,再让对方对着手机说一通葡萄牙语,翻译后对着自己播放。由于翻译得不准确,加上现场的噪声,来回让双方对着手机麦克风等,使用体验非常差,但比没有要强很多。这里面有很多技术问题需要解决,能够使翻译体验流畅的最低要求有以下几点。

(1)不需要拿着手机来回对着双方。理想化的器件是一个挂在脖子上的小项链,或者是一个远小于手机的可以放在对话双方之间的小盒子,里面有像亚马逊智能音箱Echo那样的扬声器和多声道麦克风可以聚焦讲话者的声音,滤除现场噪音。

(2)不需要每说一句话都要按一次“翻译”或“播放”。翻译机和活人翻译一样,只要检测到说话者的停顿或一段完整意思的结束,马上就开始播放翻译。

(3)必须能够离线。当手机没有联网信号时,手机里的存储内容和计算能力足够一些常用的翻译。

热门小说推荐
超品赘婿(周天白果儿)

超品赘婿(周天白果儿)

每天晚上八点后固定更新三章!鉴宝,修复,不在话下!双眼看穿世间真假!最终站在人类之巅,脚踩芸芸众生!上门女婿?那又如何?...

巨星从走近科学开始

巨星从走近科学开始

重生过去畅想未来梦幻现实,再塑传奇人生!...

琼瑶经典作品·还珠格格(全六册)

琼瑶经典作品·还珠格格(全六册)

关于琼瑶经典作品还珠格格(全六册)琼瑶经典作品还珠格格(全六册)选取了琼瑶的代表作还珠格格小说系列,分为上中下共六册书。琼瑶经典作品还珠格格(全六册)第一部一册,讲述了紫薇上京认父,结识女飞贼小燕子,并与尔康五阿哥等人的一系列故事。琼瑶经典作品还珠格格(全六册)第二部共三册书,讲述了小燕子紫薇众人在宫中的故事。琼瑶经典作品还珠格格(全六册)第三部共二册书,讲述了小燕子紫薇的婚后生活。...

都市神农医仙

都市神农医仙

苏南是神农医术传承者,为给师父还人情下山成为江南省一个小诊所的医生。他惩恶扬善,医者救人。都市生活精彩缤纷,泼辣老板娘,富商千金,校花白领各色美女蜂拥而至,从此过上一边医者仁心,一边逍遥自在的幸福生活。...

战神狂妃:邪帝,宠上天

战神狂妃:邪帝,宠上天

轻松热血1V1,喜剧甜宠无误会,结局圆满,全文he,标签错误,不要被误导。低垂着眉眼,夜轻羽飞起一脚,将某个接骨还不忘耍流氓的混蛋给踹了出去。前世,她是一国战神,拼尽一切,只想要守护自己的亲人,最后,却被至亲背叛,落得惨死,国破家亡,亲人同胞为奴为仆。重生为邻国傻白丑,某女本想着有仇报仇,有怨报怨,顺道搅动一下这天...

极品狂兵

极品狂兵

兵之王者,兵王也是王。当他触碰王冠,无尽的凶险来袭。为抛头颅洒热血的兄弟,为心甘情愿与他忠贞不渝的女人。他再次握紧拳头,踏平荆棘,拼向王座。...

每日热搜小说推荐