大数据开启人工智能时代

2018-02-07 23:50
软件和集成电路 2018年1期
关键词:机理深度领域

对话主持:中兴通讯云计算及IT研究院人工智能首席专家 杜新凯(左一)

对话嘉宾:医渡云(北京)技术有限公司CTO 徐济铭(左二)

知盛集团全球CEO 王晓梅(中间)

昆仑智汇数据科技(北京)有限公司CEO 陆薇(右二)

哈尔滨工业大学副教授、智能技术与自然语言处理研究室副主任 刘秉权(右一)

在2017中国软件大会的“中国人工智能和大数据百人会·数智思享高峰论坛”上,四位来自产业界和学术界的高管、专家就“大数据开启人工智能时代”这一话题展开了深入讨论,分享了他们的真知灼见。

Q:怎么看待大数据和人工智能二者之间的关系?

刘秉权:当今IT领域的三大支柱是人工智能、大数据、云计算。如果人工智能是追求的目标,那么大数据和云计算则是人工智能的重要支撑。

当前人工智能发展的主流方向是深度学习,相当于大数据和深度学习的结合。就我个人而言,我研究的方向是自然语言处理,近几年自然语言里最热的是多人对话,像聊天机器人、智能客服等。

人工智能的发展历程和自然语言处理比较吻合,因为自然语言处理是AI最重要的方向。很明显的是传统的技术逐渐过渡到当前深度学习领域,包括多人对话,传统的方法用深度学习来解决。在其他领域,除了多人对话外,像语音识别、自动驾驶、人机博弈等,都充分体现了近几年人工智能领域的发展。

近几年人工智能的发展有以下几个特点:第一,人工智能应用范围广,成绩显著;第二,人工智能的发展存在周期性。

当前深度学习延长了人工智能发展的周期,意义深远。深度学习相比其他技术更贴近人脑的认知以及人的思维方式。

陆薇:昆仑智汇一直是用大数据和人工智能的技术来帮助工业企业解决问题和增加价值。在人工智能和大数据的关系的问题上,我个人认为二者没有必然联系,二者的关系依赖于不同问题的规则机理,数据和规则机理有机结合,最终形成人工智能。

我举一个典型的例子,大家都非常熟悉AlphaGo,棋牌类的问题有非常清楚的规则和机理,比如下围棋的规则非常清楚,但是因为纵横十九道,有非常多的变化,其实我们面临的问题是计算不过来的问题,因为人的脑力有限,无法对棋局进行整体布局。但机器却不然,其无限的计算能力,能够快速进行推理、演绎,推算出很多不同的路径,从而选择最优路径。这跟数据没有必然的联系,完全在清晰的规则和机理的指导之下进行大量的计算。其实人工智能与大数据没有必然的联系。

另外一类人工智能问题是没有机理的,比如与人相关的,像图片识别、语音识别,甚至识别一个人。一个人是高兴还是悲伤,我们怎么用一个清晰的规则来描述呢?其实非常难描述,所以在这个时候我们就只能让机器用学习的办法,给它大量的图片,这叫高兴的人,这叫悲伤的人,这叫愤怒的人,希望在大量的数据之中,让机器通过学习的方法,它自己能够掌握其中的规律,然后用这个规律来做相应的判断。这种情况属于没有明显的规则和机理,这个时候我们需要应用大数据,要通过大量的数据训练,让机器能够掌握这样的一些智能,在这种情况下,人工智能和大数据有非常紧密的依存关系。

我自己是从事工业领域的,我们在工业领域的人工智能应用其实会出现第三种情况,就是有部分的规则和机理,但是是不完全的,怎么理解?比如我们做风力发电,风力跟天气、跟风有关,当跟风电厂、跟风力发电机有关的时候,我们会用到类似于空气动力学等原理来开发模型,对于像空气动力学、流体力学、摩擦学这样的一些自然科学的原理,其中有部分的机理没被破解。我们所处的自然社会,其实有部分的机理可循,但是还有一部分是未知的,在解决这样的问题的时候,我们需要把机理和数据做一个有机的结合,比如我们在做工业智能的时候,我们一方面肯定要结合这个领域的知识,要结合这个领域里面已经通过科学家若干年研究出来的相关的机理。同时因为这个机理是不充分的,我们一定还需要再结合大量的数据,把数据和机理有机地结合在一起才能更好地解决这个问题。

总结一下,我觉得人工智能跟大数据的关系完全依赖于这个问题本身:如果这个问题本身是一个强机理的问题,其实它跟大数据没有关系;如果它是一个无机理的问题完全要依赖于数据;如果正好介于中间,我们需要把机理和数据有机地结合在一起,才能很好地解决这个问题。

王晓梅:在今天的分享开始之前,我想跟大家分享一下我自己的从业经验,知盛集团是一个双总部公司,核心研发团队在美国和欧洲,我们集结了世界顶级的科学家,在我成立这个人工智能集团公司之前,我个人在IBM有近18年的從业经验,18年里我一直在IBM美国总部主管数据信息、数据管理,特别是自2011年以来,我主管全球的大数据分析和人工智能的技术和业务。

我为什么会提到这个从业的经验呢?因为我接下来这些经验的分享是多年来我一直在全球的各个市场、各个行业跟各类大中型企业的深度合作的心得体会。接下来我会从多种维度,解读大数据和人工智能的关系。

第一个维度,数据价值链。知盛集团LOGO标志,下面有一行小小的字,四个词组成,依次是数据、分析、人工智能、行动。这四个词的组成和选择有深远意义,它非常清晰地解读了数据、分析、人工智能和商业价值的关系。

首先,数据。数据是资产、数据是基础,需要对数据进行有效的存储管理;其次,分析。如果数据不进行分析,不产生洞察力,数据将不再是有用的自然资源,而只是一堆垃圾,特别是当今世界,每两年全球的数据量就会翻一翻,只有具备严谨、高效的分析能力,我们才可以真正地把这些数据的资源转换为各种各样的商业价值和洞察力;最后,行动。只有完成这三步,我们的数据才具有生命,才能逐渐增强各行业的商业能力,甚至很多时候能够产生颠覆性的商业模式,所以这个价值链的阐述其实能非常清晰和简单地解读大数据和人工智能之间的关系。

第二个维度,如何甄别真正的人工智能系统。遵循三个字母U、R、L。U代表理解,理解是人工智能的基本要求,当今全球人工智能在理解层面上,主要涉及人机交互,人机交互最常见的是通过语音或文本这种自然语言实现人机之间的交互。包括Facebook在内的诸多领军公司都在研究如何捕捉人意识的脑电波,真正实现人机交互。业界预测可能3~5年,这项技术便可以实现商业化。虽然很多国家把人工智能上升为国家战略,迄今为止,大部分人工智能还仅仅停留或者起步在理解层面上。R代表能够非常精准地瞄准人工智能的系统,在甄别的时候,我们要看是不是有相关的算法、模型,真正让这个系统模拟人的推理能力来进行新的运算、推理、预测等。最后,L代表自主学习。自主学习其实是人工智能在商业领域如火如荼落地的一个非常重要的原因。endprint

就目前而言,归根结底都是以人工智能、大数据分析为引领的几大技术在推动。人工智能是各大技术综合性的应用。学习为什么这么重要呢?因为世界每时每刻都在变化,每时每刻都在产生大量数据。只有具备自主学习能力,并对当下的数据进行分析,你的系统才真正精准实时。

最后一个维度,三五年以后会有越来越多的更复杂、更高级的人工智能的能力以价格低廉的方式由各大厂商提供给这个市场,通过云计算上的一个API你就可以轻松地调用,这个势态将不可逆转,三五年以后人工智能的竞争点、竞争力到底在哪里呢?从长远的人工智能竞争市场来说,数据将是长远的核心竞争点。所以今天我其实也非常想借着这个机会,希望大家不仅仅能够看到当下的人工智能市场,也同时能够展望三五年以后,或者更长远的人工智能的市场,我们的关注点到底应该在哪里。

徐济铭:医渡云利用人工智能技术服务于将近100家中国顶级的三甲医院,利用医院沉淀十几年的患者诊疗数据,用人工智能技术服务于医院的整个临床研究、科研的管理、医院的管理以及临床的服务。因为前面几位专家和老师都从大的技术角度、行业的角度阐述了人工智能和大数据的关系。我更想结合垂直行业的应用说一下我自己的理解。

从人工智能角度看,我可能会把智能分成两个方面,一方面是感知智能,另外一方面是认知智能。感知智能主要是利用现在深度学习的方法,对影像、语音,包括相关的一些数据去感知里面所包含的信息。另外,认知智能是各自然语言的处理,这是智能的核心,关注整个逻辑推理是怎样的。

对医疗行业来说这两方面都很重要,医疗数据里面包含了基因的数据、影像的数据,还有大医生书写的文书的文字数据。如果要把医疗的人工智能做好,需要基于大量的数据,通过全面的人工智能技术包括感知智能和认知智能等把数据里面的价值和经验进行有机的提取。比如,每个医生在诊疗的过程中会依赖于自己的经验,我们服务于顶级医院,拥有中国最好的专家为患者诊疗的整个周期数据,这里面蕴含着大量的知识和经验,是否有好的方法从这里边学习,把这些经验能够引擎化、知识化和服务化,再反馈到医疗里面,这其实是数据和人工智能技术有机结合,并且能够用到产业里面很典型的例子,但是这里面的技术难点非常多。刚才有专家说未来3~5年可能就会有一个很大的腾飞,我对这个速度表示一定谨慎的态度,因为这里面的技术难度比较大,但是我希望早一天到来,能够解放医生的双手,增强医生的大脑,让更多的人接受到更好的医疗服务。

Q:如何才能够让两者互相融合,使人工智能技术应用于更多的领域?

刘秉权:我主要的工作是做自然语言处理,就是人机对话方面的研究。实际上这个领域与整个人工智能的趋势差不多。目前主要是更好地运用深度学习的技术解决所面临的各种问题。这些问题包括以下几点:

第一,深度学习技术自身的完善和发展。认识深度学习自身的规律,研究其系统的构建、结构和模型等。同时,兼顾其他领域。针对一些具体问题,比如如何与知识推理相结合,这并不是传统的自然语音处理技术,像剛才专家讲到的知识图谱的构建与运用,关键是如何与深度学习技术实现一体化。

第二,在构建人机对话的过程中面临一些个性化的需求,比如客服系统基本上很难完成特别个性化的需求,那么如何与个性化的技术结合,如何更好地让自然语音系统满足个性化的需求,自然是今后要解决的问题。

第三,在机器学习领域,与迁移学习等各种成分的结合,使得深度学习系统具有更好的适应和转换能力,及终身学习的特点。

以上问题都是我们研究自然语音处理领域需要关心的问题。另外,需要强调的是,任何人工智能,都离不开大数据的支持。

我们平时可能不太关注通用的大数据,比如我在构建一个具体系统的时候,除了通用的自然语音处理资源之外,很关键的知识就是我们需要大量的问答,可能是几千万、上亿,或者几十亿、上百亿规模的面向单人的,或者面向多人的数据库对话,这些数据从哪儿来呢?并没有直接可以利用的表达形式。同时,需要利用我们的技术开发多人对话资源的挖掘方法,然后建立挖掘的系统,实现工具化,经过不断地迭代,最后实现构建足够规模的、包含上亿的问答规模的资源。

作为高校或纯粹的研究机构,当前面临的一个突出的问题,就是我们在做深度学习的研究过程中,需要更大规模的数量级数据,那么这些数据除了自己加工之外,更迫切地需要与行业内其他的合作伙伴一起合作,比如从政府部门或大企业所具备的资源里获取有价值的东西。这实际上是我们很多研究者面临的一个困境。

我们的研究人员在做研究工作的时候,首先他们可能有很多的思路和想法,想方设法克服这些大数据所面临的瓶颈,因此很多东西无法立即开展起来。因此需要很大程度上通过企业合作来实现,我们也希望如果有机会,政府部门或大型企业能不能通过更好的机制,把他们所拥有的高质量的、大规模的数据更好地分享出来,推动大数据的发展。

陆薇:这些年,我们一直致力于把人工智能和大数据向业界推广应用,帮助企业解决问题。这些年下来,我们自己有点心得,我觉得无论是大数据还是人工智能,真的要实现产业上的成功有四个因素非常重要,第一场景,第二领域知识,第三数据,第四技术。

相比技术,我认为场景最重要。大家很多时候都在讲,在互联网上大家在进行场景革命,在大数据和人工智能领域同样有场景革命,我们要做一件事情,必须找到清晰的、有价值的、有痛点的业务场景,这才是真正的问题所在,而且这个问题解决以后,才会给对方带来非常大的价值。有了场景,我们才能保证我们在做一件对的事,剩下的就是我们怎么把事情做对。

从把事情做对的角度,我们需要把剩下的三个因素很好地结合起来,一个是领域知识,其实有些领域是有规则的、有机理的,当我们要解决这个领域问题的时候,我们要充分考虑这些规则和机理,充分把领域专家的知识用起来。

另外,我们需要有数据,特别是我们在一个不是很强的机理和规则的问题之下,我们需要有大量的数据供我们学习与挖掘,来找到一些专家所不具备的知识。再者,有相关的技术,我们要有数据的采集、传输、学习、挖掘等技术的支持。最后,问题得到一个最好的解决。endprint

从我们昆仑数据自己这几年的实践来看,我们认为需要方法、工具、人这三方面结合好。

从方法的角度我们总结了一套方法叫BMT,我们首先要有商业问题的引领,商业问题是起始点,M就是数据科学,是必由之路。

我们也推出了相关的工具,能够帮助我们去做商业问题的梳理,能够做数据相应的管理、挖掘,然后我们把技术综合在一起。

最后,人也非常重要,因为无论是问题的解决,还是工具的应用,最后都需要人去解决数据和人工智能领域的问题,我们觉得可能需要有这么几类人来分工协作:

一类是业务分析师,他的职能是理解这个领域的具体问题,能够把这个问题从一个业务问题转变成一个数学问题,一个数据的问题。

一类是数据科学家,他能够开发算法、模型,能够解决具体的数学问题。

一类是数据工程师,如果说数据科学家是大厨的话,数据工程师就是给大厨打下手的小工,在炒菜之前必须有人把菜摘好、洗好,把数据清理干净,整理好,大厨才能有更好的发挥。

一类是系统工程师,他需要懂大数据的系统,能够围绕这样的一个核心算法,能够把它开发成一个应用的系统,能够部署到客户的现场,这样才能解决客户的问题。

以上是我们这些年的心得,我们需要把场景、领域知识、数据、技术有机地结合起来,我们需要有方法、工具和合适技能的人,團结协作。然后,才能达到理想的效果,让大数据和人工智能的技术真正地在产业界落地,能够解决问题,能够为客户带来价值。

王晓梅:我觉得这个问题问得特别好,因为这个问题直接就决定了大数据分析和人工智能如何能够快速地在市场落地。在我分享之前,我必须强调一下,我是做技术出身的,我这边必须强调,人工智能和大数据分析是以高度业务价值为驱动的,必须是与行业紧密相关联的,作为一个技术背景的人说出这句话,这后面是有深刻的含义的,因为人工智能和大数据分析跟传统的所有以前IT的技术完全不同,这是我这么多年来最大的个人体会和一个最佳实战经验。

数据分析本身潮起潮落很多年了,我在全球那么多市场看了那么多成功的、失败的公司,我觉得他们都高度秉承这个原理,即以高度业务价值驱动,而且任何一家成功的长青树的人工智能或者大数据分析,特别是数据分析的公司,一定与行业紧密关联。这就回到我设计整个知盛集团公司战略的时候,如果我用一种比较粗浅的方式来划分全世界各行各业,有18大行业模块。

全世界第一大人工智能采纳行业板块是医疗行业,这也是为什么我在知盛集团设立的时候,专门有一个子公司做人工智能医疗行业服务,我这边的切入点是预防性医疗,因为整个医疗行业本身范围非常广泛,大家所熟知的是20%疾病市场,包括各种癌症、糖尿病诊疗,这些仅仅属于诊疗疾病的市场,但是真正在崛起的,在医疗行业里面最大的新的商业的机会其实是预防性医疗,整个医疗行业正在发生巨大的变化。由以前的以医疗机构、医院等为中心,转变为以客户为中心的自我看护的新兴预防性医疗市场。

第二大块业务是人工智能与传媒,最后一块业务是人工智能与电子商务,这与行业的深度结合是密不可分的,因为在与专业行业的人结合的时候,他为我们整个人工智能项目落地提供了几个关键的元素,第一是行业的深度认知,第二是业务的痛点和描述,第三是数据。只有基于对行业的知识的深度的认知,对相关业务场景的深度的理解,然后再加上相关的数据,然后再配合人工智能的算法和模型,这样才会有一个真正的切实可行的人工智能的产品,服务于这个行业,服务于大众。

另外,我还想分享一点,这一点非常重要,我们在进行行业落地的时候,因为数据现在已经变成了一种可流动的资产,一种新的货币,现在行业跟行业之间的竞争,行业跟行业之间的壁垒,行业跟行业之间的界限正在模糊,所以我们大家在人工智能落地的时候,我们要考虑一下跨行业,如何打破行业之间的壁垒?如何进行一个跨行业的合作跟融合?这也是整个人工智能落地盈利点更多,产生的一个重要的思维。

最后,我们在行业落地的过程中,有一种应用场景,现在已经占到了全世界60%以上的人工智能跟数据分析的应用场景,跟行业无关,所有行业都适用,就是以客户为中心,这个以客户为中心非常关键,是另一个商业机会的嵌入点。

徐济铭:刚才听到各位专家老师的观点我挺兴奋的,特别是刚才陆总讲到在垂直行业要把场景、知识、数据结合才能使AI、大数据服务于整个垂直行业,医疗更是这样,医疗场景很复杂,医疗又是很复杂的学科,对数据的依赖也很重,AI的技术又涉及多个方面,包括认知计算、感知计算等。当初我们创立医渡云是相信数据可以驱动医疗,创新可以驱动医疗。(根据演讲内容整理,未经本人审核)endprint

猜你喜欢
机理深度领域
四增四减 深度推进
深度思考之不等式
TiN夹杂物形成机理研究与控制技术
2020 IT领域大事记
近年化学反应机理图示题的考查例析
领域·对峙
简约教学 深度学习
金属切削中切屑的形成机理
金属切削中切屑的形成机理
套管磨损机理研究