大数据为库内人工智能带来了怎样的机会?

我一直很好奇人工智能是如何提出来的,它背后有什么样的故事,在人工智能发展的这60年的时间中,又经历了什么?为什么现在才是人工智能的爆发点,未来人工智能又将走向何处?带着这样的问题我读了吴军博士的《智能时代》这本书,打开了我对人工智能的了解,这篇文章主要内容也来自于这本书。

我们这代人对人工智能的关注,来自于2016年AlphaGo大战世界著名围棋选手李世民,在比赛之前各方关注度非常高,国内各方媒体争相报道,预测这场比赛的结果,人们好奇人工智能现在智能到什么程度以及计算机如何和人下围棋,最终AlphaGo以4:1胜了李世明,大家都在感慨人工智能时代即将来临。仅仅过了一年,2017年5月27日AlphaGo的2.0版本3:0战胜围棋世界排名第一的柯洁九段,从此在AlphaGo面前已无人类对手。

计算机之所以能够战胜人类,是因为机器获得智能的方式和人类不同,它不是靠逻辑推理,而是靠大数据和算法。Google使用了几十万盘围棋高手之间的对弈的数据来训练AlphaGo,这是它获得所谓“智能”的原因。在计算方面,Google使用了几十万台服务器来训练AlphaGo下棋模型,并让不同的AlphaGo相互对弈上千万盘。第二个关键技术是启发式搜索算法-蒙特卡洛树搜索算法(英语:Monte Carlo tree search;简称:MCTS),它能将搜索的空间限制在非常有限的范围内,保证计算机能够快速找到好的下法。由此可见,下围棋这个看似智能型的问题,从本质上讲,是一个大数据和算法的问题。

说到人工智能,就不得不提计算机届的一个传奇人物:阿兰.图灵博士。1950年,图灵在《思想》(mind)杂志上发表了一篇《计算的机器和智能》的论文。在论文中,图灵既没有讲计算机怎样才能获得智能,也没有提出如何解决复杂问题的智能方法,知识提出了一个验证机器有无智能的的判别方法。

让一台机器和一个人坐在幕后,让一个裁判同时与幕后的人和机器进行交流,如果这个裁判无法判断自己交流的对象是人还是机器,就说明这台机器有了和人同等的智能。就是大名鼎鼎的图灵测试。后来,计算机科学家对此进行了补充,如果计算机实现了下面几件事情中的一件,就可以认为它有图灵所说的那种智能:

  • 3、文本的自动摘要或者写作
  • 4、战胜人类的国际象棋冠军

今天,计算机已经做到了上述的这几件事情,甚至还超额完成了任务,比如现在的围棋比国际象棋要高出6-8个数量级,当然,人类走到这一步并非一帆风顺,而是走了几十年的弯路。

在20世纪40年代和50年代,来自不同领域(数学,心理学,工程学,经济学和政治学)的一批科学家开始探讨制造人工大脑的可能性。1956年,人工智能被确立为一门学科。

Samuel,Newell和Simon,他们中的每一位都将在AI研究的第一个十年中作出重要贡献。

会议虽然叫做“达特茅斯夏季人工智能研究会议”,其实它不同于今天我们召开几天的学术会议,因为一来没有什么可以报告的科研成果,二来这个会议持续了一个暑假。事实上,这是一次头脑风暴式的讨论会,这10位年轻的学者讨论的是当时计算机尚未解决,甚至尚未开展研究的问题,包括人工智能、自然语言处理和神经网络等。

会上纽厄尔和西蒙讨论了“逻辑理论家”,而麦卡锡则说服与会者接受“人工智能”一词作为本领域的名称。1956年达特矛斯会议上人工智能的名称和任务得以确定,同时出现了最初的成就和最早的一批研究者,因此这一事件被广泛承认为人工智能诞生的标志。


60年前的达特茅斯大学

达特茅斯会议之后的数年是大发现的时代。对许多人而言,这一阶段开发出的程序堪称神奇:计算机可以解决代数应用题,证明几何定理,学习和使用英语。当时大多数人几乎无法相信机器能够如此“智能”。研究者们在私下的交流和公开发表的论文中表达出相当乐观的情绪,认为具有完全智能的机器将在二十年内出现。ARPA(国防高等研究计划署)等政府机构向这一新兴领域投入了大笔资金。

第一代AI研究者们非常乐观,曾作出了如下预言:

  • 1958年,H. A. Simon,Allen Newell:“十年之内,数字计算机将成为国际象棋世界冠军。” “十年之内,数字计算机将发现并证明一个重要的数学定理。”
  • 1965年,H. A. Simon:“二十年内,机器将能完成人能做到的一切工作。”
  • 1967年,Marvin Minsky:“一代之内……创造‘人工智能’的问题将获得实质上的解决。”
  • 1970年,Marvin Minsky:“在三到八年的时间里我们将得到一台具有人类平均智能的机器。”

早期,人工智能使用传统的人工智能方法进行研究,什么是传统的人工智能研究呢?简单的讲,就是首先了解人类是如何产生智能的,然后让计算机按照人的思路去做。因此在语音识别、机器翻译等领域迟迟不能突破,人工智能研究陷入低谷。

由于人工智能研究者们对项目难度评估不足,这除了导致承诺无法兑现外,还让人们当初的乐观期望遭到严重打击。到了70年代,人工智能开始遭遇批评,研究经费也被转移到那些目标明确的特定项目上。

1972年康奈尔大学的教授弗雷德.贾里尼克(Fred Jelinek)被要求到IBM做语音识别。在之前各个大学和研究这个问题已经花了20多年的时间,主流的研究方法有两个特点,一个是让计算机尽可能地模拟人的发音特点和听觉特征,一个是让计算机尽可能的方法理解人所讲的完整的语句。对于前一项研究,有被称为特征提取,后一项的研究大都使用传统人工智能的方法,它基于规则和语义。

贾里尼克任务,人的大脑是一个信息源,从思考到找到合适的语句,再通过发音说出来,是一个编码的过程,经过媒介传播到耳朵,是一个解码的过程。既然是一个典型的通讯问题,那就可以用解决通讯方法来解决问题,为此贾里尼克用两个数据模型(马尔科夫模型)分别描述信源和信道。然后使用大量的语音数据来训练。最后,贾里尼克团队花了4年团队,将语音识别从过去的70%提高到90%。后来人们尝试使用此方法来解决其他智能问题,但因为缺少数据,结果不太理想。

在当时,由于计算机性能的瓶颈、计算复杂性的指数级增长、数据量缺失等问题,一些难题看上去好像完全找不到答案。比如像今天已经比较常见的机器视觉功能在当时就不可能找到一个足够大的数据库来支撑程序去学习,机器无法吸收足够的数据量自然也就谈不上视觉方面的智能化。

项目的停滞不但让批评者有机可乘——1973年Lighthill针对英国人工智能研究状况的报告批评了人工智能在实现其“宏伟目标”上的完全失败,也影响到了项目资金的流向。人工智能遭遇了6年左右的低谷。

在80年代,一类名为“专家系统”的AI程序开始为全世界的公司所采纳,而“知识处理”成为了主流AI研究的焦点。1981年,日本经济产业省拨款八亿五千万美元支持第五代计算机项目。其目标是造出能够与人对话,翻译语言,解释图像,并且像人一样推理的机器。

受到日本刺激,其他国家纷纷作出响应。英国开始了耗资三亿五千万英镑的Alvey工程。美国一个企业协会组织了MCC(Microelectronics and Computer Technology Corporation,微电子与计算机技术集团),向AI和信息技术的大规模项目提供资助。DARPA也行动起来,组织了战略计算促进会(Strategic Computing Initiative),其1988年向AI的投资是1984年的三倍。人工智能又迎来了大发展。

专家系统是一种程序,能够依据一组从专门知识中推演出的逻辑规则在某一特定领域回答或解决问题。最早的示例由Edward Feigenbaum和他的学生们开发。1965年起设计的Dendral能够根据分光计读数分辨混合物。1972年设计的MYCIN能够诊断血液传染病。它们展示了这一方法的威力。专家系统仅限于一个很小的知识领域,从而避免了常识问题;其简单的设计又使它能够较为容易地编程实现或修改。总之,实践证明了这类程序的实用性。直到现在AI才开始变得实用起来。

专家系统的能力来自于它们存储的专业知识。这是70年代以来AI研究的一个新方向。Pamela McCorduck在书中写道,“不情愿的AI研究者们开始怀疑,因为它违背了科学研究中对最简化的追求。智能可能需要建立在对分门别类的大量知识的多种处理方法之上。” “70年代的教训是智能行为与知识处理关系非常密切。有时还需要在特定任务领域非常细致的知识。”知识库系统和知识工程成为了80年代AI研究的主要方向。

1982年,物理学家John Hopfield证明一种新型的神经网络(现被称为“Hopfield网络”)能够用一种全新的方式学习和处理信息。大约在同时(早于Paul Werbos),David Rumelhart推广了反向传播算法,一种神经网络训练方法。这些发现使1970年以来一直遭人遗弃的联结主义重获新生。

“AI之冬”一词由经历过1974年经费削减的研究者们创造出来。他们注意到了对专家系统的狂热追捧,预计不久后人们将转向失望。事实被他们不幸言中:从80年代末到90年代初,AI遭遇了一系列财政问题。

变天的最早征兆是1987年AI硬件市场需求的突然下跌。Apple和IBM生产的台式机性能不断提升,到1987年时其性能已经超过了Symbolics和其他厂家生产的昂贵的Lisp机。老产品失去了存在的理由:一夜之间这个价值五亿美元的产业土崩瓦解。

XCON等最初大获成功的专家系统维护费用居高不下。它们难以升级,难以使用,脆弱(当输入异常时会出现莫名其妙的错误),成了以前已经暴露的各种各样的问题的牺牲品。专家系统的实用性仅仅局限于某些特定情景。到了80年代晚期,战略计算促进会大幅削减对AI的资助。DARPA的新任领导认为AI并非“下一个浪潮”,拨款将倾向于那些看起来更容易出成果的项目。

1991年人们发现十年前日本人宏伟的“第五代工程”并没有实现。事实上其中一些目标,比如“与人展开交谈”,直到2010年也没有实现。与其他AI项目一样,期望比真正可能实现的要高得多。

现已年过半百的AI终于实现了它最初的一些目标。它已被成功地用在技术产业中,不过有时是在幕后。这些成就有的归功于计算机性能的提升,有的则是在高尚的科学责任感驱使下对特定的课题不断追求而获得的。不过,至少在商业领域里AI的声誉已经不如往昔了。

“实现人类水平的智能”这一最初的梦想曾在60年代令全世界的想象力为之着迷,其失败的原因至今仍众说纷纭。各种因素的合力将AI拆分为各自为战的几个子领域,有时候它们甚至会用新名词来掩饰“人工智能”这块被玷污的金字招牌。AI比以往的任何时候都更加谨慎,却也更加成功。

第一次让全世界感到计算机智能水平有了质的飞跃实在1966年,IBM的超级计算机深蓝大战人类国际象棋冠军卡斯伯罗夫,卡斯伯罗夫是世界上最富传奇色彩的国际象棋世界冠军,这次比赛最后以4:2比分战胜了深蓝。对于这次比赛媒体认为深蓝虽然输了比赛,但这毕竟是国际象棋上计算机第一次战胜世界冠军两局。时隔一年后,改进后的深蓝卷土重来,以3.5:2.5的比分战胜了斯伯罗夫。自从1997年以后,计算机下棋的本领越来越高,进步超过人的想象。到了现在,棋类游戏中计算机已经可以完败任何人类。

深蓝实际上收集了世界上百位国际大师的对弈棋谱,供计算机学习。这样一来,深蓝其实看到了名家们在各种局面下的走法。当然深蓝也会考虑卡斯伯罗夫可能采用的走法,对不同的状态给出可能性评估,然后根据对方下一步走法对盘面的影响,核实这些可能性的估计,找到一个最有利自己的状态,并走出这步棋。因此深蓝团队其实把一个机器智能问题变成了一个大数据和大量计算的问题。


IBM“深蓝”战胜国际象棋世界冠军

越来越多的AI研究者们开始开发和使用复杂的数学工具。人们广泛地认识到,许多AI需要解决的问题已经成为数学,经济学和运筹学领域的研究课题。数学语言的共享不仅使AI可以与其他学科展开更高层次的合作,而且使研究结果更易于评估和证明。AI已成为一门更严格的科学分支。

Judea Pearl发表于1988年的名著将概率论和决策理论引入AI。现已投入应用的新工具包括贝叶斯网络,隐马尔可夫模型,信息论,随机模型和经典优化理论。针对神经网络和进化算法等“计算智能”范式的精确数学描述也被发展出来。

从某种意义上讲,2005年是大数据元年,虽然大部分人感受不到数据带来的变化,但是一项科研成果却让全世界从事机器翻译的人感到震惊,那就是之前在机器翻译领域从来没有技术积累、不为人所知的Google,以巨大的优势打败了全世界所有机器翻译研究团队,一跃成为这个领域的领头羊。

就是Google花重金请到了当时世界上水平最高的机器翻译专家弗朗兹·奥科 (Franz Och)博士。奥科用了上万倍的数据来训练系统。量变的积累就导致了质变的发生。奥科能训练出一个六元模型,而当时大部分研究团队的数据量只够训练三元模型。简单地讲,一个 好的三元模型可以准确地构造英语句子中的短语和简单的句子成分之间的搭配,而六元模型则可以构造整个从句和复杂的句子成分之间的搭配,相当于将这些片段从一种语言到另一种语言直接对译过去了。不难想象,如果一个系统对大部分句子在很长的片段上直译,那么其准确性相比那些在词组单元做翻译的系统要准确得多。

如今在很多与“智能”有关的研究领域,比如图像识别和自然语言理解,如果所采用的方法无法利用数据量的优势,会被认为是落伍的。

数据驱动方法从20世纪70年代开始起步,在八九十年代得到缓慢但稳步的发展。进入21世纪后,由于互联网的出现,使得可用的数据量剧增,数据驱动方法的优势越来越明显,最终完成了从量变到质变的飞跃。如今很多需要类似人类智能才能做的事情,计算机已经可以胜任了,这得益于数据量的增加。

全世界各个领域数据不断向外扩展,渐渐形成了另外一个特点,那就是很多数据开始出现交叉,各个维度的数据从点和线渐渐连成了网,或者说,数据之间的关联性极大地增强,在这样的背景下,就出现了大数据。

大数据是一种思维方式的改变。现在的相比过去大了很多,量变带来了质变,思维方式、做事情的方法就应该和以往有所不同。这其实是帮助我们理解大数据概念的一把钥匙。在有大数据之前,计算机并不擅长解决需要人类智能来解决的问题,但是今天这些问题换个思路就可以解决了,其核心就是变智能问题为数据问题。由此,全世界开始了新的一轮技术革命——智能革命。

建议购买正版书籍,如需试读电子版本,请在公众号回复:”智能时代“


版权归作者所有,转载请注明出处

11 月 8-9 日,CSDN 和 Camp 联合举办的AI开发者大会在京举行。领英(LinkedIn)人工智能研发总监张梁发表了《AI 在大规模招聘求职上的应用》的主题演讲,并接受了 AI科技大本营的专访。

张梁在分享中表示,人工智能于领英而言是氧气般的存在,是所有体验的 DNA,贯穿其社交联系、职位推荐、智能问答等多个应用。

目前,领英在全球已有 5 亿 9000 万用户,其中中国用户 4400 万,如何利用和人工智能技术来为数亿的求职者和招聘者提供高效服务?这篇文章将为你揭秘。

作为在领英工作六年的开发者和程序员,今天我想和大家分享领英这一全球最大的职场社交平台在世界做了什么,在中国做了什么,以及人工智能技术在领英如何被应用,我们是如何通过人工智能来解决诸多问题的。

目前,领英在全球有 5 亿 9000 万用户、3000 万家、2000 万个工作,这是领英的全球经济图谱。领英致力于连接全球职场人士,并协助他们事半功倍,发挥所长。我们希望连接全世界的同行,为他们提供更多的职业发展机会。

在中国,我们有 4400 万用户,领英中国的商业和各方面都发展得非常迅速。

人工智能——领英的“氧气”

人工智能是领英所有用户体验的 DNA,它就像是领英的氧气,是我们一切工作的驱动力,我们将人工智能技术应用到了领英所有的产品中。在恰当的时间、恰当的地点给恰当的用户推荐恰当的内容,这是领英人工智能研发部门的使命。

我们很多产品都深入地应用了人工智能,比如你所认识的人、我们主页上的内容、职位推荐、搜索、为招聘专员和销售专员专门定制的产品……

目前,每天领英平台上被处理的数据达到了 2PB 的规模,领英的模型动辄拥有上十亿甚至上百亿个参数,每个星期都会有上百个 AB 在线测试在运行,由此可见,领英 AI 体量是非常庞大的。那么如何在这样一个大规模的计算平台上、在几百毫秒延迟的范围内,提升用户的使用体验呢?这是一个很大的挑战。

职位推荐是领英的主打产品。那么在这方面,我们是如何应用人工智能来解决具体的技术问题呢?

用户在领英上传个人简历,平台会推荐适合求职者的工作职位,但首先,领英需要了解你的背景,从哪个学校毕业,在哪些公司工作过,拥有哪些技能……根据以上,我们可以预测哪些工作可能比较适合求职者。领英做的第一步是建立知识图谱和研发针对自然语言的标准化技术。我们针对每位用户的简历,使用基于模型的标准化技术来实现信息抓取,比如 LSTM, CNN 等等。对于工作职位,我们也做了同样的事情。

六七年前,我们的职位推荐一开始做的是做线性模型,比如说求职者是一个工程师,我们就会推荐一个软件工程师的职位。但后来我们发现,根据用户简历和工作职位的描述来做推荐,不一定能够完全实现个性化,我们还希望根据用户之前的职位申请,为他推荐更多类似的职位,我们将其称之为深度的个性化。我们因而研发了 Generalized xed Model(GLMix),针对每个用户和每个职位建立一个单独为他们服务的模型,这样使得我们模型的参数量达到了上百亿的规模。同时也成功地把职位申请的数量提高了 30%。领英中国团队把这个模型用在中国的数据上,又将职位申请的数量额外提高了 11%。

进一步地,我们建立了一个 Deep&Wide 的模型,其中整合了深度学习,树状结构模型,以及 GLMix,我们发现这个模型的效果非常好,也极大地提升了领英的用户体验。为了实时更新上百亿的模型参数以及在毫秒级别内满足用户的职位推荐需求,领英搭建了大规模运算平台来实现人工智能模型的技术。这个平台包括线下和线上两个模块:线下模块自动收集用户的反馈、基于 Spark 自动训练,之后把模型结果和参数上传到线上。线上我们使用自己的实时数据传输和搜索引擎技术来实现低延迟的模型运算。并且,领英专门研发了一个叫做 Pro-ML 的“人工智能自动化”系统,为所有工程团队集中管理特征和机器学习模型。这一系统为机器学习模型的整个开发、培训、部署、提供单一化平台,已经极大加快了领英开发及上线新产品的速度。

我们在职位推荐方面也遇到过一些有意思的问题。下图说的是一个边际收益递减的例子,比如我是一个招聘专员,刚刚发布了一个工作到网上,那么我收到的第一份申请是最有价值的,因为我之前一个申请都没有收到。但等到第 100 个人申请的时候,这个边际价值就不一定比以前多了,因为 100 到 101 和从 0 到 1 完全不是一回事。等到有上万个工作申请的时候,可能反馈就是,我们不小心收了 1 万份简历,我们看不过来,可能最后也就能看前 100 个。

这时就体现了一个问题,我们不应只从求职者的角度去考虑问题,也要考虑招聘者的思维。因为招聘的成功率体现了平台的价值,如果现在这个平台上面有几千万个工作,可能 1% 的工作是 Google,Facebook,百度,小米,京东这些最知名的公司,他们收的简历数量非常大,但也有一些公司收集的简历可能没有那么多,或者完全没有,那么这个平台价值对他们就没有体现出来。为什么没有体现出来呢?因为我们这个平台的目的是为了服务全世界所有的公司,是希望所有的人能够找到他们合适的工作。并且,对于这些大公司来说,每个职位发出去,收到的上万个简历中可能只能有时间看前 100 个,这也是浪费社会资源的一种表现。

所以在领英的平台上做职位推荐,我们有几点要注意:第一,我们要保证每个人都能找到适合的工作,第二,我们要保证每一份工作不会收到太多、或太少的申请,我们要从整个产品的体验以及整个平台的效率去考虑这个问题。

在经济学上,这是一个市场效率优化的问题。这个市场有三方角色,第一方是找工作的,申请越多机会相对来说就会越大;第二方是招聘专员,他们希望每一个工作职位发出去,有足够多的人申请,但也不能太泛滥,最好是人选恰好就是想找的那一位;第三方就是领英这个平台,这个平台想要通过这个职位推荐的市场得到收入。那么如何把这三方的利益综合起来考虑,达到市场效率的最优化,建立市场长期发展的生态,这本身就是一个很难的问题,这也是我们这一两年内一直在做的事情。

我们在 2016 年的 KDD 有一篇论文,谈的就是如何平衡这三方需求。我们可以做到在不影响用户体验的前提下,让工作职位的申请数量更加均匀。如果用熵(entropy)来度量每个职位申请数量的均匀度的话,这个方法使得熵增加了 12%。

领英在智能问答领域的探索

智能问答在领英有很多可能的应用。比如刚才招聘这个案例,就可以做一个智能问答系统:求职者来让我推荐工作,招聘方想了解适合某一职位在某一地区符合资格的人数,这些都是很有价值的问题,我们希望将来能够有这样一个智能问答系统,可以服务于领英平台上的所有用户。

原则上,智能问答系统的开发通常分为四步:第一,首先要做自然语言的处理;第二,对于对话实时信息的跟踪;第三,根据现在已知的信息和对具体问题的理解,能够知道下一步要做什么;第四,根据下一步要做的,将它转换成自然语言,给出一个回答。

在领英公司的内部,每天会很多人来问数据科学家关于领英数据的问题,为了让这一过程更加自动化,同时减轻数据科学家们的负担,我们希望通过制造一个机器人来自动回答这样的问题。我们给这个机器人取名叫做安娜(Analycs Bot)。

Ana 现在的主要功能有两个,第一是回答关于某个具体数据指标的定义。比如,领英内部有一个数据指标叫 contributor,即每天主页上有多少人分享,多少人评论等等,如果用户问 contributor 是什么,Ana 就能够给出回答。第二个功能是某个数据指标在某几个维度上的数值。比如领英主页过去 7 天有多少中国用户访问,Ana 就会把这个问题自动转化为 SQL 的语句来查询我们内部的,然后给出答案。

领英中国目前有 4400 万用户,在领英全球近 6 亿用户中占了很大比重。领英中国很重要的一个使命就是,希望能够通过我们这个全球最大的职场社交网络,将职场人士,例如中国的 AI 开发者和全球的 AI 开发者联系起来,我们一直致力于实现这个宏伟的使命和愿景。

另外,在中国北京和美国硅谷的 Sunnyvale,领英有一个 60 人的国际研发团队,这个团队有 20 余名成员常驻硅谷,实时分享总部产品计划和资源,有超过 40 名成员常驻北京,专攻适合本地会员的产品与服务。这两地团队的工作无缝衔接,交换互通,保证在紧跟全球趋势的同时,高效实现产品本地化。

值得强调的是,在领英,我们有四分之一的工程师是女性,我们非常重视多元、包容、归属感,这个本身也是领英的一大特色和优势。我们鼓励员工平衡工作和生活,将优秀的工程师文化和前沿的全球视角带入国内;我们支持员工学习和深造,通过主办Learning InDay 等企业文化活动,鼓励员工提升更广泛的技能、开拓更广阔的自我发展空间。

AI科技大本营:您目前在领英主要负责什么业务?可以简单介绍一下您目前的工作内容吗?

张梁:目前,我担任领英主页搜索业务负责人和领英人工智能研发总监。在过去的 6 年中,我负责研发了公司诸多重要的人工智能项目,主要聚焦于将尖端人工智能技术大规模地应用在面向用户的互联网产品中,努力提升领英全球超过 5.9 亿会员的使用体验。

此外,我的工作还涵盖了领英众多关键产品的用户体验优化,包括广告、搜索、主页、工作推荐、电邮及短信推送。

AI科技大本营:领英的人工智能技术体系是怎样搭建的?如何保证高效、敏捷的研发?

张梁:领英正在建立一个“人工智能自动化”体系,通过该体系可以管理公司每一个组的功能和模型。具体来说,每个人工智能系统都只可利用特定类型的数据,这种限制是由模型中内置的 "功能" 所决定的。这些功能描述了我们认为可能有助于提出更好建议的各种信息。例如,你的职位头衔可以作为一个特征,利用它来匹配未来的新工作机会。我们的专家和A/B测试框架教给人工智能系统如何使用这些特征,根据已有数据来推送更适合的推荐信息,例如使用“实习生”职位的用户更关注初级开发工程师信息,而非高级开发工程师。这项工作非常耗时。

在领英,我们为多项产品开发了数百个模型及数十万个特征。我们由此建立了名为 Pro-ML 的“人工智能自动化”平台,通过单独一个系统为所有工程团队集中管理特征和机器学习模型。这一系统为机器学习模型的整个开发、培训、部署、测试提供单一化平台,加快领英开发及上线新产品的速度。

AI科技大本营:人才解决方案、营销解决方案、高级用户订阅……目前领英的核心产品中,人工智能在其中分别有哪些应用?

张梁:在领英,人工智能就像是氧气,存在于我们构建的每一款产品、我们平台的每一种体验中。

我们并非随机选择在某项功能中使用人工智能,而是从整个平台的角度来考量如何布局。这样不仅会保证规范化,更能提供整体连贯的人工智能体验。

在领英,人工智能随处可见,人工智能正在逐步渗透到用户体验的方方面面。人工智能帮助个人用户建立社交联系、求职、学习,帮助企业用户提升广告效果、精准招人。

一些公司将人工智能视作对特定经验的优化,而领英则在产品设计之初便引入了人工智能和机器学习专家,领英计划未来将人工智能应用到更多体系中。

人工智能在领英上的具体应用非常广泛,比如:

社交联系:领英推荐用户与相关适合的人建立联系,这个是基于“您可能认识的人”(People You May Know)这一功能,纯机器主导的建议帮助用户对接适合的联系人。

内容推送:利用人工智能给用户推送与其相关、对其有用的内容;人工智能使领英上文章推送的数量增加了10%-20%;借助机器学习,运用大规模线性程序减少用户收到无用邮件和通知的数量。

广告投放:利用人工智能将广告投放给最相关的用户,通过分析会员的喜好、点击和访问活动等属性找到适合的人群,提高销售的投资回报率;通过人工智能为销售人员扩大目标受众数量,找到更多拥有类似背景的目标对象。

招聘:招聘人员在为某一特定职位寻找候选人时,收到的站内推荐都是基于人工智能和机器学习产生;通过人工智能改善产品功能,使得HR在招聘时收到的站内信回复比率提高了45%。

求职:利用人工智能提升“可能感兴趣的工作”(Jobs You May Be Inrested In)这一功能的个性化程度,使得领英上用户工作申请的数量提升了 30%;用户在申请工作的过程中缺少某种对应技能,领英会向用户推荐最合适的学习课程,这里涉及的搜索和推荐功能很大程度上依赖人工智能;利用层次贝叶斯模型推断薪酬。

AI科技大本营:在人工智能领域,领英与哪些企业开展过合作?

张梁:我们和世界上很多著名的科技公司都开展过合作。例如,我们将著名的数据推送系统 Kafka 作为管理领英所有信息的“中央神经系统”。在深度学习流程中广泛地使用了谷歌打造的 。我们在数据处理中广泛使用 Spark 和 Scala,在数据分析中使用 g 和 Hive。我们还与微软开展合作,从而利用 Azure 云平台上的人工智能服务。领英会采用微软文本分析 API 对推送内容进行动态翻译。

AI科技大本营:领英的人工智能应用收获了哪些成效?

张梁:领英的人工智能系统为那些正在找工作的会员提供了极大的帮助。自领英上线了一个新的为会员推送“可能感兴趣的职位”的个性化人工智能模型之后,工作职位申请数量随之增长了 30%。

领英同时为会员和招聘专员提供了很多人工智能技术驱动下的用户体验优化和产品更新,从而使工作职位申请量实现了 40% 的年度增长。

通过利用人工智能改进的领英招聘解决方案已经使招聘站内信的回复率提高了 45%,同时还减少了我们向会员短信推送的数量。

人工智能成功地优化了领英主页上会员的文章阅读体验,文章的点击率提高了 10% - 20%。

AI科技大本营:领英是如何管理海量数据,并从中挖掘价值的?

张梁:在领英,我们拥有高度结构化的数据集,这是我们的优势所在。

我们将数据应用于:为用户推荐新技能、新培训课程和新职位;协助招聘人员找到合适的人选;让求职者找到合适的工作;推荐精准的广告;向用户推送他们感兴趣的消息和内容。

具体来看,我们应用超过 10 亿个数据点(职位、技能、公司、会员等等)来构建领英知识图谱。这些图谱中形成超过 500 亿个关系纽带,我们以此来开发相应的推荐系统。这些标准化数据在领英模型和产品中得到应用,为客户和会员定制他们每一步的使用体验。(从“您可能感兴趣的招聘”、“招聘者”到为会员推荐信息流内容)。

此外,数据将助力公司愿景的实现:我们使用这些数据来构造我们的“经济图谱”——即人、技能和职位之间的联系。

我们与处理类似问题的其他公司的区别在于,我们采用“会员为先”的人工智能算法;一般公司将人工智能视为对现有体验的优化。但我们在最初的产品设计过程中就让人工智能和机器学习专家参与进来。

没有很多公司从会员所观所感的方方面面去考虑问题,而在领英,我们希望通过人工智能,为会员在领英上的所有互动提供个性化体验,而不是仅考虑某一刻TA的互动操作。这在复杂系统设计中经常会被忽略,最终很可能仅仅优化了本地操作,而不是全球性的优化。

AI科技大本营:大数据、机器学习在领英都有哪些应用?如何做到真正的数据驱动?

张梁:我们已经进入了大数据时代,利用人工智能对数据加以分析得到对环境和业务全面的洞察,引发新一轮产业革命。领英始终致力于利用人工智能、机器学习等新科技,对数据加以研究和测算,为个人会员、企业客户和社会提供洞察,最终实现领英的愿景:为全球 30 亿劳动力的每一位创造经济机会。

人工智能有各种分支,机器学习是其中之一,还包括搜索、本体管理和创建、常识和推论、模式识别、统计推断等。我们使用机器学习作为解决一系列问题的。

深度学习是机器学习的一个流行分支,它使用人工来解决问题。领英采用多种方式应用深度学习和神经网络。

举例来说,我们将这两种工具配合线性文本分类器一起使用,在信息流创建之初便检测其中的垃圾邮件或恶意内容;我们还使用神经网络来帮助理解领英上被分享的各种内容(从新闻报道、职位到在线课程),以便为会员和客户提供更精准的推荐和搜索产品;最近,我们使用了“序列到序列学习”这一复杂的深度学习方法,进一步优化会员体验,例如显示相关搜索项,以及对领英上留言的智能回复等。

AI科技大本营:很多人认为人工智能是不需要人力投入的自动化流程,真的是这样吗?

张梁:实际上并非如此。我们人工智能系统中所使用的非常多的数据,以及人工智能系统的部署方式都依赖于人力的投入。以领英档案数据为例,几乎所有会员数据都是由会员自己自行输入的。因此,同一个职位在一家公司可能称为“资深软件工程师”,而在另一家公司则称为“研发负责人”。汇总上百万份会员档案后,你会发现,在职位名称错综复杂的情况下为招聘者提供良好的搜索体验是一件极具挑战的事情。将数据标准化成人工智能系统可以理解的形式是打造良好搜索体验非常重要的第一步,而这一过程需要人工和机器的共同努力。

我们的分类学家创建了职位分类体系,然后采用机器学习模型(LSTM 模型、其他神经网络等等)进一步将大量职位进行关联。了解这些关联后,我们就可以进一步推断出每名会员在档案内容之外具备的深层次技能;例如,具有“机器学习”技能的会员同时也了解“人工智能”。这就是构建领英知识图谱分类和关联体系的一个实例。从这里可以看出,我们的人工智能方法既不是彻底的机器驱动,也不是彻底的人工驱动,而是二者的结合。我们认为,机器和人工密切协作才是最好的解决方案。

AI科技大本营:您认为领英人工智能的未来发展方向在哪里?

张梁:为全球 30 亿劳动力中的每一位都创造经济机会”这是领英的愿景,也暗含了领英人工智能的未来发展方向。领英利用数据来实现这一愿景,我们正在利用人工智能分析各种数据趋势、与各大研究机构合作获取匿名数据进行分析,希望能够了解数据规律,不断提升信息的利用效率,从而扩大全球就业机会。

我相信,未来人工智能这一重要工具将极大地提高人类在面临重大问题时的能力,并且长远来看,它将协助实现人类经济成果的转型。人工智能将极大促进人类使用资源的能力,从而提高世界的整体效率。

我要回帖

更多关于 简述大数据与人工智能的应用前景 的文章

 

随机推荐