9级Watson问道羽化任务怎么过过

IBM沃森Watson答题过程全揭秘
发表于 11:34|
摘要:看到watson在Jeopardy!预赛中的惊人表现,你是否曾经想过,从watson看懂问题到给出答案,这个过程到底是怎么样的呢?难道watson真的和人类一样,拥有了思考问题的能力?还是说watson仅仅是比
看到watson在Jeopardy!预赛中的惊人表现,你是否曾经想过,从watson看懂问题到给出答案,这个过程到底是怎么样的呢?难道watson真的和人类一样,拥有了思考问题的能力?还是说watson仅仅是比Google优秀一点的搜索引擎而已呢?
现在果壳网就以他回答的第一个问题为例,给大家解说一下watson工作的全过程。
主持人:Ken你站在1号位置,请选择问题。
Ken:在电视节目上选这个我有点紧张&&&美女挖起我*&,200美元。
*注:Chicks Dig Me,意为关于女考古学家的问题。
题目出现在大屏幕上,同时主持人开始大声念出这个问题&&
Kathleen Kenyon&s excavation of this city mentioned in Joshua shows that the walls had been repaired 17 times.
然后waston就开始行动了!
看问题&&识别问题的文字
Watson通过摄像头拍下屏幕上的文字,然后进行光学识别,得到以文字而不是图像形式存储的题目文本:
Kathleen Kenyon对这个在Joshua中提到的城市的发掘表明,该城的城墙曾被修复17次。
理解问题&&提取文字中的专有名词等基本信息
最先需要提取的基本信息包括人名、地名、时间等。Waston将它们提取出来后, 和数据库进行对比,然后对结果打上知识分类标签。
在此题中,Watson看完问题后要做的第一件事情就是提取题目当中所有首字母大写的词,并在自己的数据库里进行搜索,搜索任务会被watson拆分成单独的任务并下派给每一个处理器线程。
题中一共出现了三个首字母大写的名词,其中Kathleen Kenyon这两个词连在一起。所以watson一共会下发4个搜索任务:分别在数据库中搜索Kathleen,Kenyon,Kathleen Kenyon以及Joshua。
搜索结果如下:
人名/大学名/城市名
Kathleen Kenyon
考古学家 女性
书(章节)名/人名
《圣经&约书亚记》
分析问题&&提取文字结构上的信息,如词性和由动作连接的相关关系等
由于搜索的专有名词常常不只一个标签,所以接下来,watson需要再通过题中给出的其它词语的性质和关系,帮助筛选这些专有名词,得到它们更精确的含义。
Watson在这一步要对每一个词以及它附近的词进行搜索,工作量非常大。但通过运用连词、副词和语句结构等等信息可以减少很多冗余的搜索。
比如mentioned,shows,had,been,repaired这5个词都有成为谓语动词的可能。进行数据对比后发现,had和been只是repaired的时态,所以备选动词减少到了3个。又根据that前后的词,判断出这是一个从句,则repaired退出竞争。最后,根据mentioned in Joshua这个短语判断出mentioned也不是整个句子的谓语动词。于是得出题目的语法结构:主谓宾结构,并且&shows&就是谓语。
同时不可忽视的一点是,Jeopardy的问题都是陈述句,是对答案进行的一种描述。因此通过关键词this city,答案应该是一座城市。
再者题目分类为&美女挖起我&,而题干中只有Kathleen Kenyon是女性考古学家,于是判断真正有意义的名词应该就是Kathleen Kenyon(以下简称KK)。
Mentioned in Joshua 说明答案应该在Joshua中提到过,结合它的分类标签可以判断Joshua应该是一本书而不是一个人。
此外,通过这一步,watson还会获得题目中的一般信息和答案之间的关系。比如:
KK&s excavation of this city. KK在答案城市做过考古发掘工作
the walls had been repaired 17 times 答案城市的城墙被修复过17次
KK &&shows&&17times 城墙被修复过17次这一信息,是从KK的发掘中发现的
在这一步中,每一个问题会被分解为若干子问题来解决。如果不能直接得到某个子问题的答案,则该问题又会被分解为若干子问题进行解决;有时候甚至需要引入新的问题来得到某个问题的答案。直到获得所有答案为止。
这是一种&扇出&的结构,可以理解为&分而治之&的策略。此外,每一次问题分割可能都有几种不同的方法,那么watson会同时尝试所有不同的分法。实际上一个包含二十个词的普通问题可能会最终被分解为上万个子问题。
解答问题&&搜索自身存储的结构数据和非结构数据
由于题中得到了&KK在答案城市做过考古发掘工作&这一信息,所以watson将会搜索自身数据库中KK的资料(由于已经组织成一定的结构,所以称为结构数据),看看能不能找到相关信息。如下表所示Kathleen Kenyon的资料:&
在年发掘过耶利哥(Jericho)城。在年发掘过耶路撒冷(Jerusalem)城。
此外,Watson存储了海量的百科全书、论文文献等等以文章方式存储的资料,它们之中也会有相关的信息。但由于这些资料没有经过整理和组织(称为非结构数据),所以watson必须通过非常费力的文本搜索来取得信息。这个过程中又会用到前面用过的提取专有名词、词性、文本结构等方式。
由&答案城市在《圣经&约书亚记(Joshua)》中提到过&这一线索可知,搜索《约书亚记》全文并判断哪些名词是城市的名字是必须的。此外,KK曾经发表过的考古学论文也应该在搜索范围之列。
《约书亚记》中提到至少3个城市,耶路撒冷、耶利哥、拉吉。当然某篇KK发表的论文中也许提到了,耶利哥的城墙曾被修复17次。
分析双关信息的可能性
由于人类语言的模糊性和二义性,通常watson需要分析题目的题外之意来进一步增加理解的正确性。这通常也是依赖于和数据库中预存的、可能带有二义性的表达语库进行对比来实现的。这一步最难,也是watson最没有信心的一步。
幸运的是,在这个题目中并无双关信息。
判断各个答案的正确可能性
Watson运用上百种算法对可能的答案进行评估,包括答案的类别、性质是否正确,答案涉及的时间、地点是否正确,词性、语法结构是否符合要求等等。
《约书亚记》中提到的所有城市就是备选答案库。它至少提到了耶利哥、耶路撒冷、拉吉这三个城市,相关资料如下:
KK曾经发掘过耶利哥。KK在某个文献中提到了耶利哥的城墙曾被修复17次
KK曾经发掘过耶路撒冷。
找到KK发掘过拉吉的记录。
Watson产生的判断结果:
耶利哥(Jericho):97%
耶路撒冷(Jerusalem):42%
拉吉(Lachish):7%
正确度最高的答案,若正确度高于51% 就发出信号驱动执行器,按下按键。
不知大家是否注意到了,watson所在的位置,答题按钮的上方有一个专门用于按键的装置。即使是超级计算机,也需要在物理世界按下按键才能答题!这应该是Jeopardy!制作人提出的要求。
耶利哥的正确度高达97%,高于51%。所以在主持人结束问题描述的一瞬间,watson就发出了一个信号给按键装置,按下蜂鸣器的开关,抢到了答题权。
回答问题&&语音合成,发出问题格式的语音
由于Jeopardy!的游戏规则是题干以答案形式给出,而答案反要以问题形式给出。所以watson需要用&What is XXX&或者&Who is XXX&之类的格式来回答问题。
Watson判断了一下,耶利哥在此处是个地名而不是人名,所以答案应该是&What is Jericho ?&。然后,watson只需要一个语音合成引擎将这个答案的文本转换成语音并播放出来就可以了。
推荐阅读相关主题:
网友评论有(0)
CSDN官方微信
扫描二维码,向CSDN吐槽
微信号:CSDNnews
相关热门文章Watson的小宇宙是怎么爆发的? | 科学人 | 果壳网 科技有意思
Watson的小宇宙是怎么爆发的?
本文作者:Yan
我们知道,Watson呢它不能上网,所以它答题时只能依靠由IBM工程师事先导入的知识库。这个知识库虽庞大却并不能成为Watson的优势,因为它的两位人类对手那也是学富五车的主。那么Watson到底特别在哪呢?它的速度!确切的说是它分析英语会话里隐藏的线索,并依靠自身的分析引擎由线索推出答案的速度。
Watson的答题过程是怎样的?我们在之前
一文中已经举例详细分析了这个问题,这里不再赘述。概括来说,当Watson得到了带有线索的电子文本,它将运行一些列复杂的算法对其进行分析,挑出关键词以及它们之间的关系和句法结构。然后,Watson就根据这些关键词开始进行联想,从而产生或者排除一些可能的答案。这时,之前相同类型题目的答案和相关线索都会被参考。
答题过程虽复杂吧,但其实Watson表面的反应还挺简单的。你看图中这个代表Watson头像的发光的小宇宙,Waston在攻克题目时它会不停地转动,Waston“思考”得越辛苦这小宇宙就转动得越快。当Waston答错题的时候呢,头像将会变换颜色并变暗淡,用信号表达自己的羞愧感。
另外,你一定可以想象——Watson肯定是三位选手中最有风度最镇定,答题最冷静最有条理的一个,因为它压根不知道什么叫做压力和慌张。当它第一个抢答到问题,节目将会显示Watson得出的前三个备选答案,以及它对每个答案的自信程度。然后Watson将选择自信程度最高的那个并以流利的英语作答。
但即使Watson知识多速度快,它也不过是在做高级一点的“反射”罢了。有的时候这种反射却连我们普通人的常识都达不到。
举个例子,有次的题目是关于奥林匹克的怪异事件(Olympic Oddities)的,答案是一个身体有缺陷的体操运动员。Watson的对手之一Ken Jennings回答“手臂”结果错了。Watson说出了正确答案——“腿”,但主持人宣布它的答案不对,因为Watson并未说明这个体操运动员的腿没了。
IBM-Watson项目的经理David Ferrucci解释道,Jeopardy!涵盖的知识领域太过广阔,以至于他们对于很多知识只能进行模糊地分类。在这种情况下,Watson很可能没法理解什么叫做“怪异的事件”。计算机又怎么会知道少了条腿要比其他事情都要古怪呢?
相信在不远的未来,通过读更多材料玩更多次游戏,Watson的理解能力会进一步加强。(但即使到了那天,也许它也没法理解其实自己就是就是一 Computer Oddity……)
你可能感兴趣
24道题 红果果的公务员考题 这个机器人是中国的公务员么,。
我觉得Watson还挺萌的~~
数学/化学爱好者
还有个问题隔壁同学抢答错误之后轮到watson回答时他的答案就是前面那个错误答案。。。换了是人的话肯定不会的。。
我想知道楼上的都是在哪里看的!!!
软件工程师
我其实很羡慕那两个冠军,靠智慧拿了那么多钱~
引用 林云 的回应:我想知道楼上的都是在哪里看的!!!微博直播有说,现在也有录像了
看录像时我还没反映过来题目神马意思watson就答了...
引用 林云 的回应:我想知道楼上的都是在哪里看的!!!
那声音蛮好听的 不想电子声
录音爱好者,万有青年养成计划入围选手
核心的问题:数据库+电路,能导致自我意识的觉醒么……
Watson肯定是三位选手中最有风度最镇定,答题最冷静最有条理的一个,因为它压根不知道什么叫做压力和慌张。
让它当搜索引擎咋样?
翻译爱好者,MOOC学习者
好萌的watson~
引用 Ekoms 的回应:还有个问题隔壁同学抢答错误之后轮到watson回答时他的答案就是前面那个错误答案。。。换了是人的话肯定不会的。。1920s的那个,隔壁同学说的是what is 20s结果错了,Watson就没绕出来,回答what is 1920s.Watson离人类想象中的机器人还是差太远了,不过当搜索引擎用肯定超棒。
哈哈,这个我也看到了。太好玩儿了!引用 Ekoms 的回应:还有个问题隔壁同学抢答错误之后轮到watson回答时他的答案就是前面那个错误答案。。。换了是人的话肯定不会的。。
引用 J.f 的回应:那声音蛮好听的 不想电子声语音合成早就已经很象真人啦
软件工程专业,软件工程师
AI确实是将来的给力方向,不过目前还是算了吧,没这精力学了。
引用 林云 的回应:我想知道楼上的都是在哪里看的!!!那是第一天的时候的了,早就有视频出来了啊~
引用 Metaverse 的回应:核心的问题:数据库+电路,能导致自我意识的觉醒么……不能- -
人类那么多黑毛竟不及它五根蓝毛,杯具了
显示所有评论
(C)2017果壳网&&&&京ICP证100430号&&&&京网文[-239号&&&&新出发京零字东150005号&&&&
违法和不良信息举报邮箱:&&&&举报电话:后使用快捷导航没有帐号?
只需一步,快速开始
查看: 2253|回复: 5
高级管理, 积分 571, 距离下一级还需 179 积分
之前看到的面经是说,英文提问Why TW/consulting/T&R? 然后中文问题问一些其他的,结果准备了一堆,然后果断坑爹了?
先是中文问了一堆为什么选这里,为什么做咨询,为什么这个职位……尼玛,然后是沟通的经理什么的。
最后问了几个一般般的英文问题,完全和准备反过来了……
我电话用时43分钟,希望大家加油。
职员, 积分 39, 距离下一级还需 81 积分
请问lz选择面试时间的时候供选的time slots是周几到周几呀?我既没收到面试通知邮件也没收到waiting listed邮件。不知道是不是被安排在下周了。
职员, 积分 39, 距离下一级还需 81 积分
请问lz选择面试时间时供选的time slots是周几到周几呀?
高级管理, 积分 571, 距离下一级还需 179 积分
请问lz选择面试时间时供选的time slots是周几到周几呀?
我昨天收到的邮件,只能选择这周六和周日
项目经理, 积分 127, 距离下一级还需 123 积分
dddddddddddddd
项目经理, 积分 224, 距离下一级还需 26 积分
站长推荐 /1
Powered by

我要回帖

更多关于 问道羽化任务怎么过 的文章

 

随机推荐