人工智能好学吗?

有多少智能,背后就有多少人工。

“抬头是山,低头是煤。”曾在山西传统煤矿工作8年, 整天盯在电脑屏幕前监测矿井瓦斯浓度的郭梅从来没有想过,有一天自己的工作会和人工智能有了联系。

两年前,因为孩子来省会城市太原上学,郭梅在附近求职,做起了数据标注。同样是盯在电脑屏幕前,现在郭梅每天的工作是给图片、文本或者声音进行标注,再把它们交给机器训练和学习。从一开始每天只能标注两三百张,到现在的日均完成1300多张,郭梅按件计酬的收入逐渐提升,已高于当地平均收入水平。

人工智能行业里有句话:有多少智能,背后就有多少人工。像郭梅一样,AI数据标注师成为了随着人工智能发展而出现的新兴就业岗位。2020年2月,“人工智能训练师”正式成为新职业并纳入国家职业分类目录。

他们被称为人工智能背后的人。数据采集和标注是他们的主要工作,目的就是要教会AI认识数据,转化成AI能消化和吸收的“语言”。有了足够多、足够好的数据,AI才能够学会像人类一样去感知、思考和决策,更好地为人类服务。

这项工作看起来简单枯燥,但意义非常。“就像一台车没有汽油走不了,数据就是人工智能发展的燃料。有了我们的数据,机器(算法)不断迭代,就能推动人工智能往更好的方向发展。” 从事数据标注的山西麟诺公司总经理李应维对第一财经表示。

“从没想过做人工智能”

20出头的李宇龙从未亲眼见过自动驾驶汽车,但他的工作却和自动驾驶的AI算法息息相关。

他曾经在生产电子类产品的工厂工作,转做AI数据标注后,老板交给他的第一个项目就是“车道线打点”。

简单来说,就是给无人驾驶进行车道线标注。当无人车行驶到一段路时,会自动连续拍摄图片,李宇龙要做的,就是对图片上车辆所行驶的车道旁边两侧的线进行标注,识别虚线还是实线,匹配所对应的属性,从而告诉人工智能遇到虚线时车辆可以进行变道,实线不可以进行变道。

 当时的李宇龙,还不知道数据标注师到底是什么,更对人工智能没有具体概念,老板只交给他一套规则,让他按照规则在电脑上认车道线。好学的他在短时间内就掌握了规则和难点,总结出了标注车道的规律。

他把自己的工作比作“幼教“,当他拿出一个红苹果给机器并教会它识别,再拿一个绿苹果给它时,因为颜色差异,机器就无法认出了。李宇龙的工作就是不断地帮助机器识别不同的颜色、大小,甚至是被咬了一口的苹果或是坏苹果,直到随便拿出一个苹果,它都能认出来。

李宇龙告诉第一财经记者,数据标注的工作是“按件计酬”,他的日均收入在300元左右。数据显示,2019年,太原市的城镇居民全年人均可支配收入36362元。他说,自己的工资水平在整个基地标注师日均收入中处于中等水平,“据我了解,有人日均收入甚至能破千。”

对于自己的工作,李宇龙说,刚开始接触时,只把它看做一个重复性的工作,并没有想太多。直到后来接触项目多了,涉及的领域包括教育、安防、金融、交通医疗和电商等,每天都在挑战学习能力,也会想要更深入了解自己标注的内容可以应用到的行业。 虽然还没有坐过无人车,但他说,现在看到无人驾驶的时候,会想到这里面也包含了自己的标注成果。

像李宇龙、郭梅的工作一样,第一财经记者看到,在每一间数据标注的办公室里,都是类似的工作场景:一排排电脑屏幕前,年轻的数据标注师根据各自分配的任务,对文本、图片、语音和视频做标记、标重点、打标签、框对象、做注释等方式对数据集作出标注,他们可能在为无人车标注车道线、红绿灯,也可能是在为肺部影像标注病毒数据。

以人脸为例,目前能实现对约150个特征点的标注。疫情期间,采集大量的戴口罩的人脸照片后,数据标注师对人脸的眉毛、眼镜、颧骨等人脸关键点进行精准标注,标注特征点越多,AI就越能精确识别出戴口罩场景下的人脸。最终实现即使不摘口罩,也能精确测量体温,或是通过人脸闸机。

是不是“AI富士康”?

数据标注产业促进了不少城镇和农村就业,在河南、河北、贵州等地,还出现了一些特色的“数据标注村”。

据IDC统计,全球每年生产的数据量将从2016年的。

随着深度学习算法的发展以及数据量和硬件资源的提升,人工智能在教育方面的应用也越来越多,就介绍一些目前已经开始应用在教育方面的一些人工智能技术

这个也许大家都听过,好像这段时间关于这个的广告也挺多的,我就以这个为例说说他们应用了哪些人工智能技术

通过拍照就直接能够找到相应题目的解答,主要是利用了计算机视觉技术,识别出题目中的文字信息然后再去搜索相应的解析,这里面应该还有自然语言处理技术,这样可以让计算机更好的理解题目,找到匹配度更高的解答。

通过拍照让程序自动批改作业,这样可以大大提高教师的工作效率,减轻老师的工作压力。这里主要还是计算机视觉技术,识别出题目和解答的信息,然后再判断答案是否正确

用过这个APP的也许都知道,里面有一个测你的发音准确的功能,读一段话之后系统就会给你反馈一个评分,还是指出部分发音有问题的地方,这里主要就利用语音识别技术

随着人工智能技术的发展,我相信这样的应用会越来越多,越来越普遍。这里我说说几个我的想法

  • 实时监测学生的学习情况

通过系统实时监控学生上课的动作表情等,监测到上课走神不认真听课玩手机睡觉等情况,将这些信息实时反馈到老师,让老师来提醒这些学生认真听课。

上大学的时候,有时候老师会点名签到,如果全部都点就需要很多时间,只点部分人就会有漏网之鱼,点名都会造成一定上课时间的浪费,如果通过人脸识别技术自动识别出没来上课的学生,就能提高签到的效率,节省上课时间。

这里我只是简单介绍了我的一些想法,相信以后会有越来越多这样技术的应用。




首先老师的工作压力降低,比如出试卷,批改作业,这个都可以让人工智能去做,推荐一个小程序,AI人工智能工具,就可以拍照批改作业,很方便

再次老师上课形式丰富化,学生更有兴趣学习




人工智能在教育领域的应用,我当这个是个脑洞题,简单畅想一下:

1、表情识别、追踪、捕捉。

面部表情识别用于语各种学习频道软件登陆或者学习签到打卡,捕捉和追踪技术可以全程参与分析孩子的学习状态和对知识的掌握程度,比方说讲到哪个知识点孩子皱眉了?可以当堂提醒老师,或者课后作业推送这个知识点就是重点。

2、三代语音AI智能交互

比方说现在比较火的AI口语录音评分,KTV的打分系统等,这个是一代语音AI能做到的录入和对比评测;二代语音AI就像是手机里的“siri”,可以识别语音输入,并进行仿人类的交互对话,语言库会随着大数据和全部使用者的对话习惯修正而更新。三代语音AI估计就会根据场景主动输出了,就跟提醒前方有红灯一样提前提醒学生哪些知识点需要牢记,怎么记。

大数据、算法、推荐,根据孩子当前的学习水平,给计算出最适合当前学习情况的一套学习规划。怎么说呢,以某地图导航软件为例,输入起点和终点,会有各种不同的可行的路线让你选,省时的,省走路的,省钱的等等。学习的话:大一入学,根据AI系统做套英语题,然后输入四级,系统会规划你的学习路径和学习时间,比方说一天10道听力题,5天一套阅读题,缺乏哪些的词汇,按照这个步骤学习,四级基本上都能过!

4、提升效率,兴趣致富

很多人都不知道自己喜欢什么,很多人一生都在而不可得,老了空留一声叹息。也有很多人,为了生计,不得不放弃爱好,如果AI足够强大,我们可以免去,腿长的直接去跳远,反应快的直接去打电竞,鼻子灵感的去当厨师。大家各行各业都能快速做到顶尖,不用为了生计去阻碍兴趣的发展。因为强大的AI,会快速让你的兴趣为你变现,让你不愁吃穿。




教育管理部门,学校自有人工智能部门。

辅助教育作用,既教育自动化。主要部分当然是学校和老师最清楚,有私密和共享的要求,配以自有IT人员合作。

教育本应是一门科学,不利于产业模式,否则找不到科目的真理。




近年来人工智能技术突飞猛进,赢得人工智能将赢得未来成为了业内共识。至此,巨头在今年来积极布局人工智能这一前沿领域。但是,跨越技术问题后的AI创业者们无法回避的一个问题是:如何找到真实的应用场景,构建可靠的商业模式?

正巧,教育行业是一个非常适合、也非常需要被AI改变的领域。

传统教育模式下,学生教育质量的高低很大程度上依赖于老师的好坏,而优秀教师的培训周期长、价格相对较高、在国内供需也不平衡。另外,教学规模的扩大势必影响教学质量,学生学习效果易变差。因此,可以说教育是一个人力智力密集型行业,对教师人力资源的过度依赖是教育行业问题根本所在。

对于像教育这种有明确目标的学习,AI技术的出现可以说是在根本上减少人的依赖,提高教学效率,帮助老师因材施教,让学生的学习更有效。

就目前的人工智能在教育领域的应用来看,可以分为自适应学习、虚拟助手、专家系统、商业智能等方面的广泛应用。

自适应学习就是通过算法,将获取到的学习者的数据分析反馈给已有的知识图谱,为学习者提供个性化难度和个性化节奏的课程和习题等,从而提高学习者的学习效率和学习效果。

自适应学习与传统教学的不同在于主要教学方式不同:传统教育通常是以班、组为单位的,由老师提供统一的教学内容和进度安排的,学生的练习和需要做的测评也都是统一化的,而自适应教育是以个人为单位的,接受不同的学习进度和学习内容,练习与测评内容的个性化程度高。

主打“自适应+教育“的企业,可以细分为:

1、“自适应+K12教育”类

如“猿题库”——通过自适应题库为学生提供个性化题库,并根据其个性化问题提供真人在线辅导,帮助学生了解自身学习情况、激发对练习的兴趣并提高科目学习成绩。

2、“自适应+STEAM教育” 类

如“wonder workshop”——通过软件将儿童的数据进行分析,并通过机器人硬件和独特的教学内容,帮助孩子趣味学习编程。

3、“自适应+语言教育” 类

如“朗播网”——提供一套自适应英语学习系统,为用户测试英语各方面能力,并提供针对性的考试提分技巧和能力学习课程。

4、人性化地风险事件处理方案

如“NEWSELA”——将K12用户的英文阅读水平分级,通过科学算法来判断用户的阅读水平,向用户推送符合其阅读水平和兴趣的新闻来提供用户的阅读能力。

虚拟学习助手是指为学习者提供陪练答疑、客服咨询、助教等服务,企业从中能够低成本为学习者提供标准化的服务,并且又能获得大量用户数据反馈。

由于教育过程中,助教所需要做的业务就是为学生答疑、提醒等功能,这些工作多为简单重复的脑力工作,因此,AI可以逐渐替代助教业务。

课后练习反馈对于学习效果的提升非常重要,而数据化程度最高的环节也正是练习,因此这也是大部分人工智能+教育创业者的切入环节。不同类型的学习内容需要的技术方案各不相同,如理论性的学科的练习更加容易智能化,但是与实践相关的科目,如艺术、运动等往往需要搭配智能硬件来达到学习效果。

此类产品如“音乐笔记”就是音乐教育领域的陪练机器人,智能腕带和APP结合,利用可穿戴和视频传感器,对钢琴演奏的数据进行实时采集分析,并将练习效果反馈和评价呈现给用户。

专家系统是指,在某个领域能够有效地运用数字化的经验和知识库,解决以往只有专家能够解决的复杂问题。专家系统结合了人工智能和大数据,具备自我学习和综合分析的能力,系统可以获取、更新知识,不再只是静态的规则和事实。

专家系统帮助学习者和机构诊断、预测、决策。这类企业通常可细分为:

1、“生涯规划+教育” 类

如“申请方”——基于大数据和人工智能,为面临升学、留学、求职等情况的用户提供智能规划和申请服务的平台,帮助学生获取开放性的教育资源、实现高效率的血液发展、收获个性化的教育体验。

2、“智能批改+教育” 类

如“批改网”——是一个计算机自动批改英语作文的在线系统,为学生和教室提供智能的批改服务。

教育机构组织运营包括多个核心环节(推广招生、教学、客户服务等)和支撑活动(基础设施、人力资源、采购、教研等)。人工智能可以在多个环节提升组织的整体效率。

教育商业智能应用场景非常丰富:在基础设施活动中,有智能选址、财务预测管理、校车管理规划等场景了;在人力资源活动中,有教室招聘、人才评估、人才培养三个应用场景;在采购活动中,软硬件采购和评估可以应用AI技术;在教学研发活动中,有教研体系、课程内容和备课工具都可以作为其应用场景;在推广招生环节中,有招生平台、投放策略等场景;在教学过程环节中,有课堂的辅助、LMS、作业批改、考试测评等场景;在客户服务环节中,有家校沟通、客户管理、班级管理等场景。

企业在商业智能化这通常有两个方向:

如 “Panorama”——K12教育的数据分析公司,从学生反馈、学习、学校生态和家长及参与度四个方面对学校进行评估,为每个学校制定个性化的调查方案,找出学校的问题所在并针对广泛性问题提供解决方案建议。

如“狸米学习”就是为公立中小学提供个性化教学解决方案的。为学校提供完整的智能化教学配套方案,教室可用于作业管理和课时学情分析,家长通过此了解孩子学习状况,教学管理者可以用于学校的智能化教学分析。

未来教育创业的驱动力定是来自人工智能为核心的“创新”+”教研创新“,前面触及到的四个领域(即自适应学习领域、虚拟学习领域、专家系统领域以及教育商业智能领域)的各个赛道中都有巨大的创业机会。




假打,中国人口超级多,多少失业人,你还倡导人工智能教育,不合国情。教育非产业,应为国税支撑福利为民生。人工智能可用于教学补充资源,不可太过分,教育还是高人传后人。




题主的问题有些广泛,从信息化领域来讲教育产业包括幼教、普教(K12)、职教和高教这四个版块。我可以从我了解的领域对题主的问题试着进行回答,肯定不全面,欢迎大家补充。

1.中小学STEAM和创客教育。这个创客和创业的创客不同,是一种基于学生兴趣

以项目学习的方式使用数字化工具,倡导造物、鼓励分享、培养跨学科解决问题能力、团队协作能力和创新能力的一种教育方式。主要内容有机器人、人工智能、物联网、无人机和3D打印等。

2.人机对话。初中英语学科考试项目,代替传统以校园广播听力考试方式,用互联网进行听力和口语考试,用人工智能对考生的回答进行成绩判定。

3.各种学习平台。目前一些作业和学习平台可把每次网络作业中同学做错的题做记录,通过对题目涉及的知识点讲解、相同知识点相似题目推送来进行针对性强化。还可根据一段时间内学生作业情况做出学情分析报告,让学习更有目的性。

4.课堂行为分析。这也就是前段时间网络上槽点很多的课堂人脸识别。该系统的设计初衷是通过对学生在课堂上的表情来分析学生上课时的状态如听课、发呆、睡觉、说话、书写、玩手机等,通过个人分析报告让学生更加有效的利用课堂时间提高学习效率。但在实施过程中引起了对于隐私的广泛讨论。

个人浅见,抛砖引玉,欢迎一起讨论。




信息的发达超出人们的想象。人工智能可不得了。!总有一天教学会同步走,通过网络进行远程授课,优质教育可以共享,教室內的电孑教课板大屏慕显业授课,班主任的职责就是监督。教师也要裁员。少而精,高薪酬。人工智能化教学授课用不了原来那么多老师了。优质的智能课室,优质的师资讲学水平。优厚的待遇。公平的学习环境。己是为时不远。




首先是论文打假!!通过人工智能深度解析,严厉打击学术造假,论文剽窃,杜绝简单语法调整,段落调整,实质换汤不换药的论文剽窃造假!其次大数据分析,助力教育总结教学经验,挖掘教育短板,精准因材施教;三是结合进步,助力偏远落后地区同步中心城市实施优质教学




1.通过大数据整合统计学生的学习状况,分析其优势及弱项,并针对性给予学习建议,以及自动建议或推送相关的学习资料,例如知识精讲、典型习题、思路总结,帮助学生又快又好地提升学习成绩。

2.辅助小孩学习英语,并自动识别读音准确性,并激励小孩学习热情,挺好的应用。

首发于微信号 酷玩实验室

今天想跟大家聊一下元宇宙跟 AI 结合会碰撞出怎样的火花。

,正如我们之前的视频所说,就是以VR为媒介的下一代互联网,突出VR视频和交互技术成熟带来的极致临场感和沉浸感,无限模糊真实和虚拟,拉近人与人之间的距离。

它与AI人工智能的结合可能大家一下就会想到一些科幻电影,比如当年还是沃卓斯基兄弟的沃卓斯基姐妹的传世经典《黑客帝国》系列,再比如去年的那部《失控玩家》。

在黑客帝国里面,AI统治了地球,人类的意识被禁锢在了虚拟世界当中,肉体则成为了培养仓当中的生物电池。各种功能的AI不但无所不能,而且还在虚拟世界里突变进化。比如大反派特工史密斯,作为有思想的杀毒软件,就在虚拟世界的数字信息海洋中,不断学习进化,逆袭了母体,甚至进入了现实世界。

而在失控玩家当中,游戏里面的NPC Guy某一天突然产生了人类一般的自我意识,脱离了他被设定好的那个角色开始在虚拟世界翻云覆雨,还跟现实当中的女主谈起了恋爱。

也就是不管是在AI虚拟世界带来人类末世这种黑暗结局,还是游戏NPC产生人类最珍贵的美好情感这种光明结局当中,至少在两个点上,电影的创作者们达成了共识:

一是虚拟世界会因为AI的存在变得丰富多彩,并且具备一定的脱离人类自我发展迭代的能力

二是AI在脱离现实世界的束缚之后会变得更加的强大,甚至反过来影响现实世界。

所以类似这样的未来是否会成为现实呢?

在深入探讨之前,我觉得有必要先简单地聊一下现在我们称之为AI的那个东西他本质上是个啥,不然空对空说它能干什么不能干什么就有点尬了。对AI非常熟悉的朋友可以忽略这段。

大家印象比较深刻AI应该是2016年3月击败李世石的Alpha Go,它就像一个神话故事中的水晶球,只要把现在的棋谱告诉它,它内部不知道怎么计算了一下,就能输出必然赢得比赛的落子策略,把杰宝之类的人类高手都打哭了。

在Alpha Go之后,短短几年之间,AI扩展到了我们生活的方方面面。我们现在刷的视频大概率是AI推送的,很多视频里面的配音都是AI配的,我们买的东西是AI推荐的,我们电脑显卡手机GPU是AI加速的,张学友演唱会逮捕逃犯是靠AI识别的,连现在这段BGM都是AI谱曲的。

而正如芯片有它的基本单元,也就是可以输出0和1的晶体管一样,AI也有它的基本单元,叫做感知机。

1957年,康奈尔大学的心理学家兼工程师弗朗克·罗森布拉特受到神经细胞的启发,提出了的构想。

神经细胞的形状呢非常的“支棱”,除了那一坨细胞主体之外,它的外壁有很多树杈状的短突起,叫做树突,还有一根长长的“尾巴”叫做轴突。

树突的作用是接收外部输入的各种刺激,形成生物电,这些生物电经过整合后,一旦超过某个阈值,就会经由轴突传导,并在末端分泌神经递质,将信息传递给下一个细胞,否则就不向下传递信息。

所以神经元细胞的输出只有两种状态,用数学表示就是“0”或者“1”,然后人脑有超过一百亿个神经元组成一个神经网络,前面的神经元输出作为后面的神经元输入进一步处理,不断反复,最终实现人类的智能。

参照了输入,处理,分类,输出四个步骤,感知机就模拟出了类似的结构。

每个输入信号乘上对应的权重,对应着树突的刺激输入,累加这个函数符号模拟了神经细胞整合生物电的过程,激活函数则判断累加值是否达到阈值,比阈值大,就输出1,否则输出0。

打开网易新闻 查看精彩图片

类似于看到一只猫,我知道它是猫,这对我来说是废话,问题是我不知道我是怎么判断的。那我猜想,肯定是眼睛看到猫的一瞬间,采集了大量的信息点,比如它的大小,它的花色,它的脸型,它的尾巴长度等等等等,然后我的大脑经过一瞬间综合考虑,觉得它是个猫。

那只要这些信息点,都是具体的可以衡量的类似大小,色号这类可数据化的参数,就可以转化为计算机的输入信号,而这个调权重加总的过程就可以类比为我脑子里那一瞬间的综合考虑,最终作出一个它是不是猫的分类判断,输出一个0或者1的数。

打开网易新闻 查看精彩图片

说白了感知机就是对于人类神经细胞的一个模仿。

那具体是怎么操作的呢?

比如,我们看到一个人的照片,要判断一下它是不是我,那你足够细的话,完全可以找出一万个我这个人的特征。但为了便于讨论,让我们姑且通过脸方的程度、头大的程度两个指标用数字表示,让感知机去判断。

比如设定完全圆脸是0,脸方得跟我的世界里面人物一样是1;比如完全没有头是0,头跟大头儿子一样大是1。

打开网易新闻 查看精彩图片

分别把这两个输入当成平面坐标系的两个轴,找一些人的照片,记录他们是谁以及脸型、头的大小这些量化指标,放到坐标系里面。

那很显然,我们可以划一条线,把我跟类似周冬雨这样的人大概率地区分出来,因为我都头比较大脸也比较方,像周冬雨这样的女明星恰恰相反。

对于计算机而言,这条线就是ax+by+c=0。

如果加权求和出来的结果大于零就在线上方,就是我,如果小于零,就是周冬雨。

当然,现实当中我们不可能只用两个参数来判断这个人是谁,要做出更精确的判断还需要很多维度的输入,比如体型、五官、化妆等等。

引入化妆这个维度,坐标轴就变成三个,成为了一个三维空间坐标,那根一分为二的线也变成了一个平面。

继续引入第四个、五个输入的话就有点无法想象了,只能通过数学的形式来表现,叫做超平面,不过没有关系,这对电脑不是问题,它还是可以通过公式计算,把一个多维空间一分为二。

打开网易新闻 查看精彩图片

乍看起来有点弱智,但这个感知机的精髓就在于它不用我去告诉它该把线画在哪里,它可以通过所谓的“学习”来自己找到准确的画线位置,这就是它跟以往的所有机器或者工具不同的地方。

还是之前那个是我还是周冬雨的问题,在没有样本点输入的情况下,我可以先在平面上随便画一条线,然后规定这条线上方是我,下方是周冬雨。

但输入了实际的数据后发现直线上方居然出现了周冬雨的照片,比如她某些角度看起来脸比较方,那不行。于是我们就可以把这条线往上抬一点。再看一下所有点的分布,再进行判断,如果还不行再挪一下,再判断,以此类推,直到所有照片都能正确分类,感知机逐渐就精确了。

打开网易新闻 查看精彩图片

从计算机的操作来看,挪动直线这个动作就是调整输入权重abc的过程。

比如在这台感知机中,我们就可以计算分类错误的点到直线距离的和的函数,这个函数是跟权重参数也就是那个a、b或者c相关,叫做“损失函数”,越大说明错得越离谱。

就比如损失函数随着脸型对应的权重参数a的变化是这样的。

打开网易新闻 查看精彩图片

那有一种挪动的方法就是,假设现在权重在大写的A这个位置,我们每次就移动A点的导数乘以一个事先规定的值,这个值叫做步长,然后重复这个过程,直到所有照片都能够被正确分类,我就是我,周冬雨就是周冬雨。

因为是参考结果往前推导“输入的权重”,所以这个方法也叫做“反向传播”。

但是上世纪五六十年代,由于硬件算力的限制和网络结构的过于复杂,当时这种自我学习理论还无法实现,真正反向传播算法的提出还要等很久。

打开网易新闻 查看精彩图片

现在回过头来看,感知机毫无疑问是二十世纪乃至于人类历史上最伟大的发明之一,因为它终结了机器只能机械执行人类具体指令的时代,开启了机器会自己想办法完成主人任务的时代。

但是感知机的理论在当时却遭到了另一个大佬马文·明斯基的强烈反对,明斯基还特意写了一本叫做《感知机》的书来抨击罗森布拉特,认为他的研究没有什么价值。

当然明斯基有羡慕嫉妒恨的嫌疑,但他的攻击也算是有理有据:

他认为感知机的原理过于简单,无法解决一些问题,比如“异或逻辑”。

异或逻辑问题说起来很麻烦,但实际上就是,这个世界上并不是只有我和周冬雨这两种人啊,还有马云呢,马云脸比我还方但头没有我大,还有雷佳音呢,甚至于,还有姚明呢,姚明是真的很大而且很方啊。

很显然如果让感知机去画一条线,是没有办法把我跟这些个脸型和头的大小各异的人都分出来的。

现实是复杂的,是没法简单地一分为二的,明斯基指出了最关键的地方,这一波嘲讽效果拔群,导致以感知机为起点的人工智能研究停滞了大约30年。

上世纪7、80年代,随着信息技术的发展,大家逐渐发现,虽然单个感知机能力有限,但我再加两个感知机,等于多画两条线,不就行了吗?

只要感知机层数够多,无论多复杂的分类问题,不断用反向传播进行训练,就能得到最优解。

并且,我们需要注意到,解决了分类问题并不意味我们只能做分类,其实基于分类可以解决很多很多问题。

比如判断和分类,逻辑上就是一回事儿,

智能摄像头判断门口来的那个人是不是公司的同事,判断一个路过的人是不是某个新冠患者,就是分成是和不是两类呗。

在规则明确的情况下,对于接下来发生的事情进行预测,其实本质上也是分类,下棋的话分为这样下下去是会输还是会赢呗,扫地的话分成有没有扫过、会不会撞墙呗。

有了预测了之后,就可以进行决策了,扫地,下棋,推荐,甚至指挥调度,都可以了,简直无所不能啊。

所以,人工智能在上世纪80、90年代开始进入“多层感知机”时代,当时的人工智能在理论上已经非常强大,可以解决大量的问题。

但它还是受到两个关键因素的制约:

一个是系统的算力,也就是动辄几千万参数的反向传播算法需要巨量的算力;

另外一个是数据,也就是需要大量打好数据标签的类似我的照片周冬雨照片这样的东西作为人工智能学习的资料。

搞定了这两项关键资源人工智能才能真正上路!

从1965直到2016年以前,芯片算力都在随着摩尔定律呈几何倍数增长,而最近20年互联网产业蓬勃发展也带来了数据量的爆炸式增长,人工智能的发展有了肥沃的土壤。

另外,科学家也开发了一系列的方法去处理这两个问题。

深度神经网络,卷积神经网络,蒙特卡洛树等等都是试图用更小的算力处理更复杂的问题。

比如深度神经网络,就是把我们能提取到的信息点,根据不同的维度,分成更多的层,比如要分辨一个人,从单个五官,眼睛鼻子嘴各有各的特色,五官又组成了一张脸,脸、身体、四肢又组成了一个人,我们把这些特征分成不同的层不要混在一起计算,会提升系统的效率。就比如为了把我跟姚明区别出来,如果把何种参数混在同一层计算有可能你会发现我跟姚明还挺像,但只要把代表体型的那些参数单独拎出来,那就一点也不像了。

再比如所谓卷积神经网络。卷积计算是一种可以从矩阵中提取某些特征值的运算,我当年上大学的时候对这玩意儿印象很深刻因为它手算起来特别麻烦,到底是哪个傻x发明了这种东西那么无聊,后来发现它还真挺有用。

就比如我们按照片去分辨两个人,那首先我们比较的是两个人吧?你人工智能分析半天在比较后面的背景那算力就完全打了水漂了。同理我们智能停车场识别车牌号得先找到车牌在哪里吧?智能商场识别顾客得先找到人在哪里吧?这是一项我们人类天生就有的能力,找重点的能力。

那如何让计算机也拥有找重点的能力呢?我们就可以引入一个所谓卷积核,一般是个3*3、5*5、7*7像素的矩阵,用它从头到尾扫描图像,把图像和卷积核对应像素点的数值相乘再求和输出,就能得到一张提取了某种特征的更小的图像。然后再基于这些特征,去判断哪些部分是重点,哪些部分是边角料。

在2012年的ImageNet大规模视觉识别挑战赛上,一个叫做AlexNet的深度卷积神经网络在对1000种物体进行分类的比赛中获得了第一名的成绩,错误率仅为15.3%,比第二名低了大约11%之多,基于卷积神经网络的机器学习算法一战成名。

这是人工智能发展历史上的里程碑事件,卷积神经网络是一种通用的提升算力利用效率的技术,它现在基本上是人工智能的标配了。

而所谓蒙特卡洛树搜索,也是一种判断哪里是重点哪里是边角料的方法,当年跟李世石对弈的那个alpha go的算法就是基于蒙特卡洛树,而李世石第四局下出所谓神之一手,其实就是下到边角料上了,边角料是神经网络的数据盲区,于是它就乱了套了。

打开网易新闻 查看精彩图片

另一方面,人工智能目前最大的发展瓶颈还是来自于数据,目前相关产业的发展速度基本上就等同于获取大数据的难易程度,比如智能推荐内容,智能推荐商品这些容易获取数据的项目现在就特别的成功,像自动驾驶这种就会比较慢一点。

有一些方法可以人工的去创造数据来喂养神经网络。

就比如所谓强化学习,就是脱离人类数据样本,基于环境和规则自己生成数据往下算。下国际象棋就是它有明确的规则,最终的目标就是吃了对面的王,基于这一点去预测接下来最合适的策略,再通过得到的结果和预测值进行比较,优化自身参数,于是就不用输入太多人类的棋谱了。

在国际象棋中,人类顶尖高手可以预测接下来10步的行动。1997年,当时的IBM研发了一个用来下国际象棋的AI,叫做“深蓝”,

深蓝可以预测12步,每一步都遍历了可能发生的所有情况,相当于用强大的算力进行了12步的暴力穷举,击败了当时等级分排名世界第一的加里·卡斯帕罗夫。

当然这个暴力穷举的方法在目前的算力下,对特别复杂的问题比如围棋、星际争霸会相对无力一点。

然后还有多智能体,就是搞两个或者以上的AI,让它们自己打自己,卷起来。

结合强化学习和多智能体学习,有时候我们会发现,其实很多人类的经验并不靠谱,还不如让AI自己去算然后自己打自己,就比如Alpha Zero的围棋棋力就完爆学习了人类棋谱的Alpha Go。

还有一个特别有意思的方法叫做GAN,所谓对抗生成网络。如果说之前的AI主要干的事儿是判断和决策,在2014年被发展出来的GAN网络则赋予AI比较强的创作能力。

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片

刚才我们不是说可以做一个AI判别网络,去对一类东西进行判断分类吗,还可以搞个多智能体,让几个AI自己卷自己比谁判断的准对吧。那我们可不可以换一个思路,让判别网络去卷一个所谓的生成网络呢?

就比如这样,我做一个画图的生成网络,先给生成网络输入一些随机参数,生成网络就会生成一些初始图片,有点类似于玩游戏通过数据捏脸的过程,只不过一开始生成网络还很懵懂,生成的东西都是四不像。

然后把我们已有的美女照片和生成的四不像照片都做好标记,用这两类带标记的图像去训练判别网络的参数,让它自己学习怎么画线,能把美女的图片和乱画的图片分出来。

打开网易新闻 查看精彩图片

接下来,生成网络可以根据判别网络给出的结果差距来学习提升,它画出来的美女就越来越像那么回事儿了。

于是判别网络的判断准确率会下跌,逼得它去提升判别能力,它又逼着生成网络生成更逼真的照片去骗判别网络,不断循环,卷起来。

到最后判别网络分不出来了,它判断成功概率会稳定在50%,这时候我们说生成网络已经做到了“以假乱真”。

生成网络就像是热血动漫吊车尾的男主角,判别网络就像是自带外挂的天才男二,随着剧情的发展,男主最终能和男二五五开了。

我们甚至还能通过调节生成网络的输入参数,来对赝品画作的细节或者风格进行修改。

比如把画面中的普通马变成斑马;或者把我的照片变成抽象派油画风格甚至梵高莫奈的风格,以及我们喜闻乐见的ai换脸。也就是我们既可以生成刘亦菲的各种角度各种表情,也可以把条件放宽一点,生成刘亦菲这种风格的美女。

而且这个创作能力并不仅限于画图哦,写文章,写诗,写剧本,作曲,做动画都是可以的。

打开网易新闻 查看精彩图片

到了这一步之后,我们再来看下AI它的能力是怎么回事,它既可以做判断,做决策,也可以做创作,那这些正是元宇宙所需要的呀!

之前我们在第一期节目当中说过,在传统的PC互联网和移动互联网当中,其实我们的世界是被降维打击过的。无论是生活中去商店里购物,去跟人聊天吹水,去剧院看戏去茶馆听书,所有这些3D场景都被压缩成了一张2D网页或者App页面,以适应这块屏幕,坏处是没有代入感临场感,好处是实现起来比较简单。

而在元宇宙里面,他们将会实现三维展开,对应的工作量也会提升一个维度。

就拿我们最常用的三类app为例,社交:也就是微信,soul;电商:某宝,某东,某多多;以及短视频;

在元宇宙里面的社交,咱俩在虚拟世界里面,面对面聊天,这相对于在一个对话框里面打字那种社交,是颠覆性的。因为说白了包括我在内,很多比较内向的人,是根本没法跟一个不熟的人微信打字的,你不知道ta的背景ta的爱好,都不知道开什么话题啊。

但是只要见了面坐在一起那还是可以尬聊的,尬着尬着就发现,诶好像大家都对最近曼城踢利物浦的巅峰对决很敢兴趣,或者大家都对新出的蝙蝠侠很感兴趣,这就聊起来了呀,甚至可以开个电影边看边聊。

但前提是,我得有一个我的形象吧?而且得是一个放在元宇宙场景里面并不违和的比较精细的,就好像老黄发布会那样的虚拟形象吧?你也得有一个你的形象吧?

如果是正式场合商务会谈的话,我可能就得用一个跟我现实中的形象比较接近的顶多稍微美颜一下的形象,在家里就没必要那么正式了,喜欢什么形象都可以,比如可以是蝙蝠侠,在一些别的场景下,比如一起去打仗,那我就可以是一个巨型机器人。所以每个人需要好几个不同的形象吧。

那像这样的比较精细的人物模型都是画图师用Zbrush Blender扣几个月才能扣出来的,而且很贵,便宜的也要几万,那些精致的虚拟网红比如柳夜熙那是花上百万打造出来的,就连好一点的游戏捏脸师傅都要大几千。假如十年之后全球有20亿人登陆元宇宙,平均每人要有十个形象。

那这两百亿的形象怎么做啊?

再说元宇宙里面的电商,那真的是一家店,它不是一个页面哦,而且比如我要用我的虚拟人在元宇宙里面试一双鞋,大致试一试肯定是没有意义的,因为我得靠这个决定要不要买啊。像现在得物的那个AR试鞋功能那样是没有卵用的,那是什么玩意儿,我本来看着一双鞋觉得挺好的,用那个一试就不想买了。所以不是随便试一试那么简单,我这个虚拟人的脚的尺码、脚的受力结构得是跟现实中的我的脚一样的,同理鞋也要一样,这样才能试出合不合脚好不好看。

那这么多深度的数字孪生人和商品,谁来做啊?

再比如说短视频。现在的移动互联网时代,我们这种短视频用户主要优点就是勤奋好学,学穿搭、学瑜伽、学化妆、特别是喜欢学跳舞。我想人性的这个需求应该不会随着平台的变迁而发生太大的变化。

那元宇宙里面怎么学跳舞呢?其实就是你坐那儿然后那个dancer在你边上跳呗,然后你可以语音交互“换一个”,然后就换了。这不仅是人要换哦,跳舞那个场景是不是也要换啊,什么场景里面的摆设,场景里的猫猫狗狗也要换啊。我们每天刷那么多短视频,那么多场景,那么多摆设,那么多猫猫狗狗怎么做啊?

只能靠AI,元宇宙里面的这些高级基础设施只能靠AI才能完成啊。

然后就是,当我们在元宇宙里面有了非常精细的3D形象之后,当像商店,咖啡厅,游乐场这些场景都实现了三维展开之后,那这些地方的服务人员、NPC他们得像人才行吧?如果人的形象非常真实场景也无比自然,你凑上去跟一个美女打招呼结果她头上突然弹出一个对话框,这就太出戏了。

打开网易新闻 查看精彩图片

所以在元宇宙里面我们需要非常像人的AI来提供各种服务。

比如这个“此物不存在”网页当中,这些猫,这些房间,这些人像,你打开这个网页就好像在看一些人的自拍照,唯一的区别是这些人是AI生成的,他们并不存在于我们的世界。

当2D的人物、场景和物件的生成可以被完美实现的时候,其实3D也就不远了,比如这个PIFuHD算法 ,可以直接从2D图片生成真人的3D模型,并自动补全背面的信息。

但这还不够,到这一步你得到的小姐姐也只是个雕塑而已,得让她动起来呀。于是,就有了I2L-MeshNet,可以从2D图像生成人物动作相关的骨骼和3D建模,导入动作参数,于是小姐姐就真正来到了你的身边。

这还不是终点,因为我们的元宇宙虚拟小姐姐还得多才多艺,更要会互动才行,也就是要实现类似失控玩家里面的效果。

有几个朋友在做一个项目叫做RCT-AI,是一个北京的团队,他们在做一个事情就是用AI去自动生成游戏里面的人物脚本,比如这个“抢银行”的Demo。AI会学习自行判断的如何配合玩家,有时会很怂,有时则会跟劫匪硬刚到底。

配合玩家?如果换一个场景,训练一个女仆或管家型的AI是不是变得可行了呢?

实际上,在服务型AI方面,OpenAI公司的GPT-3,现在不仅可以和人聊天,甚至还能按照人的要求写代码。

也就是若干年以后当我们在元宇宙里面创作的时候,我们大概率扮演的是一个导演或者宏观设计师的角色,那些具体的工作将由AI完成。

而今天的动画游戏作品中,与一个纸片人小姐姐、小哥哥交往,你还需要脑补,但当你明白今天AI的发展程度,就会发现,你所幻想的一切独一无二的美好,正在通过一行行代码,走近现实。

这就是为什么AI毫无疑问是支撑元宇宙的基础设施之一,如果没有AI去辅助人类制造各种数字产品以及担当NPC,元宇宙的应用场景,元宇宙的丰富程度势必受到严重的限制。3D区不能没有蒂法,也不能只有蒂法。

而且我认为更有意思的是,元宇宙也会成为AI起飞的重要推力。

刚才我们有讲到,AI是需要大量数据去喂养的,现在AI产业发展遇到的最大障碍就是,容易获得大数据领域实在是太有限了,那些不容易获得大数据的领域即便有巨大的需求也会发展缓慢,比如自动驾驶汽车。

我们固然可以用计算机模拟去训练自动驾驶算法,但这里面缺乏一个关键的因素,那就是人。就算我们可以完美的模拟路况和车况,路上别的司机行人的各种奇葩举动怎么模拟啊?

而元宇宙不仅能提供更大的数据量,更关键的是它是有大量人类生活在其中的3D虚拟世界。在这样的一个世界AI的应用场景会被大大拓宽,然后现实世界当中的AI产品就可以用元宇宙版本先跑到80分,再去现实中进一步发展。

就比如大家知道我们在3D电影和游戏当中用到的人物表情是个很难做的东西,要做到鲜活真实,就得做真人表情采集,就得找演员用专业设备专业团队,否则就会很假。

而到了元宇宙里面,我们天然就有用虚拟人去呈现自己的表情去嬉笑怒骂的需求啊,在之前的节目中我们说过,facebook的下一代VR一体机设备Project Cambria有内置的表情传感器,于是乎facebook将获取所用用户表情的大数据。

在这里我可以下一个判断,在Project Cambria发售一年之内,AI虚拟人表情假这个问题将会被彻底的解决。

再比如刚才说的自动驾驶,在元宇宙里面我们可以举办公路拉力赛,把场地设定在北京城,然后观众可以走到赛道上,可以往赛道上扔东西,甚至可以把自己家的车开上赛道,这个场景下训练出的自动驾驶AI应对突发状况的能力绝对炸裂。

我之前跟一个做自动驾驶的朋友提过一个广告营销的策划,就是你别像马斯克那样整天推特上说自己的AI出事故概率是人类的五分之一十分之一,这没用,大家不会信的。你干脆拍一条广告,在一个漆黑的雨夜,主角的豪华轿车缓缓驶入一大片阴森的城区,这时候暗中埋伏的几辆车突然亮起车灯,敌人要开车撞死他进入一段追车戏。

但是撞了半天发现主角的控车技术太灵活,根本就撞不到,只能眼睁睁看着他突围而出。最后主角的车行驶到阳光灿烂的开阔公路上,镜头拉近发现驾驶座上竟然没有人。这时候屏幕中间出现他们公司的logo。

如果自动驾驶AI能做到这样,那用户自然会明白,我们安心玩手机就可以了,开车不是我们该管的事儿。

再比如其实很多人都很想要那种非常接近人类能帮我们干各种活的通用型AI,就好像银翼杀手里面的高司令那样,但是在现实当中这种机器人不仅受到智能水平限制,还受到硬件水平的限制,说白了就是它的身体也实现得不好,波士顿动力花了30年才让机器人能像人一样走路。

在元宇宙里面就没有这个限制了,机器人只需要一个模型和一些代码就能行动自如,到时候再把训练好的AI导出来装在现实中的机械躯体上,人与机器的界限就彻底模糊了。

元宇宙作为下一代互联网,人类信息技术手段的集大成者,传播与生成的数据势必呈指数级增长,AI也将受益于这样的数据海洋,进化速度远非今天可比。

我经常听到一种说法,就是人工智能它只能做一些机械式的操作,而人的想象力创造力是人工智能无法取代的。

听完我刚才的分析大家也能看出来,这个说法是完全错误的。

事实上无论是扫地拧螺丝这种机械式的劳动,还是下棋打游戏这种竞技运动,亦或是画画谱曲这种创造性工作,充分发展之后的人工智能干什么都会比人类干得好,而且是多快好省,全方位的优势。

如果说我们做事情的套路是先形成欲望,然后在我们所掌握的能力或者资源范围当中去寻找满足这种欲望的方法,最终形成决策,向前推进。

人工智能缺少的不是任何的能力或者方法,它缺的是左边这块,欲望。

也就是说AI无法成为最终的决策者,它提供的只是达成目的的执行力,或者说他只是个工具人,这才是人与AI的根本区别所在。AI做的任何事情背后都必然有人的推动,哪一天AI真的杀了人,你最终肯定能找到一个幕后的始作俑者。

AI会带来生产力的碾压,在AI近乎无限复制的生产力面前,我们现在的那些自动控制技术,什么996007压榨工人的操作,都会变成毛毛雨。

AI会带来战斗力的碾压,在遮天蔽日的智能无人机蜂群面前,再强大的人类飞行员都会成为小可爱。

AI会使得人类变得更加自由,因为它会放大每一个人的能力。同时它也会使怎个社会的价值创造向头部集中,就是当高端玩家的决策能力被AI无限放大的时候,当你们单位联欢会都能找张艺谋来导演的时候,低端玩家就找不到活儿干了。这也是很多人在提全民基本所得背后根本性的原因,因为对于绝大多数人我们目前理解的那种劳动价值将会不复存在。

人工智能的发展提速无法阻挡,必然会对社会造成冲击,而真正重要的是谁能控制人工智能产业。

就像当年的工业革命,我们现在活着的几乎每一个人都因为工业革命而过得更好了,但在它展开的过程当中,有些人借着风口扶摇直上,另一些人则成了发展的垫脚石,甚至有些民族直接没了,作为学习过中国近代史的中国人,我相信大家都明白这是什么意思。

这就是为什么AI产业是我们必须要尽全力掌握和领先的领域,而这确实也是我们的国策。在十四五规划当中出现最多次的专业术语,就是人工智能,如果我没记错的话,出现了18次。

而在那之后会发生什么,就看我们是否能够砥砺前行不忘初心了。

首发于微信公众号:酷玩实验室(ID:coollabs)

如需转载,请后台留言。

我要回帖

更多关于 数学很差学人工智能难吗 的文章

 

随机推荐