大数据培训完了哪里能找到辐射站数据工作吗

达内大数据培训完好找工作吗?_百度知道
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。
达内大数据培训完好找工作吗?
我有更好的答案
现在在工作,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱,也是魔据学的大数据,现在很多的公司都是缺人的状态,所以你只要技术过关,工作的事情完全不用担心的,后面就多了,平时多锻炼,开始可能会少点你好,大数据通常用来形容一个公司创造的大量非结构化数据和半结构化数据
采纳率:86%
非常难!用人单位一听这个培训的名字,都不会录用你,知道是扯淡的
本回答被网友采纳
为您推荐:
其他类似问题
您可能关注的内容
换一换
回答问题,赢新手礼包您的 IP 地址/地理位置:114.225.243.50江苏&&无锡&&联通
当前位置: &
如何选择大数据培训?16张国际公认的大数据“学历”证书 11:26:28&|&编辑:gxm&|&查看:&|&评论:
如今,由于大数据的兴起与应用,数据科学家和数据分析师,以及具有大数据技术工作能力的工程师和开发人员得到了青睐,并获得良好的回报。那么,行业人士如何获得这样的一份工作?那就是获取大数据认证。
如今,由于大数据的兴起与应用,数据科学家和数据分析师,以及具有工作能力的工程师和开发人员得到了青睐,并获得良好的回报。那么,行业人士如何获得这样的一份工作?那就是获取大数据认证。
数据和大数据分析正在成为企业生命的血液。具有分析大数据所需技术的数据科学家和分析师,以及了解hadoop集群和其他技术的开发人员供不应求。如果有人正在寻找一个方法来获得一个优势,无论你是工作,狩猎,钓鱼或只是想要有形的技能,都需要第三方证明,而获得大数据认证则是一个明智的选择。这个认证可以衡量申请人的知识和技能,并针对行业和供应商的具体基准,向雇主证明,申请人有着可以胜任的技能。大数据证书的数量正在迅速扩大。
以下是16个应该考虑通过的大数据认证。
(1)专业人员分析认证-INFORMS
CAP认证是一个严格的通用分析认证。它证明了对分析过程的端到端理解,从构建业务和分析问题到获取数据,方法,模型构建,部署和模型生命周期管理。它需要完成CAP考试(这个考试可以在100多个国家的700多个计算机的测试中心进行)和遵守CAP的道德规范。
如何准备:INFORMS提供预览材料和完整的CAP学习指南作为辅助。它还为拥有10名或更多候选人的组织提供免费半天CAP回顾会议。
(2)数据科学专业成就认证-Columbia University
这个数据科学认证是由TheFU基金会工程与应用科学学院和哥伦比亚大学艺术与科学研究生院联合提供的。该计划包括四个课程:数据科学算法(CS/IEOR),概率与统计(STATS),机器学习数据科学(CS)和探索性数据分析和可视化(STATS)。
(3)工程方面分析和优化(CPEE)证书&INSOFE
这个密集的18周课程,其中包括10个课程(讲座和实验室)为学习者分析的各个方面,包括使用使用Hadoop。它专注于R和Hadoop技能,以及统计建模,数据分析,机器学习,文本挖掘和优化技能。学习者将在一个真实世界的顶点项目中实施一系列的测试评估。
(4)挖掘大规模数据集研究生证书-Stanford University
为软件工程师,统计学家,预测建模师,市场研究人员,分析专业人员,以及数据挖掘者设计,此认证需要四个课程,并演示掌握高效和强大的技术和算法,从大型数据集,如Web,社交,网络图和大型文档存储库等。这个证书通常需要一到两年的时间才能获得。
(5)分析证书:优化大数据-University of Delaware
主要面向商业,营销和运营经理,数据分析师和专业人士,金融业专业人士和小企业主本科课程。该计划汇集了统计,分析,书面和口头沟通技巧。它向学习者介绍了分析大数据集所需的工具,涵盖了将数据导入分析软件包,探索性图形和数据分析,构建分析模型,找到最佳模型以解释变量之间的相关性等主题。
(6)EMC数据科学家助理(EMCDSA)-EMC
EMCDSA认证表明个人作为数据科学团队成员参与和贡献大数据项目的能力。它的内容:部署数据分析生命周期,将业务挑战重构为分析挑战,应用分析技术和工具来分析大数据并创建统计模型,选择适当的数据可视化等。
如何准备:EMC提供培训课程,作为视频或教师主导的课程。
(7)Cloudera认证专家:数据科学家(CCP:DS)-Cloudera
CCP:DS证书展示了精英层面使用大数据的技能。它需要通过一个评估基础数据科学主题知识的书面考试。他们还必须在数据科学挑战中,通过设计和开发同行评估的生产就绪的数据科学解决方案,并在真实条件下证明他们的能力。这个挑战必须在完成笔试后24个月内通过,并且每年中的每隔一个季度提供两次机会。
如何准备:Cloudera提供课堂培训与技术指导,实践测试和数据科学挑战解决方案套件,包括实时数据集,教程和过程说明。
(8)Cloudera Apache Hadoop认证开发人员(CCDH)-Cloudera
CCDH认证演示了开发人员写入,维护和优化Apache Hadoop开发项目的技术知识,技能和能力。获得这个认证需要通过90分钟时限的50到55个活动问题的笔试。每个测试包括至少五个未评分的实验问题。
如何准备:Cloudera提供实践测试(180天订阅)和学习指南。
(9)Cloudera Apache Hadoop认证管理员(CCAH)-Cloudera
CCAH认证演示管理员的技术知识,技能和能力配置,部署,维护和保护Apache Hadoop集群和构成Cloudera企业数据中心的生态系统项目。获得认证需要通过90分钟时限的60个问题的书面考试。
如何准备:Cloudera提供实践测试(180天订阅)和学习指南。
(10)Cloudera Apache HBase(CCSHB)认证专家-Cloudera
CCSHB认证演示了使用Apache HBase的技术知识,技能和能力,包括核心HBase概念,数据模型,架构,模式设计,API和管理。获得认证需要通过90分钟时间限制的45个问题的书面考试。
如何准备:Cloudera提供实践测试(180天订阅)和学习指南。
(11)Revolution REnterprise Professional&Revolution Analytics
主要内容:此认证证明了对高级分析项目使用R统计语言的能力,包括分析大数据,数据分析生命周期,高级分析的理论和方法以及统计建模的战略和实践方面。该认证要求通过包含60个选择题和90分钟时间限制的tt笔考试。
如何准备:Revolution Analytics建议从其Academy R培训课程入手,并提供学习指南和示例问题。
(12)Vertica大数据解决方案V1-HP
此认证验证可以让学习者部署和管理Vertica Analytics Platform,帮助组织优化和利用大数据分析获利。其验证学习者可以:识别和描述Vertica架构的关键功能,安装平台,识别字符和确定Vertica中使用的投影的特征,描述如何将数据加载到Vertica,阐述Vertica集群管理概念,描述备份/恢复和资源管理,并确定如何监视和故障排除。此认证需要在90分钟内通过包含50个选择题的考试。
如何准备:HP建议学习者将具体的产品知识和三到六个月的实践经验结合在一起,充分了解RDBMS。这个认证不需要培训,但HP公司建议学习者参加为期三天的Vertica简介课程。
(13)Vertica大数据解决方案管理员V1-HP
此认证证实学习者可以管理Vertica Analytics Platform,并验证其是否可以执行高级管理任务,包括:手动投影设计,诊断,高级故障排除和数据库调优。该认证要求在100分钟内通过包含60个选择题的考试。
如何准备:HP建议候选人在申请此认证之前至少六个月内管理,管理和操作Vertica Analytics平台。这个认证不需要培训,但HP公司建议学习者参加为期两天的HPVertica高级性能调优课程。
(14)IBM认证的数据架构师-大数据
IBM认证数据架构师-大数据IBM专业认证计划
(15)IBM认证的数据工程师-大数据
IBM认证的数据工程师-大数据IBM专业认证计划
(16)大数据专业人员的SAS认证
SAS认证的专业数据科学
相关阅读:
搜索"raincent"或扫描下面的二维码有快速学习大数据、人工智能的途径或者培训机构吗? - V2EX
有快速学习大数据、人工智能的途径或者培训机构吗?
160 天前 &acuteeagle
本人只是普通程序员,但非这些领域从业者,想通过快速学习大数据和人工智能相关领域的知识,希望有个具备去大公司从事这些工作的机会,有什么好的途径推荐吗?
1460 次点击所在节点 &
fengheorg160 天前快速的方式的确没有,数学还是关键,需要把大学数学课程补一下。最好了解统计学。
minvacai160 天前数学学好点,其它都是套路
mmixxia160 天前想太多
wuYin160 天前可以读个研究生 233
ansheng160 天前挺难得,
WildCat159 天前Udacity (非中国版)
有钱就可以。
txlty159 天前个人觉得机器学习、人工智能有两个学习方向:
第一种,和学术界一样,需要读懂每个算法,学习算法背后的数学原理,能够自己把算法实现一遍,甚至加以改进。大学高等数学是基础。
第二种,从科普层面理解这些算法的概念。然后学会调用科学家封装好的类库、框架。并掌握什么时候 该用什么算法解决问题。不必把已经忘光的数学知识重新学习一遍。
比如,libsvm 就是个经典。使用 SVM 分类器,并不需要读懂 libsvm 源码,更不需要掌握了解其背后的数学公式。只需学会如何调用 libsvm 就可以了。
目前几乎所有学习资料、以及相关培训,都属于前者。开篇就见数学公式。很多人因此放弃了学习。更多人则是掉进坑里出不来了(因为大部分人根本不是那块料)。很多优秀的工程师在这上面白白浪费了大量时间。
如果想像后者那样学习,需要自己搜集代码,一个个运行尝试。了解这些代码怎么用,有什么用,什么时候用。并根据网上有限的资料,自己从科普层面加以理解。什么叫学习率、什么叫阀值阈值、什么叫核函数、什么叫浅层神经网络、什么是深度神经网络。。
找工作需要的是前者。大公司?那至少有个相关领域的硕士文凭。
minvacai159 天前@ “学会调用”哪有这么容易,照着例子跑你会了是吧,到要处理实际问题的时候光遇到一个参数降维你还是要老老实实去看数学。
est159 天前贴线性代数、统计分析成绩单即可。
lk1ngaa7159 天前和人工智能、大数据无关。快速的方法都不可取
wangdu2012159 天前回去学校学习
wdlth159 天前《 21 天精通卷积神经网络——从入门到入院》
blanu159 天前微博上七月在线宣传的特别厉害,仅供参考吧
jiangzhuo159 天前读个在职研究生吧
327beckham159 天前coursera,udacity,都是不错的平台,有很多课程都是著名大学或者公司开的课
mazyi159 天前看到快速二字,就知道没有了。
第 1 页 / 共 1 页&
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到
上打开本讨论主题的完整版本。
是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
is a community of developers, designers and creative people.当前位置:&>&&>& >
学习大数据多钱_大数据培训完能做什么哪些工作
  _大数据培训完能做哪些工作?大数据也迅速成为行业和市场的热点,更多的企业无论是对人才的招聘还是在培训都成了刚需,这也促使大数据人才的薪资在同岗位中是最高的,掌握大数据技术,工资提升40%左右是很常见的,很多想报名的人经常会问到学习大数据多钱的问题,以及大数据培训完成后能做什么工作,光环大数据就为大家分享下吧。
学习大数据多钱?
想参加大数据培训的同学,在挑选的时候除了要考虑大数据培训的课程、学习环境、学习方式、就业保障等问题外,考虑最多的恐怕就是:学习大数据多钱的问题了。光环大数据根据对行业的了解,大数据培训费用一般是1万到2万左右的水平,不同的培训机构会因开设课程、学习环境、学习方式、就业保障等因素,学费也不一样,所以学员在挑选的时候,可以根据培训班的情况权衡后进行选择。
光环大数据的大数据培训,理论+实战相结合的教学方式,学员边学习边参加实战项目,既能学到全面的技能知识,同时也具备了项目开发经验,毕业自然好找工作!光环大数据成立于2001年,16年程序员培训经验,强大的教研团队根据企业最需要的技术研发出最新最实用的教程,为保障学员就业与中关村软件园战略合作,并与学员签订就业协议保障就业,学员毕业后平均薪资8K以上,学员反馈口碑非常好!
大数据培训完能做哪些工作?
光环大数据根据往期学员的就业情况,汇总一下大数据培训完能做哪些工作。
1、Hadoop开发工程师
Hadoop是一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。Hadoop是一个能够对大量数据进行分布式处理的软件框架,以一种可靠、高效、可伸缩的方式进行数据处理。所以说Hadoop解决了大数据如何存储的问题,因而在大数据培训机构中是必须学习的课程。
2、数据分析师
数据分析师是数据师的一种,指的是不同行业中,专门从事行业数据搜集、整理、分析,并依据数据做出行业研究、评估和预测的专业人员。在工作中通过运用工具,提取、分析、呈现数据,实现数据的商业意义。
3、数据挖掘工程师
做数据挖掘要从海量数据中发现规律,这就需要一定的数学知识,最基本的比如线性代数、高等代数、凸优化、概率论等。
4、大数据可视化工程师
随着大数据在人们工作及日常生活中的应用,大数据可视化也改变着人类的对信息的阅读和理解方式。从百度迁徙到谷歌流感趋势,再到阿里云推出县域经济可视化产品,大数据技术和大数据可视化都是幕后的英雄。
关于学习大数据多钱的问题,可以咨询光环大数据的在线客服了解。
大数据培训,就选!
大数据培训、人工智能培训、Python培训、大数据培训机构、大数据培训班、数据分析培训、大数据可视化培训,就选光环大数据!光环大数据,聘请专业的大数据领域知名讲师,确保教学的整体质量与教学水准。讲师团及时掌握时代潮流技术,将前沿技能融入教学中,确保学生所学知识顺应时代所需。通过深入浅出、通俗易懂的教学方式,指导学生更快的掌握技能知识,成就上万个高薪就业学子。
更多问题咨询,欢迎点击!
你可能也喜欢这些
在线客服咨询
在线客服咨询大数据应该怎么学:大数据学习存在哪些误区7 months ago3收藏分享举报{&debug&:false,&apiRoot&:&&,&paySDK&:&https:\u002F\\u002Fapi\u002Fjs&,&wechatConfigAPI&:&\u002Fapi\u002Fwechat\u002Fjssdkconfig&,&name&:&production&,&instance&:&column&,&tokens&:{&X-XSRF-TOKEN&:null,&X-UDID&:null,&Authorization&:&oauth c3cef7c66aa9e6a1e3160e20&}}{&database&:{&Post&:{&&:{&isPending&:false,&contributes&:[],&title&:&大数据应该怎么学:大数据学习存在哪些误区&,&author&:&xiao-ming-tong-xue-66-17&,&content&:&\u003Cp\u003E新如何学习\u003Ca href=\&http:\u002F\\u002F?target=http%3A\u002F\\u002F\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003E大数据技术\u003Ci class=\&icon-external\&\u003E\u003C\u002Fi\u003E\u003C\u002Fa\u003E?大数据怎么入门?怎么做大数据分析?数据科学需要学习那些技术?大数据的应用前景等等问题。由于大数据技术涉及内容太庞杂,大数据应用领域广泛,而且各领域和方向采用的关键技术差异性也会较大,难以三言两语说清楚,本文从数据科学和大数据关键技术体系角度,来说说大数据的核心技术什么,到底要怎么学习它,以及怎么避免\u003Ca href=\&http:\u002F\\u002F?target=http%3A\u002F\\u002F\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003E大数据学习\u003Ci class=\&icon-external\&\u003E\u003C\u002Fi\u003E\u003C\u002Fa\u003E的误区,以供参考。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E【CDA经管之家】\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\\u002Fv2-d52ea3fce710fe50d3b1167a_b.jpg\& data-rawwidth=\&1024\& data-rawheight=\&695\& class=\&origin_image zh-lightbox-thumb\& width=\&1024\& data-original=\&https:\u002F\\u002Fv2-d52ea3fce710fe50d3b1167a_r.jpg\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns='http:\u002F\u002Fwww.w3.org\u002FFsvg'%20width='1024'%20height='695'&&\u002Fsvg&\& data-rawwidth=\&1024\& data-rawheight=\&695\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&1024\& data-original=\&https:\u002F\\u002Fv2-d52ea3fce710fe50d3b1167a_r.jpg\& data-actualsrc=\&https:\u002F\\u002Fv2-d52ea3fce710fe50d3b1167a_b.jpg\&\u003E\u003C\u002Ffigure\u003E\u003Cbr\u003E\u003Cp\u003E\u003Cb\u003E1.大数据应用的目标是普适智能\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Cp\u003E要学好大数据,首先要明确大数据应用的目标,我曾经讲过大数据就好比万金油,像百度几年前提的框计算,这个框什么都能往里装。为什么会这样,因为大数据这个框太大,其终极目标是利用一系列信息技术实现海量数据条件下的人类深度洞察和决策智能化,最终走向普适的人机智能融合!\u003C\u002Fp\u003E\u003Cp\u003E这不仅是传统信息化管理的扩展延伸,也是人类社会发展管理智能化的核心技术驱动力。通过大数据应用,面向过去,发现数据规律,归纳已知;面向未来,挖掘数据趋势,预测未知。从而提高人们对事物的理解和决策处置能力,最终实现社会的普适智能。不管是商业智能,机器智能,人工智能,还是智能客服,智能问答,智能推荐,智慧医疗、智慧交通等相关技术和系统,其本质都是朝着这一目标在演进。随着云计算平台和大数据技术的高速发展,获得大数据基础设施建设相关技术和支持越来越容易。同时,移动互联网和物联网技术所具备的全面数据采集能力,客观上促进了大数据的积累和爆发。\u003C\u002Fp\u003E\u003Cp\u003E总之大数据就是个大框,什么都能往里装,大数据源的采集如果用传感器的话离不开物联网、大数据源的采集用智能手机的话离不开移动互联网,大数据海量数据存储要高扩展就离不开云计算,大数据计算分析采用传统的机器学习、数据挖掘技术会比较慢,需要做并行计算和分布式计算扩展,大数据要自动特征工程离不开深度学习、大数据要互动展示离不开可视化,而面向特定领域和多模态数据的大数据分析技术更是十分广泛,金融大数据、交通大数据、医疗大数据、安全大数据、电信大数据、电商大数据、社交大数据,文本大数据、图像大数据、视频大数据…诸如此类等等范围太广,所以首先我们要搞清楚大数据应用的核心目标,这个明确之后,才利于结合不同行业特点把握住共性关键技术,从而有针对性的学习。\u003C\u002Fp\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\\u002Fv2-0d62487adae470facdf6_b.png\& data-rawwidth=\&625\& data-rawheight=\&458\& class=\&origin_image zh-lightbox-thumb\& width=\&625\& data-original=\&https:\u002F\\u002Fv2-0d62487adae470facdf6_r.png\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns='http:\u002F\u002Fwww.w3.org\u002FFsvg'%20width='625'%20height='458'&&\u002Fsvg&\& data-rawwidth=\&625\& data-rawheight=\&458\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&625\& data-original=\&https:\u002F\\u002Fv2-0d62487adae470facdf6_r.png\& data-actualsrc=\&https:\u002F\\u002Fv2-0d62487adae470facdf6_b.png\&\u003E\u003C\u002Ffigure\u003E\u003Cp\u003E\u003Cu\u003E图1 国外大数据企业关系图,传统信息技术企业也在向智能化发展,与新兴大数据企业互为竞争和支持。\u003C\u002Fu\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E2.从大数据版图看数据科学及其关键技术体系\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Cp\u003E明确大数据应用目标之后,我们再看看数据科学(Data Science),数据科学可以理解为一个跨多学科领域的,从数据中获取知识的科学方法,技术和系统集合,其目标是从数据中提取出有价值的信息,它结合了诸多领域中的理论和技术,包括应用数学,统计,模式识别,机器学习,人工智能,深度学习,数据可视化,数据挖掘,数据仓库,以及高性能计算等。图灵奖得主Jim Gray把数据科学喻为科学的“第四范式”(经验、理论、计算和数据驱动),并断言因为信息技术的影响和数据的泛滥增长,未来不管什么领域的科学问题都将由数据所驱动。\u003C\u002Fp\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\\u002Fv2-96dfb8fbd6ddcda_b.png\& data-rawwidth=\&768\& data-rawheight=\&576\& class=\&origin_image zh-lightbox-thumb\& width=\&768\& data-original=\&https:\u002F\\u002Fv2-96dfb8fbd6ddcda_r.png\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns='http:\u002F\u002Fwww.w3.org\u002FFsvg'%20width='768'%20height='576'&&\u002Fsvg&\& data-rawwidth=\&768\& data-rawheight=\&576\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&768\& data-original=\&https:\u002F\\u002Fv2-96dfb8fbd6ddcda_r.png\& data-actualsrc=\&https:\u002F\\u002Fv2-96dfb8fbd6ddcda_b.png\&\u003E\u003C\u002Ffigure\u003E\u003Cbr\u003E\u003Cp\u003E\u003Cu\u003E图2 典型的数据科学过程:包括原始数据采集,数据预处理和清洗,数据探索式分析,数据计算建模,数据可视化和报表,数据产品和决策支持等。\u003C\u002Fu\u003E\u003C\u002Fp\u003E\u003Cp\u003E传统信息化技术多是在结构化和小规模数据上进行计算处理,大数据时代呢,数据变大了,数据多源异构了,需要智能预测和分析支持了,所以核心技术离不开机器学习、数据挖掘、人工智能等,另外还需考虑海量数据的分布式存储管理和机器学习算法并行处理,所以数据的大规模增长客观上促进了DT(Data Technology)技术生态的繁荣与发展,包括大数据采集、数据预处理、分布式存储、NOSQL数据库、多模式计算(批处理、在线处理、实时流处理、内存处理)、多模态计算(图像、文本、视频、音频)、数据仓库、数据挖掘、机器学习、人工智能、深度学习、并行计算、可视化等各种技术范畴和不同的层面。\u003C\u002Fp\u003E\u003Cp\u003E可见DT这种新技术泛型生态下的大数据版图十分庞杂,当然也有泡沫的成分存在,这个版图也会时刻处于变化之中,就像PC时代的应用程序,互联网上的网站,移动互联网的APP,大数据时代的技术和产品也正处于优胜劣汰的过程。下面我们来看2017版的大数据版图:\u003C\u002Fp\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\\u002Fv2-db2065244ccbbdb215e9c5_b.png\& data-rawwidth=\&768\& data-rawheight=\&523\& class=\&origin_image zh-lightbox-thumb\& width=\&768\& data-original=\&https:\u002F\\u002Fv2-db2065244ccbbdb215e9c5_r.png\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns='http:\u002F\u002Fwww.w3.org\u002FFsvg'%20width='768'%20height='523'&&\u002Fsvg&\& data-rawwidth=\&768\& data-rawheight=\&523\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&768\& data-original=\&https:\u002F\\u002Fv2-db2065244ccbbdb215e9c5_r.png\& data-actualsrc=\&https:\u002F\\u002Fv2-db2065244ccbbdb215e9c5_b.png\&\u003E\u003C\u002Ffigure\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\\u002Fv2-ff73621cfbcbef081ee548e0_b.png\& data-rawwidth=\&640\& data-rawheight=\&358\& class=\&origin_image zh-lightbox-thumb\& width=\&640\& data-original=\&https:\u002F\\u002Fv2-ff73621cfbcbef081ee548e0_r.png\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns='http:\u002F\u002Fwww.w3.org\u002FFsvg'%20width='640'%20height='358'&&\u002Fsvg&\& data-rawwidth=\&640\& data-rawheight=\&358\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&640\& data-original=\&https:\u002F\\u002Fv2-ff73621cfbcbef081ee548e0_r.png\& data-actualsrc=\&https:\u002F\\u002Fv2-ff73621cfbcbef081ee548e0_b.png\&\u003E\u003C\u002Ffigure\u003E\u003Cp\u003E\u003Cu\u003E图3 国外和国内中关村大数据产业版图(包括数据、技术、应用、企业等)\u003C\u002Fu\u003E\u003C\u002Fp\u003E\u003Cp\u003E上述大数据版图基本涵盖了国外大数据相关技术和产业链(国内中关村版的大数据技术和企业还是太少,多是传统信息技术企业在凑数),从大数据源,开源技术框架,大数据基础设施建设,大数据核心的计算挖掘分析,大数据行业应用等方面进行了相关技术、产品和企业的展示。大数据产业链从数据源〉开源技术〉基础设施〉分析计算〉行业应用到产品落地,每个链条环节和下辖的细分内容都涉及大量数据分析技术。不管是学习技术还是开发产品,分析和理解这个大数据产业版图都十分必要。\u003C\u002Fp\u003E\u003Cp\u003E版图细节不做赘述,我们重点从学习的角度来看DT(Data technology)技术泛型下包括那些核心技术,各技术领域之间是什么样的逻辑关系,这是学习大数据首先要搞清楚的问题:\u003C\u002Fp\u003E\u003Cp\u003E(1)机器学习(machine learning)\u003C\u002Fp\u003E\u003Cp\u003E首先我们说说机器学习,为什么先说它,因为机器学习是大数据处理承上启下的关键技术,机器学习往上是深度学习、人工智能,机器学习往下是数据挖掘和统计学习。机器学习属于计算机和统计学交叉学科,核心目标是通过函数映射、数据训练、最优化求解、模型评估等一系列算法实现让计算机拥有对数据进行自动分类和预测的功能,机器学习领域包括很多种类的智能处理算法,分类、聚类、回归、相关分析等每类下面都有很多算法进行支撑,如SVM,神经网络,Logistic回归,决策树、EM、HMM、贝叶斯网络、随机森林、LDA等,无论是网络排名的十大算法还是二十大算法,都只能说是冰山一角,随着深度学习核心技术的突破性发展,机器学习算法得以高速扩张;总之大数据处理要智能化,机器学习是核心的核心,深度学习、数据挖掘、商业智能、人工智能,大数据等概念的核心技术就是机器学习,机器学习用于图像处理和识别就是机器视觉,机器学习用于模拟人类语言就是自然语言处理,机器视觉和自然语言处理也是支撑人工智能的核心技术,机器学习用于通用的数据分析就是数据挖掘。深度学习(deep learning)是机器学习里面现在比较火的一个子领域,属于原来人工神经网络算法的一系列变种,由于在大数据条件下图像,语音识别等领域的学习效果显著,有望成为人工智能取得突破的关键性技术,所以各大研究机构和IT巨头们都对其投入了极大的关注。\u003C\u002Fp\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\\u002Fv2-8764532fbec14a3fef407b234d5e8677_b.jpg\& data-rawwidth=\&1024\& data-rawheight=\&686\& class=\&origin_image zh-lightbox-thumb\& width=\&1024\& data-original=\&https:\u002F\\u002Fv2-8764532fbec14a3fef407b234d5e8677_r.jpg\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns='http:\u002F\u002Fwww.w3.org\u002FFsvg'%20width='1024'%20height='686'&&\u002Fsvg&\& data-rawwidth=\&1024\& data-rawheight=\&686\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&1024\& data-original=\&https:\u002F\\u002Fv2-8764532fbec14a3fef407b234d5e8677_r.jpg\& data-actualsrc=\&https:\u002F\\u002Fv2-8764532fbec14a3fef407b234d5e8677_b.jpg\&\u003E\u003C\u002Ffigure\u003E\u003Cbr\u003E\u003Cp\u003E(2)数据挖掘(data mining)\u003C\u002Fp\u003E\u003Cp\u003E数据挖掘可以说是机器学习的一个超集,是一个较为宽泛的概念,类似于采矿,要从大量矿石里面挖出宝石,从海量数据里面挖掘有价值有规律的信息同理。数据挖掘核心技术来自于机器学习领域,如深度学习是机器学习中一类比较火的算法,当然也可以用于数据挖掘。还有传统的商业智能(BI)领域也包括数据挖掘,OLAP多维数据分析可以做挖掘分析,甚至Excel基本的统计分析也可以做挖掘。关键是你的技术能否真正挖掘出有用的信息,然后这些信息可以指导决策。数据挖掘的提法比机器学习要早,应用范围要广,数据挖掘和机器学习是大数据分析的核心技术,互为支撑,为大数据处理提供相关模型和算法,而模型和算法是大数据处理的关键,探索式交互式分析、可视化分析、数据的采集存储和管理等都较少用到学习模型。\u003C\u002Fp\u003E\u003Cp\u003E(3)人工智能(artifical intelligence)\u003C\u002Fp\u003E\u003Cp\u003EAI和大数据是相互促进的关系,一方面,AI基础理论技术的发展为大数据机器学习和数据挖掘提供了更丰富的模型和算法,如近几年的深度学习一系列技术(强化学习、对抗学习等)和方法;另一方面,大数据为AI的发展提供了新的动力和燃料,数据规模大了之后,传统机器学习算法面临挑战,要做并行化、要加速要改进。AI的终极目标是机器智能化拟人化,机器能完成和人一样的工作,人脑仅凭几十瓦的功率,能够处理种种复杂的问题,怎样看都是很神奇的事情。虽然机器的计算能力比人类强很多,但人类的理解能力,感性的推断,记忆和幻想,心理学等方面的功能,机器是难以比肩的,所以机器要拟人化很难单从技术角度把人工智能讲清楚。人工智能与机器学习的关系,两者的相当一部分技术、算法都是重合的,深度学习在计算机视觉和棋牌走步等领域取得了巨大的成功,比如谷歌自动识别一只猫,谷歌的AlpaGo还击败了人类顶级的专业围棋手等。但深度学习在现阶段还不能实现类脑计算,最多达到仿生层面,情感,记忆,认知,经验等人类独有能力机器在短期难以达到。\u003C\u002Fp\u003E\u003Cp\u003E(4)其它大数据处理基础技术\u003C\u002Fp\u003E\u003Cp\u003E如图4,大数据基础技术包括计算机科学相关如编程、云计算、分布式计算、系统架构设计等方向,还有机器学习的理论基础包括如算法、数据结构、概率论、代数、矩阵分析、统计学习、特征工程等方面;商业分析与理解如领域知识管理、产品设计、可视化等技术;数据管理如数据采集、数据预处理、数据库、数据仓库、信息检索、多维分析、分布式存储等技术。这些理论与技术是为大数据的基础管理、机器学习和应用决策等多个方面服务的。\u003C\u002Fp\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\\u002Fv2-a9d70a59ccfb465d6d40db_b.png\& data-rawwidth=\&768\& data-rawheight=\&566\& class=\&origin_image zh-lightbox-thumb\& width=\&768\& data-original=\&https:\u002F\\u002Fv2-a9d70a59ccfb465d6d40db_r.png\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns='http:\u002F\u002Fwww.w3.org\u002FFsvg'%20width='768'%20height='566'&&\u002Fsvg&\& data-rawwidth=\&768\& data-rawheight=\&566\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&768\& data-original=\&https:\u002F\\u002Fv2-a9d70a59ccfb465d6d40db_r.png\& data-actualsrc=\&https:\u002F\\u002Fv2-a9d70a59ccfb465d6d40db_b.png\&\u003E\u003C\u002Ffigure\u003E\u003Cp\u003E\u003Cu\u003E图4 数据科学的技术维度\u003C\u002Fu\u003E\u003C\u002Fp\u003E\u003Cp\u003E上图是数据科学的5个技术维度,基本涵盖了数据科学的关键支撑技术体系,从数据管理、计算机科学基础理论技术、数据分析、商业理解决策与设计几个方面进行了数据科学相关技术的梳理,其中计算机科学基础理论方法与数据分析两个板块的学习内容是最多的,也是最重要的。现阶段的大数据产品和服务多是在数据管理版块,分析板块和业务决策板块的对接是数据科学和大数据产业后续发展的关键突破点。\u003C\u002Fp\u003E\u003Cp\u003E另外图中的Art&Design版块只列了交通沟通和可视化,其实还不够,这个艺术(Art)还说明了数据科学与传统信息化技术的本质不同,数据科学的核心能力是根据问题提出设想,再把设想转化为学习模型,这种能力是要讲艺术的,没有这样的设计艺术,计算机要智能化不是那么容易。\u003C\u002Fp\u003E\u003Cp\u003E为什么上升为艺术了?因为经验告诉我们,把现实问题转化为模型没有标准答案,可选的模型不只一种,技术路线多样,评价指标也有多个维度,甚至优化方法也有很多种,机器学习的本质就是在处理这门艺术,给定原始数据、限制条件和问题描述,没有标准答案,每种方案的选择就是一种设想假设,需要具备利用精确的测试和实验方法来验证和证伪这些假设的能力,从这个层面讲,未来所有科学问题以及商业、政府管理决策问题都将是数据科学问题,而机器学习是数据科学的核心。\u003C\u002Fp\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\\u002Fv2-281d09b50e03c17c65d8_b.jpg\& data-rawwidth=\&1024\& data-rawheight=\&683\& class=\&origin_image zh-lightbox-thumb\& width=\&1024\& data-original=\&https:\u002F\\u002Fv2-281d09b50e03c17c65d8_r.jpg\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns='http:\u002F\u002Fwww.w3.org\u002FFsvg'%20width='1024'%20height='683'&&\u002Fsvg&\& data-rawwidth=\&1024\& data-rawheight=\&683\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&1024\& data-original=\&https:\u002F\\u002Fv2-281d09b50e03c17c65d8_r.jpg\& data-actualsrc=\&https:\u002F\\u002Fv2-281d09b50e03c17c65d8_b.jpg\&\u003E\u003C\u002Ffigure\u003E\u003Cbr\u003E\u003Cp\u003E\u003Cb\u003E3.大数据盲人摸象:如何构建完整的知识结构和分析能力\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Cp\u003E从数字化、信息化、网络化到未来的智能化时代,移动互联网、物联网、云计算、大数据、人工智能等前沿信息技术领域,逐个火了一遍。也代表了信息技术发展的大趋势,什么是大数据,大数据的技术范畴及其逻辑关系,估计很多人都是根据自己所熟悉的领域在盲人摸象(如图5)。\u003C\u002Fp\u003E\u003Cp\u003E其实我这里讲的盲人摸象并不是贬义,毕竟一个领域的学习到精通就是从盲人摸象式开始的。大数据、数据科学都是很虚的一个概念,分析目标和采用技术都包罗万象,就好比写程序,分前端和后端,分B\u002FS和C\u002FS,分嵌入式、企业应用和APP等,开发语言更是有数十种,不同方向所需要的技术也是大不相同。\u003C\u002Fp\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\\u002Fv2-50e28dc4e9bc_b.png\& data-rawwidth=\&768\& data-rawheight=\&567\& class=\&origin_image zh-lightbox-thumb\& width=\&768\& data-original=\&https:\u002F\\u002Fv2-50e28dc4e9bc_r.png\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns='http:\u002F\u002Fwww.w3.org\u002FFsvg'%20width='768'%20height='567'&&\u002Fsvg&\& data-rawwidth=\&768\& data-rawheight=\&567\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&768\& data-original=\&https:\u002F\\u002Fv2-50e28dc4e9bc_r.png\& data-actualsrc=\&https:\u002F\\u002Fv2-50e28dc4e9bc_b.png\&\u003E\u003C\u002Ffigure\u003E\u003Cp\u003E\u003Cu\u003E图5 大数据盲人摸象\u003C\u002Fu\u003E\u003C\u002Fp\u003E\u003Cp\u003E所以怎么从点到面,构建大数据领域完整的知识结构和分析能力至关重要,某方面的技术和语言只是工具而已。\u003C\u002Fp\u003E\u003Cp\u003E大数据知识结构,就是既有精深的大数据基础理论知识,又有广博的知识面和应用全局观,具有大数据产业发展所需要的最合理、最优化、最关键的核心技术与知识体系。通过合理的知识结构和科学的大数据思维方法,提高大数据分析实战技能。这个目标很大,但还是可以达到的,首先要搞清楚大数据产业链的情况,接下来要明确大数据技术栈也就是相关技术体系,最后定下学习目标和应用方向,是面对什么行业的数据,是关注存储还是机器学习,数据规模是什么量级,数据类型是文本、图像、网页还是商业数据库?每个方向所用技术有较大差异,需要找准学习的兴趣点和切入点。\u003C\u002Fp\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\\u002Fv2-92d725f5d419cf2ce488e855db6c87ad_b.png\& data-rawwidth=\&768\& data-rawheight=\&623\& class=\&origin_image zh-lightbox-thumb\& width=\&768\& data-original=\&https:\u002F\\u002Fv2-92d725f5d419cf2ce488e855db6c87ad_r.png\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns='http:\u002F\u002Fwww.w3.org\u002FFsvg'%20width='768'%20height='623'&&\u002Fsvg&\& data-rawwidth=\&768\& data-rawheight=\&623\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&768\& data-original=\&https:\u002F\\u002Fv2-92d725f5d419cf2ce488e855db6c87ad_r.png\& data-actualsrc=\&https:\u002F\\u002Fv2-92d725f5d419cf2ce488e855db6c87ad_b.png\&\u003E\u003C\u002Ffigure\u003E\u003Cp\u003E\u003Cu\u003E图6 大数据技术栈与学习路线参考图\u003C\u002Fu\u003E\u003C\u002Fp\u003E\u003Cp\u003E上面这个大数据技术栈和学习路线图,可以说是一个大数据学习的总纲,专业性很强,值得初学者深入研究和理解,对我在前面提到的数据科学技术体系来讲,是更丰富的补充。比如基础学习部分包括线性代数、关系代数、数据库基础、CAP理论、OLAP、多维数据模型、数据预处理ETL等都分析得很到位。\u003C\u002Fp\u003E\u003Cp\u003E总之大数据学习不能像炒菜一样,等到把所有材料准备好了才下锅(因为这个领域技术体系庞杂应用目标广泛,就算学个十年二十年也难以掌握其大部分核心理论技术),而是结合自己的兴趣或工作需求,找一个点猛扎进去,掌握这个点的相关技术,深入理解其分析的流程、应用和评价等环节,搞透彻一个点之后,再以点带面,举一反三,逐步覆盖大数据各个领域,从而构建完整的知识结构和技术能力体系,这才是大数据学习的最佳路径。\u003C\u002Fp\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\\u002Fv2-ecbbc8ea3de348f3ec71e2_b.jpg\& data-rawwidth=\&1024\& data-rawheight=\&682\& class=\&origin_image zh-lightbox-thumb\& width=\&1024\& data-original=\&https:\u002F\\u002Fv2-ecbbc8ea3de348f3ec71e2_r.jpg\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns='http:\u002F\u002Fwww.w3.org\u002FFsvg'%20width='1024'%20height='682'&&\u002Fsvg&\& data-rawwidth=\&1024\& data-rawheight=\&682\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&1024\& data-original=\&https:\u002F\\u002Fv2-ecbbc8ea3de348f3ec71e2_r.jpg\& data-actualsrc=\&https:\u002F\\u002Fv2-ecbbc8ea3de348f3ec71e2_b.jpg\&\u003E\u003C\u002Ffigure\u003E\u003Cbr\u003E\u003Cp\u003E\u003Cb\u003E4.大数据要怎么学:数据科学特点与大数据学习误区\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Cp\u003E(1)大数据学习要业务驱动,不要技术驱动:数据科学的核心能力是解决问题。\u003C\u002Fp\u003E\u003Cp\u003E大数据的核心目标是数据驱动的智能化,要解决具体的问题,不管是科学研究问题,还是商业决策问题,抑或是政府管理问题。\u003C\u002Fp\u003E\u003Cp\u003E所以学习之前要明确问题,理解问题,所谓问题导向、目标导向,这个明确之后再研究和选择合适的技术加以应用,这样才有针对性,言必hadoop,spark的大数据分析是不严谨的。\u003C\u002Fp\u003E\u003Cp\u003E不同的业务领域需要不同方向理论、技术和工具的支持。如文本、网页要自然语言建模,随时间变化数据流需要序列建模,图像音频和视频多是时空混合建模;大数据处理如采集需要爬虫、倒入导出和预处理等支持,存储需要分布式云存储、云计算资源管理等支持,计算需要分类、预测、描述等模型支持,应用需要可视化、知识库、决策评价等支持。所以是业务决定技术,而不是根据技术来考虑业务,这是大数据学习要避免的第一个误区。\u003C\u002Fp\u003E\u003Cp\u003E(2)大数据学习要善用开源,不要重复造轮子:数据科学的技术基因在于开源。IT前沿领域的开源化已成不可逆转的趋势,Android开源让智能手机平民化,让我们跨入了移动互联网时代,智能硬件开源将带领跨入物联网时代,以Hadoop和Spark为代表的大数据开源生态加速了去IOE(IBM、ORACLE、EMC)进程,倒逼传统IT巨头拥抱开源,谷歌和OpenAI联盟的深度学习开源(以Tensorflow,Torch,Caffe等为代表)正在加速人工智能技术的发展。\u003C\u002Fp\u003E\u003Cp\u003E数据科学的标配语言R和Python更是因开源而生,因开源而繁荣,诺基亚因没把握开源大势而衰落。为什么要开源,这得益于IT发展的工业化和构件化,各大领域的基础技术栈和工具库已经很成熟,下一阶段就是怎么快速组合、快速搭积木、快速产出的问题,不管是linux,anroid还是tensorflow,其基础构件库基本就是利用已有开源库,结合新的技术方法实现,组合构建而成,很少在重复造轮子。\u003C\u002Fp\u003E\u003Cp\u003E另外,开源这种众包开发模式,是一种集体智慧编程的体现,一个公司无法积聚全球工程师的开发智力,而一个GitHub上的明星开源项目可以,所以要善用开源和集体智慧编程,而不要重复造轮子,这是大数据学习要避免的第二个误区。\u003C\u002Fp\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\\u002Fv2-97e8b705cd06edeefdde_b.jpg\& data-rawwidth=\&1024\& data-rawheight=\&682\& class=\&origin_image zh-lightbox-thumb\& width=\&1024\& data-original=\&https:\u002F\\u002Fv2-97e8b705cd06edeefdde_r.jpg\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns='http:\u002F\u002Fwww.w3.org\u002FFsvg'%20width='1024'%20height='682'&&\u002Fsvg&\& data-rawwidth=\&1024\& data-rawheight=\&682\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&1024\& data-original=\&https:\u002F\\u002Fv2-97e8b705cd06edeefdde_r.jpg\& data-actualsrc=\&https:\u002F\\u002Fv2-97e8b705cd06edeefdde_b.jpg\&\u003E\u003C\u002Ffigure\u003E\u003Cbr\u003E\u003Cp\u003E(3)大数据学习要以点带面,不贪大求全:数据科学要把握好碎片化与系统性。根据前文的大数据技术体系分析,我们可以看到大数据技术的深度和广度都是传统信息技术难以比拟的。\u003C\u002Fp\u003E\u003Cp\u003E我们的精力很有限,短时间内很难掌握多个领域的大数据理论和技术,数据科学要把握好碎片化和系统性的关系。\u003C\u002Fp\u003E\u003Cp\u003E何为碎片化,这个碎片化包括业务层面和技术层面,大数据不只是谷歌,亚马逊,BAT等互联网企业,每一个行业、企业里面都有它去关注数据的痕迹:一条生产线上的实时传感器数据,车辆身上的传感数据,高铁设备的运行状态数据,交通部门的监控数据,医疗机构的病例数据,政府部门的海量数据等等,大数据的业务场景和分析目标是碎片化的,而且相互之间分析目标的差异很大;另外,技术层面来讲,大数据技术就是万金油,一切服务于数据分析和决策的技术都属于这个范畴,其技术体系也是碎片化的。\u003C\u002Fp\u003E\u003Cp\u003E那怎么把握系统性呢,不同领域的大数据应用有其共性关键技术,其系统技术架构也有相通的地方,如系统的高度可扩展性,能进行横向数据大规模扩张,纵向业务大规模扩展,高容错性和多源异构环境的支持,对原有系统的兼容和集成等等,每个大数据系统都应该考虑上述问题。如何把握大数据的碎片化学习和系统性设计,离不开前面提出的两点误区,建议从应用切入、以点带面,先从一个实际的应用领域需求出发,搞定一个一个技术点,有一定功底之后,再举一反三横向扩展逐步理解其系统性技术。\u003C\u002Fp\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\\u002Fv2-d844d33d90cdc344c36fc96_b.jpg\& data-rawwidth=\&1024\& data-rawheight=\&682\& class=\&origin_image zh-lightbox-thumb\& width=\&1024\& data-original=\&https:\u002F\\u002Fv2-d844d33d90cdc344c36fc96_r.jpg\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns='http:\u002F\u002Fwww.w3.org\u002FFsvg'%20width='1024'%20height='682'&&\u002Fsvg&\& data-rawwidth=\&1024\& data-rawheight=\&682\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&1024\& data-original=\&https:\u002F\\u002Fv2-d844d33d90cdc344c36fc96_r.jpg\& data-actualsrc=\&https:\u002F\\u002Fv2-d844d33d90cdc344c36fc96_b.jpg\&\u003E\u003C\u002Ffigure\u003E\u003Cbr\u003E\u003Cp\u003E(4)大数据学习要勇于实践,不要纸上谈兵:数据科学还是数据工程?\u003C\u002Fp\u003E\u003Cp\u003E大数据只有和特定领域的应用结合起来才能产生价值,数据科学还是数据工程是大数据学习要明确的关键问题,搞学术发paper数据科学OK,但要大数据应用落地,如果把数据科学成果转化为数据工程进行落地应用,难度很大,这也是很多企业质疑数据科学价值的原因。且不说这种转化需要一个过程,从业人员自身也是需要审视思考的。\u003C\u002Fp\u003E\u003Cp\u003E工业界包括政府管理机构如何引入研究智力,数据分析如何转化和价值变现?数据科学研究人员和企业大数据系统开发工程人员都得想想这些关键问题。\u003C\u002Fp\u003E\u003Cp\u003E目前数据工程要解决的关键问题主线是数据(Data)&知识(Knowledge)&服务(Service),数据采集和管理,挖掘分析获取知识,知识规律进行决策支持和应用转化为持续服务。解决好这三个问题,才算大数据应用落地,那么从学习角度讲,DWS就是大数据学习要解决问题的总目标,特别要注重数据科学的实践应用能力,而且实践要重于理论。从模型,特征,误差,实验,测试到应用,每一步都要考虑是否能解决现实问题,模型是否具备可解释性,要勇于尝试和迭代,模型和软件包本身不是万能的,大数据应用要注重鲁棒性和实效性,温室模型是没有用的,训练集和测试集就OK了吗?\u003C\u002Fp\u003E\u003Cp\u003E大数据如何走出实验室和工程化落地,一是不能闭门造车,模型收敛了就想当然万事大吉了;二是要走出实验室充分与业界实际决策问题对接;三是关联关系和因果关系都不能少,不能描述因果关系的模型无助于解决现实问题;四是注重模型的迭代和产品化,持续升级和优化,解决新数据增量学习和模型动态调整的问题。\u003C\u002Fp\u003E\u003Cp\u003E所以,大数据学习一定要清楚我是在做数据科学还是数据工程,各需要哪些方面的技术能力,现在处于哪一个阶段等,不然为了技术而技术,是难以学好和用好大数据的。\u003C\u002Fp\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\\u002Fv2-4a708b7c002f66c01fd02bbc3d1e6d88_b.jpg\& data-rawwidth=\&1024\& data-rawheight=\&963\& class=\&origin_image zh-lightbox-thumb\& width=\&1024\& data-original=\&https:\u002F\\u002Fv2-4a708b7c002f66c01fd02bbc3d1e6d88_r.jpg\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns='http:\u002F\u002Fwww.w3.org\u002FFsvg'%20width='1024'%20height='963'&&\u002Fsvg&\& data-rawwidth=\&1024\& data-rawheight=\&963\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&1024\& data-original=\&https:\u002F\\u002Fv2-4a708b7c002f66c01fd02bbc3d1e6d88_r.jpg\& data-actualsrc=\&https:\u002F\\u002Fv2-4a708b7c002f66c01fd02bbc3d1e6d88_b.jpg\&\u003E\u003C\u002Ffigure\u003E\u003Cbr\u003E\u003Cp\u003E(5)大数据学习的三个阶段:不同阶段的技术路线各有侧重,把握主要矛盾。在大数据应用实施过程中,由于技术和成本考虑,不可能短时间内解决所有问题,大数据应用本身有其规律和特点,比如分析目标一定是要跟数据规模匹配,分析技术的采用取决于数据结构和数据源条件,数据集成一定要覆盖比较全面的业务背景,关键环节数据不能有缺失等等。大数据学习可以根据应用目标分三个阶段:\u003C\u002Fp\u003E\u003Cp\u003E(1)大数据基础设施建设阶段:这个阶段的重点是把大数据存起来,管起来,能用起来,同时要考虑大数据平台和原有业务系统的互通联合问题。一句话,做好全局数据集成解决数据孤岛问题!要完成大数据基础设施系统建设开发,需要明确数据采集、存储和分析各层核心组件的选型和使用,搭建稳定的大数据集群,或选择私有云方案的服务集群,与生产系统并线运行,使待分析的历史数据和实时数据得以采集并源源不断流入大数据系统。这个阶段的关键技术学习包括采集爬虫、数据接口、分布式存储、数据预处理ETL、数据集成、数据库和数据仓库管理、云计算和资源调度管理等等内容。\u003C\u002Fp\u003E\u003Cp\u003E(2)大数据描述性分析阶段:此阶段主要定位于离线或在线对数据进行基本描述统计和探索式可视化分析,对管理起来的大数据能进行海量存储条件下的交互式查询、汇总、统计和可视化,如果建设了BI系统的,还需整合传统BI技术进行OLAP、KPI、Report、Chart、Dashboard等分析和初步的描述型数据挖掘分析。这个基础分析阶段是对数据集成质量的检验,也是对海量数据条件下的分布式存储管理技术应用稳定性的测试,同时要能替代或集成传统BI的各类报表。这个阶段的关键技术学习包括可视化、探索式交互式分析、多维分析、各类基本报表和图表的查询设计等等。\u003C\u002Fp\u003E\u003Cp\u003E(3)大数据高级预测分析和生产部署阶段:在初步描述分析结果合理,符合预期目标,数据分布式管理和描述型分析稳定成熟的条件下,可结合进一步智能化分析需求,采用如深度学习等适用海量数据处理的机器学习模型,进行高级预测性挖掘分析。并通过逐步迭代优化挖掘模型和数据质量,形成稳定可靠和性能可扩展的智能预测模型,并在企业相关业务服务中进行分析结果的决策支持,进行验证、部署、评估和反馈。这个阶段的关键技术包括机器学习建模、决策支持、可视化、模型部署和运维等。\u003C\u002Fp\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\\u002Fv2-af690df985d74f1bcf14b318abd82d9c_b.jpg\& data-rawwidth=\&1024\& data-rawheight=\&682\& class=\&origin_image zh-lightbox-thumb\& width=\&1024\& data-original=\&https:\u002F\\u002Fv2-af690df985d74f1bcf14b318abd82d9c_r.jpg\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns='http:\u002F\u002Fwww.w3.org\u002FFsvg'%20width='1024'%20height='682'&&\u002Fsvg&\& data-rawwidth=\&1024\& data-rawheight=\&682\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&1024\& data-original=\&https:\u002F\\u002Fv2-af690df985d74f1bcf14b318abd82d9c_r.jpg\& data-actualsrc=\&https:\u002F\\u002Fv2-af690df985d74f1bcf14b318abd82d9c_b.jpg\&\u003E\u003C\u002Ffigure\u003E\u003Cbr\u003E\u003Cp\u003E在上述几个阶段的技术学习过程中,需要注意几个关键问题:\u003C\u002Fp\u003E\u003Cp\u003E一是重视可视化和业务决策,大数据分析结果是为决策服务,而大数据决策的表现形式,可视化技术的优劣起决定性作用;\u003C\u002Fp\u003E\u003Cp\u003E二是问问自己,Hadoop、Spark等是必须的吗?要从整个大数据技术栈来考虑技术选型和技术路线的确定;\u003C\u002Fp\u003E\u003Cp\u003E三是建模问题处于核心地位,模型的选择和评估至关重要,在课堂和实验室中,多数模型的评估是静态的,少有考虑其运行速度、实时性及增量处理,因此多使用复杂的臃肿模型,其特征变量往往及其复杂。而Kaggle竞赛中的各种Boost方法,XGBDT、随机森林等模型,在数据挖掘和机器学习教材中却少有提及,所以要充分参考业界实战经验不能尽信书;\u003C\u002Fp\u003E\u003Cp\u003E四是开发语言的选择,基础框架系统Java是必须掌握的,应用级的机器学习和数据分析库Python是必须掌握的,而要深入各种框架和学习库的底层,C++是必须掌握的;五是模型的产品化,需要将实际数据通过管道设计转换为输入特征传递给模型,如何最小化模型在线上和线下的表现差距,这些都是要解决关键的问题。\u003C\u002Fp\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\\u002Fv2-337f3a3ce9c827ef42dde3_b.jpg\& data-rawwidth=\&1024\& data-rawheight=\&646\& class=\&origin_image zh-lightbox-thumb\& width=\&1024\& data-original=\&https:\u002F\\u002Fv2-337f3a3ce9c827ef42dde3_r.jpg\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns='http:\u002F\u002Fwww.w3.org\u002FFsvg'%20width='1024'%20height='646'&&\u002Fsvg&\& data-rawwidth=\&1024\& data-rawheight=\&646\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&1024\& data-original=\&https:\u002F\\u002Fv2-337f3a3ce9c827ef42dde3_r.jpg\& data-actualsrc=\&https:\u002F\\u002Fv2-337f3a3ce9c827ef42dde3_b.jpg\&\u003E\u003C\u002Ffigure\u003E\u003Cbr\u003E\u003Cp\u003E(6)其它补充:Kaggle,众包与培训。众包是一种基于互联网的创新生产组织形式,企业利用网络将工作分配出去,通过让更合适的人群参与其中来发现创意和解决问题,如维基百科,还有IT资源社区GitHub,都是典型的众包平台。\u003C\u002Fp\u003E\u003Cp\u003E众包+开源极大推动了IT产业的快速发展,当然Kaggle作为数据科学领域顶级的众包平台,其影响力远不止于此(所以刚刚被谷歌收购)。\u003C\u002Fp\u003E\u003Cp\u003E企业和研究者可在Kaggle上发布数据,数据分析人员可在其上进行竞赛以产生最好的模型。这一众包模式本质就是集体智慧编程的体现,即有众多策略可以用于解决几乎所有预测建模问题,而分析人员不可能一开始就能找到最佳方案,Kaggle的目标就是通过众包的形式来解决这一难题,进而使数据科学成为一场集体智慧运动。所以说要学好大数据,严重推荐去Kaggle冲冲浪,很好的历练平台。\u003C\u002Fp\u003E\u003Cp\u003E至于大数据培训嘛,基础理论和技术还不甚了解的情况下可以去培训学习,有基础之后还得靠自己多练多解决实际问题。\u003C\u002Fp\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\\u002Fv2-15b04ca8a5226912bbcdd_b.jpg\& data-rawwidth=\&1024\& data-rawheight=\&683\& class=\&origin_image zh-lightbox-thumb\& width=\&1024\& data-original=\&https:\u002F\\u002Fv2-15b04ca8a5226912bbcdd_r.jpg\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns='http:\u002F\u002Fwww.w3.org\u002FFsvg'%20width='1024'%20height='683'&&\u002Fsvg&\& data-rawwidth=\&1024\& data-rawheight=\&683\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&1024\& data-original=\&https:\u002F\\u002Fv2-15b04ca8a5226912bbcdd_r.jpg\& data-actualsrc=\&https:\u002F\\u002Fv2-15b04ca8a5226912bbcdd_b.jpg\&\u003E\u003C\u002Ffigure\u003E\u003Cbr\u003E\u003Cp\u003E5.结论与展望\u003C\u002Fp\u003E\u003Cp\u003E做个小结,大数据不是银弹(Silver Bullet),大数据的兴起只是说明了一种现象,随着科技的高速发展,数据在人类生活和决策中所占的比重越来越大。面对如此广度和深度的大数据技术栈和工具集,如何学习和掌握好大数据分析这种技能,犹如盲人摸象,冷暖自知。\u003C\u002Fp\u003E\u003Cp\u003E不过技术的学习和应用也是相通的,条条大路通罗马,关键是要找准切入点,理论与实践结合,有全局观,工程化思维,对复杂系统设计开发与关键技术体系的主要矛盾要有所把握。熟悉大数据基础理论与算法、应用切入、以点带面、举一反三、横向扩展,从而构建完整的大数据知识结构和核心技术能力,这样的学习效果就会好很多。\u003C\u002Fp\u003E\u003Cp\u003E另外,技术发展也遵循量变到质变规律,人工智能+物联网+大数据+云计算是四位一体发展的(时间有先后,但技术实质性突破都在最近几年),未来智能时代的基础设施、核心架构将基于这四个层面,这种社会演化趋势也很明显:农业时代〉工业时代〉互联网时代〉智能化时代。在这个四位一体智能技术链条里面,物联网重在数据采集,云计算重在基础设施,大数据技术处于核心地位,人工智能则是发展目标,所以学习大数据技术还需要对这四个方面加以综合研究和理解。\u003C\u002Fp\u003E\u003Cp\u003E最后泼点冷水,简单说说大数据的前景,未来大数据岗位需求不会有媒体宣传的那么多,大数据具体工作不会有美国大片里那么炫酷,不要老盯着BAT,我国大数据的发展还处于初级阶段。总之技术归于技术,实践才能出真知,落地解决问题是关键,Palantir也是十年才磨出一剑。\u003C\u002Fp\u003E\u003Cp\u003E不过在大数据时代,人人都得懂点数据分析,这倒是最实在的,不懂编程?那就学Python吧,如果说人工智能时代的大妈和小学生都能编程的话,那一定用的是Python\u003C\u002Fp\u003E&,&updated&:new Date(&T03:49:08.000Z&),&canComment&:false,&commentPermission&:&anyone&,&commentCount&:1,&collapsedCount&:0,&likeCount&:3,&state&:&published&,&isLiked&:false,&slug&:&&,&isTitleImageFullScreen&:false,&rating&:&none&,&titleImage&:&https:\u002F\\u002Fv2-c3ab4f565ca4dd8a6f172f_r.jpg&,&links&:{&comments&:&\u002Fapi\u002Fposts\u002F2Fcomments&},&reviewers&:[],&topics&:[{&url&:&https:\u002F\\u002Ftopic\u002F&,&id&:&&,&name&:&大数据&},{&url&:&https:\u002F\\u002Ftopic\u002F&,&id&:&&,&name&:&数据分析&},{&url&:&https:\u002F\\u002Ftopic\u002F&,&id&:&&,&name&:&大数据分析&}],&adminClosedComment&:false,&titleImageSize&:{&width&:1017,&height&:548},&href&:&\u002Fapi\u002Fposts\u002F&,&excerptTitle&:&&,&tipjarState&:&closed&,&annotationAction&:[],&sourceUrl&:&&,&pageCommentsCount&:1,&hasPublishingDraft&:false,&snapshotUrl&:&&,&publishedTime&:&T11:49:08+08:00&,&url&:&\u002Fp\u002F&,&lastestLikers&:[{&bio&:null,&isFollowing&:false,&hash&:&e4f7d1fee4391&,&uid&:131200,&isOrg&:false,&slug&:&jie-ju-lu-jiang&,&isFollowed&:false,&description&:&&,&name&:&截距鹭江&,&profileUrl&:&https:\u002F\\u002Fpeople\u002Fjie-ju-lu-jiang&,&avatar&:{&id&:&da8e974dc&,&template&:&https:\u002F\\u002F{id}_{size}.jpg&},&isOrgWhiteList&:false,&isBanned&:false},{&bio&:&硕士在读&,&isFollowing&:false,&hash&:&11a3d779cb045da5dd039a63b88e69a9&,&uid&:956400,&isOrg&:false,&slug&:&peng4134&,&isFollowed&:false,&description&:&&,&name&:&peng4134&,&profileUrl&:&https:\u002F\\u002Fpeople\u002Fpeng4134&,&avatar&:{&id&:&ce1d0e766cbfa&,&template&:&https:\u002F\\u002F{id}_{size}.jpg&},&isOrgWhiteList&:false,&isBanned&:false},{&bio&:&Teacher&,&isFollowing&:false,&hash&:&0da4b6b5f17bee97d85c7a&,&uid&:396500,&isOrg&:false,&slug&:&xu-cheng-ming-9&,&isFollowed&:false,&description&:&&,&name&:&徐承铭&,&profileUrl&:&https:\u002F\\u002Fpeople\u002Fxu-cheng-ming-9&,&avatar&:{&id&:&da8e974dc&,&template&:&https:\u002F\\u002F{id}_{size}.jpg&},&isOrgWhiteList&:false,&isBanned&:false}],&summary&:&\u003Cimg src=\&http:\u002F\\u002Fv2-d52ea3fce710fe50d3b2.jpg\& data-rawwidth=\&1024\& data-rawheight=\&695\& class=\&origin_image inline-img zh-lightbox-thumb\& data-original=\&http:\u002F\\u002Fv2-d52ea3fce710fe50d3b1167a_r.jpg\&\u003E新如何学习\u003Ca href=\&http:\u002F\\u002F\& data-title=\&大数据技术\& class=\&\&\u003E\u003Cb\u003E\u003Cu\u003E大数据技术\u003C\u002Fu\u003E\u003C\u002Fb\u003E\u003C\u002Fa\u003E?大数据怎么入门?怎么做大数据分析?数据科学需要学习那些技术?大数据的应用前景等等问题。由于大数据技术涉及内容太庞杂,大数据应用领域广泛,而且各领域和方向采用的关键技术差异性也会较大,难以三言两语说清楚,本文从数据科学…&,&reviewingCommentsCount&:0,&meta&:{&previous&:null,&next&:null},&annotationDetail&:null,&commentsCount&:1,&likesCount&:3,&FULLINFO&:true}},&User&:{&xiao-ming-tong-xue-66-17&:{&isFollowed&:false,&name&:&小茗同学&,&headline&:&&,&avatarUrl&:&https:\u002F\\u002Fv2-64cabe286a7cec1582bce935c9cc9ef6_s.jpg&,&isFollowing&:false,&type&:&people&,&slug&:&xiao-ming-tong-xue-66-17&,&bio&:&数据分析师&,&hash&:&b29b8dfa30a7aedae24f5cc&,&uid&:460000,&isOrg&:false,&description&:&&,&badge&:{&identity&:null,&bestAnswerer&:null},&profileUrl&:&https:\u002F\\u002Fpeople\u002Fxiao-ming-tong-xue-66-17&,&avatar&:{&id&:&v2-64cabe286a7cec1582bce935c9cc9ef6&,&template&:&https:\u002F\\u002F{id}_{size}.jpg&},&isOrgWhiteList&:false,&isBanned&:false}},&Comment&:{},&favlists&:{}},&me&:{},&global&:{&experimentFeatures&:{&ge3&:&ge3_9&,&ge2&:&ge2_1&,&nwebStickySidebar&:&sticky&,&androidPassThroughPush&:&all&,&newMore&:&new&,&nwebFeedAd&:&experiment&,&newSign&:&oldVersion&,&liveReviewBuyBar&:&live_review_buy_bar_2&,&qawebRelatedReadingsContentControl&:&open&,&liveStore&:&ls_a2_b2_c1_f2&,&qawebThumbnailAbtest&:&new&,&nwebSearch&:&nweb_search_heifetz&,&searchHybridTabs&:&without-tabs&,&enableVoteDownReasonMenu&:&disable&,&iOSEnableFeedModuleWWANAritclePreRender&:&iOS_FeedModule_WWAN_PreRender_Enable&,&isOffice&:&false&,&enableTtsPlay&:&false&,&liveDetailWechatBanner&:&Live_detail_wechat_banner_1&,&wechatShareModal&:&wechat_share_modal_show&,&newLiveFeedMediacard&:&old&,&homeUi2&:&default&,&showVideoUploadAttention&:&true&,&recommendationAbtest&:&new&,&qrcodeLogin&:&qrcode&,&isShowUnicomFreeEntry&:&unicom_free_entry_off&,&newMobileColumnAppheader&:&new_header&,&androidDbCommentWithRepinRecord&:&open&,&androidDbRecommendAction&:&open&,&zcmLighting&:&zcm&,&favAct&:&default&,&appStoreRateDialog&:&close&,&mobileQaPageProxyHeifetz&:&m_qa_page_nweb&,&newAppViewRelatedAd&:&yes&,&default&:&None&,&isNewNotiPanel&:&yes&,&androidDbRepinSelection&:&open&,&nwebRelatedAdvert&:&default&,&qaStickySidebar&:&sticky_sidebar&,&androidProfilePanel&:&panel_b&,&nwebWriteAnswer&:&experiment&}},&columns&:{&next&:{}},&columnPosts&:{},&columnSettings&:{&colomnAuthor&:[],&uploadAvatarDetails&:&&,&contributeRequests&:[],&contributeRequestsTotalCount&:0,&inviteAuthor&:&&},&postComments&:{},&postReviewComments&:{&comments&:[],&newComments&:[],&hasMore&:true},&favlistsByUser&:{},&favlistRelations&:{},&promotions&:{},&switches&:{&couldSetPoster&:false},&draft&:{&titleImage&:&&,&titleImageSize&:{},&isTitleImageFullScreen&:false,&canTitleImageFullScreen&:false,&title&:&&,&titleImageUploading&:false,&error&:&&,&content&:&&,&draftLoading&:false,&globalLoading&:false,&pendingVideo&:{&resource&:null,&error&:null}},&drafts&:{&draftsList&:[],&next&:{}},&config&:{&userNotBindPhoneTipString&:{}},&recommendPosts&:{&articleRecommendations&:[],&columnRecommendations&:[]},&env&:{&edition&:{&baidu&:false,&yidianzixun&:false,&qqnews&:false},&isAppView&:false,&appViewConfig&:{&content_padding_top&:128,&content_padding_bottom&:56,&content_padding_left&:16,&content_padding_right&:16,&title_font_size&:22,&body_font_size&:16,&is_dark_theme&:false,&can_auto_load_image&:true,&app_info&:&OS=iOS&},&isApp&:false,&userAgent&:{&ua&:&Mozilla\u002F5.0 (compatible, MSIE 11, Windows NT 6.3; Trident\u002F7.0; rv:11.0) like Gecko&,&browser&:{&name&:&IE&,&version&:&11&,&major&:&11&},&engine&:{&version&:&7.0&,&name&:&Trident&},&os&:{&name&:&Windows&,&version&:&8.1&},&device&:{},&cpu&:{}}},&message&:{&newCount&:0},&pushNotification&:{&newCount&:0}}

我要回帖

更多关于 哪里能找到工资数据 的文章

 

随机推荐