快捷搜索:

互联网知识

当前位置:betway必威官网手机版 > 互联网知识 > 精品学习资料,这40项IT技能年薪轻松超过10万美

精品学习资料,这40项IT技能年薪轻松超过10万美

来源:http://www.abirdfarm.com 作者:betway必威官网手机版 时间:2019-09-21 21:18

BusinessInsider通过查找求职网站Indeed.com庞大的数据库,分析了各大IT企业的用人要求以及他们为相关岗位提供的年薪,为大家总结出了10个至少价值10万美元年薪的IT技能。作为每月产生15亿次工作搜索的求职网站,Indeed.com的数据可以信赖。尽管各国IT业存在一些差异,但是这十项技能的含金量确实不容置疑的。学好它们,走遍天下都不怕。

众所周知,科技行业聚集了大批高薪职位,但这同样也是一个快速变化的市场。今天的热门技能明天就有可能惨遭淘汰。

  • 软考官方指定教材及同步辅导书下载 | 软考历年真是解析与答案
  • 软考视频 | 考试机构 | 考试时间安排
  • Java一览无余:Java视频教程 | Java SE | Java EE
  • .Net技术精品资料下载汇总:ASP.NET篇
  • .Net技术精品资料下载汇总:C#语言篇
  • .Net技术精品资料下载汇总:VB.NET篇
  • 撼世出击:C/C 编程语言学习资料尽收眼底 电子书 视频教程
  • Visual C (VC/MFC)学习电子书及开发工具下载
  • Perl/CGI脚本语言编程学习资源下载地址大全
  • Python语言编程学习资料(电子书 视频教程)下载汇总
  • 最新最全Ruby、Ruby on Rails精品电子书等学习资料下载
  • 数据库管理系统(DBMS)精品学习资源汇总:MySQL篇 | SQL Server篇 | Oracle篇
  • 平面设计优秀资源学习下载 | Flash优秀资源学习下载 | 3D动画优秀资源学习下载
  • 最强HTML/xHTML、CSS精品学习资料下载汇总
  • 最新JavaScript、Ajax典藏级学习资料下载分类汇总
  • 网络最强PHP开发工具 电子书 视频教程等资料下载汇总
  • UML学习电子资下载汇总 软件设计与开发人员必备
  • 经典LinuxCBT视频教程系列 Linux快速学习视频教程一帖通
  • 天罗地网:精品Linux学习资料大收集(电子书 视频教程) Linux参考资源大系
  • Linux系统管理员必备参考资料下载汇总
  • Linux shell、内核及系统编程精品资料下载汇总
  • UNIX操作系统精品学习资料<电子书 视频>分类总汇
  • FreeBSD/OpenBSD/NetBSD精品学习资源索引 含书籍 视频
  • Solaris/OpenSolaris电子书、视频等精华资料下载索引

当数据科学家需要使用某些软件时,其中一部分我们已经在之前的章节中做过介绍,这些软件涵盖了数据科学家所需要的基础专业内容。实际的工作范畴可能会超越求职时候的工作描述,这也是IT工作的常态之一。这在某种程度上是好的,因为它提供了学习新技能的机会,而这也是数据科学领域最引人入胜的方面之一。

Cloudera登陆中国: 让大数据“说人话”

第十名:统一建模语言(Unified Modeling Language,UML)

betway必威官网手机版 1

最低年薪:10.1万美元

统一建模语言是一个支持模型化和软件系统开发的图形化语言,为软件开发的所有阶段提供模型化和可视化支持。正如著名风险投资家马克·安德森(Marc Andreessen)所言,我们生活在一个由软件构成的世界里。恰因如此,这些软件都很复杂。而UML正可以把这些复杂的软件进程简化成一张直观的图表。

求职网站Dice.com最近发布了《2016薪酬调查》, 列举了年薪最高的各种科技技能。

在这一章中,我们会探索数据科学环境中常用的软件。不是所有在这里提到的软件都会在你的工作中用到,但了解它们会让你拥有更多选择。特别是我们会提到Hadoop套件的一些其他备选工具(例如Spark、Storm等),许多功能强大的面向对象编程语言(Java、C 、C#、Ruby和Python),现有的数据分析软件(R、Matlab、SPSS、SAS或是Stata),你可能会用到的虚拟化程序以及大数据集成系统(例如IBM的BigInsights、Cloudera等)。我们还会看看你可能接触到的其他软件,例如GIT、Excel、Eclipse、Emcien以及Oracle。注意这个列表只是告诉你这一领域的主流软件有哪些,但它们并不一定是你在未来工作中的真实环境下所使用的工具。一些公司可能会用到它所在行业的专业软件,在你入职的时候也许会被要求你去熟悉这些软件。了解这个列表中的大部分软件会让你工作地相对轻松和明确。

betway必威官网手机版 2

第九名:Java 2平台企业版(J2EE)

betway必威官网手机版 3

最低年薪:10.2万美元

J2EE是一套全然不同于传统应用开发的技术架构,包含许多组建,可简化且规范应用系统的开发与部署,进而提高可移植性、安全性和再利用价值。作为Java语言家族的一部分,J2EE也被广泛地应用于网页应用开发和企业定制软件的开发。

Dice在2015年秋天对16301名IT专业人士进行了调查,得出了这份列表。

  • IT认证类:
  • 软件水平
  • 精品学习资料,这40项IT技能年薪轻松超过10万美元。等级考试
  • 思科认证
  • 微软认证
  • Sun认证
  • Linux认证
  • IEEE认证

Hadoop在过去的几年里,几乎成为大数据的代名词。这是数据科学家的兵器库中的主要支撑。知道Hadoop不只是一个程序是非常重要的,它更像一组工具(类似于微软的Office)。这个套件被用于传输,保存和处理大数据。它还包含有一个调度器、元数据和表格管理架构。所有在Hadoop中处理数据的任务都是分布在安装了Hadoop的所有机器集群中的,这些任务可以是面向对象程序代码、数据分析程序、数据图形化脚本以及其他具有有限处理时间(finite process time)特征和对数据分析有用的任务。Hadoop会确保不管你对数据做什么样的操作都能以高效的方式完成,并以直观的方式呈现。

■本报记者 赵广立

第八名:PowerBuilder

betway必威官网手机版 4

最低年薪:10.2万美元

PowerBuilder是由美国Sybase公司研发的新型、快速开发工具,适用于开发在Windows环境下的企业定制软件。同时,开发基于微软 .Net平台上的网页应用也是PowerBuilder的主要用途之一。

PowerBuilder诞生于上个世纪九十年代,是个不折不扣的老将。如今新兴的程序员们更加偏好使用那些带有新鲜血液的开发工具,所以要找到一位精于.Net平台和PowerBuilder的专家变得十分困难。

当然,单纯具备某项技能未必能确保高薪,工作经验同样非常重要。但如果你想知道哪些技能值得在简历中“炫耀一番”,或者想知道今年应该学习哪些技能,这份表单的确值得一看。

Hadoop并没有一个对用户友好的软件环境,如图1所示,这是一个典型的Hadoop任务的样子。

近年来,各行各业随处皆言“大数据”。然而,目前人们关于大数据价值的讨论大多仍停留在宏观层面,如何在大数据环境下挖掘出有价值的信息和规律,需要极大的计算量。尽管通过硬件的提升可以使对数据的计算获得更快速度,但这样的平台同样需要软件来支撑。

第七名:Hadoop

betway必威官网手机版 5

Hadoop的联合创始人Doug Cutting

最低年薪:10.3万美元

Hadoop的创立者道格·卡丁(Doug Cutting)曾是雅虎的一名员工,而后决定下海闯荡,建立了Cloudera公司,推出了Hadoop软件。Hadoop的“大数据(big data)”技术在目前尤为火爆,作为一款开源软件,Hadoop可以通过廉价的硬件收集、分析存储超大规模的数据。银行可以使用Hadoop识别欺诈信息,电商可以依赖Hadoop分析顾客喜好。虽说是一款开源软件,但基于Hadoop而存在的Cloudera, Hortonworks和MapR等公司却是不折不扣的商业公司。

具备与Hadoop紧密相关的“大数据”技术能让你更值钱:10.6万美元。“大数据”技术包含了使用Hadoop、NoSQL数据库和逻辑分析等一系列能力。

1.HANA

  • Java技术:
  • Java SE
  • Java EE
  • Java ME

betway必威官网手机版 6图1 Hadoop任务仪表盘(Dashboard)的屏幕截屏

分布式计算提供了一个解决方案。事实上,云计算就是在分布式计算(更进一步是网格计算)基础上发展起来的。目前,分布式计算最基础、最常用的编程软件非Hadoop莫属,因此,基于Hadoop开放、可信的数据处理平台,广为数据分析用户所青睐。

第六名:Silverlight

betway必威官网手机版 7

最低年薪:10.3万美元

Silverlight是微软所发展的 Web 前端应用程序开发解决方案,是微软丰富型互联网应用程序(Rich Internet Application)策略的主要应用程序开发平台之一。作为一款本想与Adobe Flash一争高下的技术,如今却面临着一个无比尴尬的局面。无论是HTML5还是Windows 8,它们都不支持银光平台,所以Silverlight的没落貌似是指日可待了。

虽说如此,目前仍有大量企业要用到Silverlight提供的技术支持,而精于此项的专家却是少之又少,所以能有如此高的年薪也在情理之中。

年薪:美元

Hadoop套件由以下几个组件组成,所有的组件都很重要。

Cloudera就是这样一家Hadoop数据管理软件与服务提供商。12月10日,成立不到7年就成长为业界翘楚的Cloudera正式宣布,其分公司在中国“开张”。这标志着这家已在全球发展了1300多家客户的大数据公司,开始将业务触角伸向对大数据解决方案需求潜力巨大的中国市场。

第五名:CISSP认证

betway必威官网手机版 8

最低年薪:10.3万美元

要说起困难和复杂,计算机安全领域的从业人员肯定有发言权。CISSP中文全称国际注册信息系统安全专家,由国际信息系统安全认证协会((ISC)²)组织和管理,是目前全球范围内最权威,最专业,最系统的信息安全认证。

要想取得此项认证不仅需要通过考试,还需要在规定的10个考试领域中拥有最少2个范围的专业经验5年。付出总是与回报对等。全世界几乎所有企业都需要计算机安全领域的人才,一旦你取得了CISSP认证,幸福的日子就从明天开始了。

简介:HANA是企业软件公司SAP开发的一种数据库。

  • .Net技术:
  • C#语言
  • VB.NET
  • ASP.NET
  • VC.NET
  • .NET框架
  • ADO.NET
  • Silverlight
  • MapReduce由Google创建,并且是Hadoop的主要组件。正如在之前的部分我们曾提到过的那样,这是任何大数据技术的核心。尽管这是Hadoop固有的特性,但它也可以在其他的大数据程序,例如MPP和NoSQL数据库(例如,MongoDB)。MapReduce最初是具有商业所有权的,但随着Yahoo在2006年提供了慷慨的资金支持,它以Hadoop的开源形式出现,并在两年内迅速受到广泛欢迎。作为一个著名的并行计算算法,它得以让数据库的查询建立在一个计算机集群上,任务可以分拆成小份,并跨越整个集群的节点。
  • HDFS是Hadoop 分布式文件系统的简称,这是Hadoop系统所使用的文件系统。被Hadoop所处理的数据必须先导入到HDFS中,并备份在运行了Hadoop的计算机网络中。它的数据极限大约在30PB。
  • Pig是针对Hadoop进行计算的一个高级编程语言(High-level programming language)。你可以将它视为Hadoop生态系统中各种操作的控制元件。它的性能是可扩展的。
  • betway必威官网手机版,Hive是一个数据仓库程序,是以“类-SQL”语言进行访问使用的,他是为横跨Hadoop集群的数据设计的。并且它的性能是可扩展的。
  • HBase、Sqoop以及Flume是Hadoop的数据库组件。HBase是一个可以运行在Hadoop环境上的列式数据库。它是基于Google的BigTable设计的,并且数据极限约为1PB。另外,它比直接在HDFS上访问数据要慢一些。这对于处理存在HBase里面的数据来说不是很好,对HBase对于归档和时间系列数据的计数很合适。Sqoop是一个将关系型数据库中的数据导入到HDFS中的程序。Flume与此类似,它关注于收集和导入各种数据源的日志和任务数据。
  • Mahout是一个机器学习和数据挖掘算法的函数库,用于对存储在HDFS的数据进行处理。
  • Zookeeper服务于Hadoop有一“群”各种各样功能的组件,所以调试管理以及协调程序是十分必要的。Zookeeper保证了整个套件的整合以及相对得简便操作。

Cloudera中国公司名为肯睿软件有限公司,其登陆中国市场将致力于唤醒沉睡在企业大数据中的商业规律,从而帮助企业通过大数据处理和分析加速洞察业务的获取效率。

第四名:Erlang

betway必威官网手机版 9

这就是Erlang的真相

最低年薪:10.7万美元

Erlang得名于丹麦数学家及统计学家Agner Krarup Erlang,是一种通用的面向并发的编程语言,它由瑞典电信设备制造商爱立信所辖的CS-Lab开发,目的是创造一种可以应对大规模并发活动的编程语言和运行环境。Erlang也是一种上了年纪的语言,它最早出现于1998年。因为利于处理分布式计算,Erlang随着云计算的兴起又渐渐找回了当年的风采。

这是新型内存数据库的一种,它完全在电脑的内存中运行,而没有使用硬盘。这也意味着它几乎可以实时分析大量数据。

Hadoop套件还有一些其他的组件用来补充以上这些核心组件。而熟悉它们最好的方法是去下载一个Hadoop玩一下。当需要确定基准(Benchmark)的时候,你可以选择去读一下教程(或者,如果你能读一下用户手册则更好)。

今年3月,英特尔宣布再次向Cloudera注资,总投资额增至7.4亿美元,持股比例达到18%,成为Cloudera最大的战略股东。与英特尔公司的合作使得人们对这家初入中国市场的公司有着更高期盼。

第三名:Clojure

betway必威官网手机版 10

最低年薪:10.8万美元

Clojure是一个在JVM(Java Virtual Machine)平台运行的动态函数式编程语言,其语法来源于古老的LISP语言(始于1958年)。枯木也能拔新枝,Clojure诞生于2007年。因为运行在当今最主流的运算平台JVM之上,Clojure也是越来越受到人们青睐。

这项技能之所以热门,是因为SAP正在向该公司的许多客户展开推广,希望他们放弃其他数据库——尤其是来自宿敌甲骨文的数据库——转而使用HANA。该公司还支持创业公司使用HANA编写应用,或者为HANA编写应用。

  • 开发语言:
  • C/C
  • VC/MFC
  • Perl
  • Python
  • Ruby
  • 汇编语言
  • 数据结构

Hadoop并不是进入大数据技术的唯一选择。另有一个也很有意思但并不那么有名的备选方案是Storm(被Twitter、阿里巴巴、Groupon以及其他许多公司所使用)。Storm显著快于Hadoop,同样也是开源,而且使用起来相对简单,是一个值得选用的Hadoop备选方案。不像Hadoop, Storm 不执行MapReduce任务,而是运行topology。核心的差异在于MapReduce最终会将任务结束,而topology会永远运行或直到它被用户终止。(你可以将它类比为操作系统后台一直运行的进程)。topology可以被画成计算图,用以处理数据流。这些数据流的源被称为spout(形象化为“水龙头”),而它们会被接入bolt。一个bolt可以使用任意数量的输入源,做一些处理,并输出新的数据流。你可以在图2中看到Storm topology。

Cloudera公司创始人之一、首席执行官兼首席战略官迈克:奥尔森专程飞临中国为新公司站台。《中国科学报》记者近日在Cloudera于北京举办的首场媒体见面会上见到他以及Cloudera 全球副总裁、大中国区首任总经理凌琦,深度了解了Cloudera在中国区的战略部署和大数据解决方案。

第二名:项目管理专业人士资格认证(PMP)

betway必威官网手机版 11

PMI颁发的PMP证书

最低年薪:10.8万美元

项目管理专业人士资格认证由美国项目管理协 (PMI)发起的,是一项严格评估项目管理人员是否具有高品质知识技能的资格认证考试。作为所有IT从业者都梦寐以求的资格证,它要求申请者在五大项目管理过程中至少具有4500小时(具备本科及以上学位)/7500小时(不具备本科及以上学位)的项目管理经验,并且成功获得认证的个人之后还得按照组织要求不断努力工作以维持认证的有效性。

这是Dice首次将HANA加入热门技能列表。

如图2所示,Storm软件中的Topology,一个值得选用的Hadoop的备选方案。你可以很容易地创建一个类似这样的Topology,并比MapReduce的流程顺序要直观。

“英特尔的硬件和Cloudera大数据的软件的联手,会给最终客户带来更好的产品。”奥尔森介绍,Cloudera最新发布的5.3版本“百分之百开源和符合开放式标准”,是目前市场上功能最强大、安全的大数据平台。

第一名:PeopleSoft

betway必威官网手机版 12

最低年薪:11万美元

PeopleSoft是一款人力资源管理软件,该公司最早创建于1987年,于2005年被甲骨文公司(Oracle)收购,此收购还引发了一段江湖恩怨。

PeopleSoft的开发团队离开了甲骨文公司,自行创办了Workday公司欲与老东家竞争。经过一番激烈的市场行为,甲骨文公司获得了胜利,他们高兴地表示“我们仅仅在2011年就增长了350个客户”。350个?你没有看错。所以这是一款鲜为人知却在用人市场上大受欢迎的软件。

怎样,看过了这些令人心动的数据,你是不是已经决定埋头苦读为更加美好的明天而奋斗了呢?

 


 

本文编译自BusinessInsider: 10 Tech Skills That Will Instantly Net You A $100,000 Salary

作者: Julie Bort

2.Cassandra

  • 数据库:
  • SQL Server
  • MySQL
  • Oracle

对数据使用Topology方法可以确保即使在出现故障的情况下也能处理出正确的结果(因为topology会持续地运行),也就是说如果计算机集群中的某一台计算机发生了问题也不会危害到在运行在整个集群上任务的一致性。需要注意的是,Storm topology 一般是由Java、Ruby、Python和Fancy语言编写而成。Storm软件则是由Java和Clojure(一个与Java配合良好的函数型语言)编写,同时它的源代码也是这个类型技术中最为流行的项目。

凌琦告诉记者,英特尔投资Cloudera之后,将其Hadoop部分的业务和Cloudera的产品合并起来,作为产品团队的基础。“Cloudera虽然在中国刚刚落地,但以此为基础的团队在过去3年间在大数据、Hadoop领域积累了足够经验。”

年薪:147,811美元

betway必威官网手机版 13图2 Storm软件中的topology,一个值得选用的Hadoop的备选方案。可以很容易地创建一个类似的topology,并比MapReduce的流程顺序要直观

英特尔方面也给出了回应。英特尔中国研究院院长吴甘沙在相关活动中谈及,英特尔与Cloudera双方将一起推动基于Hadoop的开放、可信的数据处理平台,推动整个生态环境的基础创新,“希望把高级的分析功能平民化,迈入主流应用”,目标就是“让大数据说人话”。

简介:这种数据库可以处理和存储不同类型及规模的数据,而且逐渐成为了移动和云计算应用的必备数据库。在存储超过10PB的数据时,苹果就将Cassandra作为一项重要方法。Netflix和很多企业也使用这项技术。

  • Web开发:
  • HTML/CSS
  • JavaScript
  • PHP
  • RIA
  • XML

这个软件的优势在于它处理数据的实时性、简单的API、可扩展性、容错性、简单部署、免费且开源并能够确保数据处理,以及可以在其上使用各种编程语言。它有横跨美国东西海岸、伦敦以及其他地区,并持续壮大的用户社区。

成立于2008年的Cloudera现已成为全球最大的基于Hadoop的发行提供商,在全球拥有很多合作伙伴和终端用户。今年高调入驻中国,Cloudera高层口径一致,宣称要和中国的合作伙伴一起“把最好的大数据服务带进中国”。

Dice表示,与Cassandra相关的职位薪酬过去一年增长14.9%。

除了Storm这个非常流行并且提供了灵活和简单地操作还很有前景的Hadoop的替代品之外,还有一些其他软件同样宣称自己具有类似特性并尝试挑战Hadoop在大数据世界的支配权。最值得推荐的几个软件有如下几个。

“中国拥有巨大的商业潜力,在大数据潮流下,拥有庞大人口的中国势必拥有巨大的机会,这些机会在全球其他任何地方很难看到。”奥尔森毫不讳言,Cloudera在全球拥有包括电信运营商、金融、零售、制造等各行各业的客户,这些服务经验将为“深挖”中国市场提供借鉴,“数据可以方便地导入到数据管理平台,借助高级分析工具对客户数据进行深度挖掘,同时还可以建立更多的上层应用,以提供更多商业价值”。

3.Cloudera

  • 类Unix:
  • Linux基础
  • Linux高级
  • Linux编程
  • UNIX
  • BSD
  • Solaris
  • Mac OS
  • Spark由加利福尼亚大学伯克利分校的AMP Lab开发而成。Spark是MapReduce领域的最新玩家,它的目标是数据分析在写入和运行端的速度更加快速。不像许多在这个领域的系统,Spark使用内存查询数据,替代了磁盘的读写。这样,Spark在许多迭代算法上比Hadoop的表现更为优越。它是由Scala实现的,在写作本书的时候,它的主要用户是UC Berkeley的研究者和Conviva公司。
  • BashReduce作为一个脚本工具,BashReduce可以用标准UNIX命令(如sort、awk、grep、join等执行MapReduce,成为了Hadoop的另一个备选工具。它支持映射/分割、规约以及合并等功能命令。尽管它根本没有一个分布式文件系统,BashReduce还是将文件分布到了工作节点中,但不可避免地缺少容错。它没有Hadoop那么复杂,同时可以进行快速开发。除了容错的问题之外,它还缺乏灵活性,因为BashReduce只能工作在特定的UNIX命令环境中。BashReduce是由Erik Frey(在线电台last.fm)以及他的助手们开发。
  • Disco Project最初是由诺基亚研究院开发,Disco已经默默无闻了很多年。MapReduce作业由简单的Python编写,而Disco的后端是以Erlang编写的,一个可扩展的函数型语言,内置支持并发、容错以及分布,使得它成为一个理想的MapReduce系统。与Hadoop类似,Disco分布并复制存放数据,但它没有自己的文件系统。由于它的高效,在作业调度方面也是值得称道的。
  • GraphLab由卡内基梅隆大学开发,为机器学习应用服务而设计,GraphLab旨在提高并行机器学习算法设计的执行效率和正确性。GraphLab拥有它自己版本的映射阶段,称为更新阶段。不像MapReduce,更新阶段可以读取和修改数据的交集。它基于图的方法使得在图形的机器学习上更具可控性,同时提升了动态迭代算法。
  • HPCC 系统以它自己的大规模数据分析架构,HPCC试图用Enterprise Control Language语言更近编写并行工作流,ECL语言是一个声名式语言,以数据为中心的语言(有些类似于SQL、Datalog和Pig)。HPCC是用C 写成的,根据一些人的说法,这样使得内存查询更快。HPCC由于拥有自己的分布式文件系统而也成为Hadoop一个有力地备选工具。
  • Sector/Sphere以C 开发,这个系统承诺了比Hadoop快2~4倍的性能。它由两部分组成:Sector,安全且可扩展的分布式文件系统,以及Sphere,在存储节点上可以通过简单的API接口处理Sector数据文件的并行数据处理引擎。它具有不错的容错性,支持广域网同时兼容旧系统。从2006年诞生起,它就是一个不错的Hadoop替代方案。

目前中国多地在智慧城市建设方面暗自发力,金融、电信、交通、新药研发、医疗信息化等领域的大数据管理与分析需求巨大。

年薪:142,835美元

还有一些并行于这些系统的项目,可以免费便利地开展Hadoop环境下的工作。所以,如果你想学Hadoop,并且把基础的部分都掌握以后可以看看这些工具。这些项目中最著名的有以下几个。

Cloudera的中国战略是“用本地的支持团队和商业模式服务本地客户”。凌琦介绍说,目前,Cloudera大中国区在北京、上海、广州设有分支机构,“肯睿是由中国领导团队和技术团队组成的本地公司,可以更好地服务中国客户和合作伙伴。”

简介:Cloudera公司开发了一个颇受欢迎的商用版Hadoop。

  • 辅助设计:
  • 平面设计
  • Flash动画
  • 3D动画
  • AutoCAD
  • Drill是一个Hadoop插件,专注于提供一个存储在Hadoop集群环境下的数据集的交互分析接口。它常常利用MapReduce来执行Hadoop下的大数据的批量分析,并通过Dremel以更快的速度来处理更大规模的数据集。凭借它可以扩展到大规模服务器上的能力(它的设计目标是10000个服务器),使它成为处理真正的大数据的好选择。如果你计划使用Hadoop,那么它是一个值得你去研究的工具。
  • D3.js是数据驱动文档(Data Driven Documents)的缩写,D3.js是一个开源JavaScript函数库,可以让你编辑大数据的展示文档。这个工具可以让你利用网页技术(例如HTML5、SVG以及CSS)来创建动态图形。另外,它还提供可视化方法,例如和弦图、气泡图、树状图以及节点连接树。由于它是开源的,因此这个列表还在持续地扩展着。D3.js设计的目标是运行快速和兼容于跨硬件平台的程序。尽管它不一定会替代完全成熟的数据可视化程序,但这是一个你值得留意的好工具。D3.js是由纽约时报的图形编辑Michael Bostock开发的。
  • Kafka是最早由LinkedIn所开发的消息系统,作为社交媒体活动流和数据处理管道的基础。从那以后,它的用户群便逐渐扩大,涵盖了各种使用数据管道和消息服务的公司。它非常高效,同时与Hadoop生态系统集成良好,此外,它是运行在Java环境中的,是可以跨平台的。
  • Julia事实上,它不只是一个数据分析工具,而是被设计为运行在诸如Hadoop这样的分布式计算环境中。它很稳健,易于使用,类似于Matlab和R,同时又非常快速。它是与Hadoop套件相衬的扩展工具,如果你倾向于编写程序,那么这是一个可以加入你技能树中的好语言。
  • Impala是一个分布式查询执行引擎,是为原生存储在Apache HDFS 和Apache HBase的数据而设计的。由Cloudera开发,它聚焦于数据库而且不会使用到MapReduce。因为它避免了MapReduce作业的额外开销,所以可以实时地返回结果。

“针对中国的需求进行开发和支持,我们有两个方向:利用大数据使企业运作成本更低,以及挖掘大数据的价值使企业发展更快。”凌琦认为,尽管过去人们常谈大数据,但真正的大数据时代才刚刚开始。

尽管Hadoop是为低价电脑服务器设计的一个免费开源数据存储项目,但免费版本并不好用。

数据科学家需要能够熟练处理面向对象编程,但比较各种面向对象编程语言已超出了本书所要讨论的范围,所以如果非要举个例子的话,Java是这一节中主要会讨论的语言,因为它被业界熟知。像大多数面向对象一样,Java不包含用户图形界面,这就是那么多人更爱用Python(它的开发者确实为它编写了一个体面的GUI)的原因。然而,Java运行快而优雅,同时不管是线上还是线下都有大量的学习资源。图3是一个典型的Java程序。

Hadoop平台是Cloudera的业务核心,而“Hadoop之父”、Apache Hadoop社区的发起者和领导者道格:卡汀正是Cloudera公司现任首席架构师。奥尔森对Hadoop平台充满信心:“Hadoop平台安全、可靠、成本低、几乎可以无限伸缩,所有数据应用都可以在Hadoop平台上面有很多创新。”

有多家公司开发了更友好的Hadoop版本,Cloudera可以说是其中规模最大的一家。

  • 办公软件:
  • Word
  • Excel
  • PowerPoint
  • WPS
  • OOo

betway必威官网手机版 14图3 一段典型的Java程序

记者了解到,Hadoop的社区环境与10年前的Linux非常类似,是业界主流的操作系统方案。基于Hadoop架构,Cloudera为客户提供了功能强大的管理平台。经过多年发展,Cloudera免费版在国内市场已经占据80%的份额,并有越来越多用户转向收费的商业版本。

Dice表示,与Cloudera相关的职位薪酬过去一年增长12.6%。

[TP_TECH200908]

图3是一段典型的Java程序用于判断这一年是不是闰年。这是一个识别了Java程序的编辑器视图。

面对巨大的中国市场,仅有平台是不够的。凌琦表示,大数据是相对复杂的一项技术,它不仅需要在软硬件平台、行业系统集成架构及应用上分析和挖掘数据,同时还要注重新应用的开发。“大数据需要生态系统,需要培养人才。”

4.PaaS

注意,部分字句的颜色和高亮显示是由编辑器自动实现的(尽管不总是这样,例如当使用记事本工具打开程序时)。同样,间距也是可选的,用来帮助用户编写语句。注意大多数程序会比这段简单的例子要长一些,也更复杂一些,但它们也可以像例子中一样,被拆散成简单的语句块。

凌琦介绍说,Cloudera迄今为止在全球已经培训了近4万名大数据平台的管理、应用和开发相关人才,并提供培训认证。“我们希望通过培训人才带动中国大数据实施和运用的快速发展。”

年薪:140,894美元

如果你花了大量的时间在编写脚本上面(通常如果你使用文本编辑器,例如Notepad 或者Textpad),编程会让你劳累不堪。为了减轻这种影响,在过去的许多年里,众多集成开发环境(Integrated development environments,IDE)被开发出来。这些IDE为编程语言提供了额外环境,将它的引擎、编译器以及其他组件和舒适的图形界面以更加友好的方式呈现。一个在Java世界里非常著名的IDE就是Eclipse,同时也可以作为其他语言的运行环境,甚至是像R一样的数据分析包(Data analysis packages)。

Cloudera希望与合作伙伴、用户展开相关的人才培训及认证,同时与大学、研究机构合作,来解决当前大数据人才短缺的难题。

简介:PaaS是“平台即服务”(Platform as a Service)的缩写,这是云计算的一种类型。它可以托管开发者编写应用所需的一切资源。一旦编写完成,便可直接在PaaS云上运行。

betway必威官网手机版 15图4 Eclipse的界面

“企业用户也希望得到我们的培训,这不光对企业本身的发展,同时对受培训对象自身的职业发展也有帮助。”凌琦说,Cloudera提供的大数据人才培训及认证是非常有吸引力的,在美国受过大数据认证培训之后的技术人员薪水会得到显著提高。

PaaS是当今应用开发领域的一大趋势,所有的新兴科技公司、托管公司和应用开发工具提供商都希望进军PaaS市场。

图4所示为运行着Java的Eclipse截屏。Eclipse是一个优秀的Java IDE(也适合其他的编程语言)。

而与教育机构的合作,凌琦透露,实际上是把材料和培训方法教授给大学,通过讲师培训更多的学生,让学生在走出校园的时候具备大数据开发应用的知识和能力。

与此同时,所有程序员也都在为云端编写越来越多的应用。

其他可供你参考的的面向对象语言包括:

Cloudera不仅培训人才,还培训大数据培训师,并引入第三方认证。“培训不仅是为了拓展业务,更重要的是对大数据生态系统的培养。”凌琦说。

Dice表示,与PaaS相关的职位薪酬过去一年增长8.3%。

  • <strong>C </strong>是与Java齐名的编程语言,快速而流行
  • <strong>Ruby</strong>是强大的面向对象编程的备选语言
  • <strong>JavaScript</strong>是可与Java配合使用的基于网页的编程语言
  • <strong>Python</strong>是优秀的面向对象语言,特别适合初学编程的人
  • <strong>C#</strong>是由微软开发的业界知名的编程语言

《中国科学报》 (2014-12-30 第8版 产业)

5.OpenStack

所有这些都是免费而且可以通过免费教程学习的(C#的IDE是Visual Studio,它是商业软件<a href="#anchor81" >[1]</a>)。另外,它们都有一些共同点,如果你对面向对象编程的概念很熟悉的话,例如封装、继承以及多态,你就能够处理它们中的任何一个。注意,所有这些编程语言都是命令型语言(相对于最近逐渐出名的声明/函数型编程语言而言)。这个类型编程语言的语句基本上都是在命令计算机采取什么样的行动。而声明/函数型语言,相对来说更多的关注最后的结果而对下一步采取什么动作的具体细节并不关心。

年薪:138,579美元

尽管在写作本书时,面向对象编程语言在专业编程领域是一个基本配置,但目前还是有一些向函数型语言变化的趋势(例如Haskell、Clojure、ML、Scala、Erlang、OCaml、Clean等)。这些语言基于另一种哲学,关注函数式表达式的求值而不是变量的使用或者实现它们命令的具体执行。

简介:这也是一种免费开源云计算操作系统,而且从许多方面来看,它正在逐步取胜。

函数型语言的一个大加分项就在于它便捷的可扩展性(这对于处理大数据极有帮助)以及避免出错,因为它们不使用全局工作空间。不过,它们相比于面向对象编程语言,在大多数数据科学应用下要慢一些。尽管它们中有几个语言(例如OCaml和Clean)在做数值运算时,可以和C语言<a href="#anchor82" >[2]</a>一样快。如果未来峰回路转之后,函数型语言的情况逐渐好转,为了稳妥起见,那么你可能会希望把函数型语言添加到你的技能树中去。注意函数型语言和我们之前提到的一些传统的面向对象编程语言会有交叉的部分。例如,Scala就是一个函数型面向对象编程语言,这个语言值得大家好好研究。

很多厂商都支持这套系统,并出售自己的商业版本,包括IBM、惠普、红帽、Ubuntu等。

如果数据科学家耗费时间所参与的编程工作到最后得不到任何认同,或干脆就毫无意义,那数据科学家还有什么可当的?于是,数据分析软件就在此时登场了。在众多选择中,最有名的当属Matlab和R。它们都很棒,但是没有必要去计较谁比谁更好,因为用那一种工具更多是基于个人偏好。有趣的是,这两者之间的语法和功能函数非常相近,以至于如果你精通了其中任意一种,那么学习另一种的时间也就是2~3个星期。

Dice表示,与OpenStack相关的职位薪酬过去一年增长19.4%。

由于R在某种程度上来说更受欢迎,主要由于它免费开源,庞大的用户群体定期地向其贡献新内容,因此,我们在本书中会更关注R。所以希望那些倾向于Matlab,并了解Matlab在哪些地方优于R和其他数据分析工具的人,理解我们的选择并保持开放的心态。R同样有优于其他数据分析工具的地方,并且它在编写和运行程序上都很直观,通常不使用循环结构(一种程序结构,一般来说会拖慢高级程序语言的分析时间),而是利用运用向量的一些操作,而且它还可以延展到矩阵,这种特性被称为向量化,向量化使得数据分析脚本易于阅读和理解(面向对象编程语言通常运行速度很快,因此循环对于它们并不是问题)。

6.CloudStack

R语言的运行环境十分简单(在某种方面上与Python类似),对用户使用来说也足够友好,特别是一些小程序。图5的截屏展示了这个运行环境的样子。

年薪:138,095美元

betway必威官网手机版 16图5 R语言的编程环境

简介:云计算是大势所趋,不同的“云操作系统”正在展开一场厮杀。

图5显示了R语言的编程环境。正如你所看到的那样,尽管编程环境足够友好,但它还是缺少了许多在IDE内的贴心功能。

多数云操作系统都是免费开源的,但很多企业都以此为基础开发了商用版本,并提供配套的云计算软件或设备。

R作为一款数据分析工具来说是十分强大的,而它的GUI也做得很好。然而,如果你真的想用这款软件,还是需要花点时间学习并调试一下IDE。市面上有很多款R语言的IDE,但其中有一个佼佼者,叫做RStudio。

CloudStack便是其中之一,这是Apache软件基金会运行的一款服务,并且获得了Citrix的支持,后者销售该系统的一个商用版本。

betway必威官网手机版 17图6 RStudio的界面

Dice表示,与CloudStack相关的职位薪酬过去一年增长20%。

图6显示了R语言众多IDE中的其中一员RStudio。你可以从图中看到,除了主控窗口外,还有脚本编辑窗口,工作空间查看窗口以及图形查看窗口。除此之外,还有许多别的功能来辅助R语言的编写与运行。

7.Chef

R语言之外的其他数据分析工具还有。

年薪:136,850美元

  • Matlab/Octave在R成名业界之前就已存在,并且Matlab就已经称王于数据分析领域。尽管Matlab是有商业所有权的软件,他还是有几个开源的小伙伴们,其中最好的当属Octave。Matlab和Octave对于初学者而言都是很好的工具,它们有大量的应用,并且像R那样实现了向量化。但是,Matlab的工具箱稍有些昂贵,而Octave则没有这些。
  • SPSS是现有最好的统计程序之一,而且广泛适用于研究领域。学习起来很简单,它可以做任何数据分析,尽管不像R语言那样高效。此外,和Matlab一样,它也是有商业所有权的,为学界与业界所推崇。
  • SAS是一个流行的统计程序,特别是在企业当中。学习起来相对简单,它也有一个不错的脚本语言工具,可以帮助创建更为复杂的数据分析。但是,它也是有商业所有权的。
  • Stata是选择统计程序包时的好选择。Stata 是最受统计学家所喜欢的工具之一,也是具有商业所有权的。自从R语言在数据分析世界变得广受欢迎以来,Stata就不再像以前那么受宠了。

简介:Chef是由Chef软件公司开发的一款“IT自动化软件”,这也是少数几家推动“DevOps”趋势的年轻企业之一。它帮助IT专业人士自动完成各种任务,以便提升服务器效率。

注意,上面所提及的软件(除Octava以外),都是具有商业所有权的,所以他们并不像R那样能吸引巨量的用户群。如果你对统计和编程都很熟悉,那么对你来说,它们就会很容易学习。在Matlab的帮助下,你不需要为了使用而去熟悉很多统计学知识。我们会在10.5节再探讨R语言,那时,我们会讨论如何在机器学习架构中使用它。

Dice表示,与Chef相关的职位薪酬过去一年增长10.8%。

数据分析结果可视化的重要性显而易见,这也就是增加一些可视化软件可以充实你的软件兵器库的原因。尽管所有的数据分析程序都能提供一些像样的可视化工具,但增加一些专用的工具总是好的。例如Tableau,它可以使整个处理过程都更加直观以及高效。

8.Pig

很遗憾地说,因为Tableau是一个具有商业所有权的软件,所以它有些贵。然而,他可以实现快速的数据可视化,混合以及图像导出。它的使用界面十分友好,易于学习,在网上有大量的资源,空间使用相当小。另外,它的开发者们也乐于通过教程与实践来指导用户学习。它在Windows(XP之后的任何版本)上运行,同时还有两周的试用期。有趣的是,它是华盛顿大学“数据科学导论”的教学大纲的一部分。

年薪:132,850美元

betway必威官网手机版 18图7 Tableau的界面

简介:Pig的之所以热门,都要感谢基于Hadoop的大数据项目的流行。

图7所示为Tableau,它是一款出色的可视化程序。正如你所见,它十分直观而且提供了各种各样的特性。

正如我们前面所说,Hadoop可以在许多低价电脑服务器上存储各种数据。Pig是一种编程语言,可以帮助你从Hadoop中提取信息、寻找答案,或者使用其中的数据。

在业界,Tableau较其他可视化程序取得了领跑者的地位。尽管它更适合于商业智能应用,但它还可以被用在任何数据可视化任务中,同时它实现了通过邮件和在线的图像简易共享。它也提供了交互式的映射以及能够同时处理不同来源的数据。

Dice表示,与Pig相关的职位薪酬过去一年增长6.7%。

如果你对这款软件的同类产品感兴趣,你可以看看以下几款程序。

9.MapReduce

  • Spotfire是由TIBCO开发的优秀产品,可视化分析的理想工具。它可以与地理信息系统,建模及分析软件良好集成,同时具有无限的可扩展性,其价格与Tableau保持同一水平。
  • Qlikview是一款良好的备选工具,对数据可视化和深入钻取任务是理想的工具。它速度很快并且提供了出色的交互可视化及仪表盘支持。它有很棒的用户界面和视觉控制,而且还有在内存中处理大数据集的出色能力。然而,它受到内存大小的限制,而且价格相对较高。
  • Prism是一款直观的商业智能软件,可以轻松地实施任务和学习。它主要专注于商业数据,除去一般类型的图表以外,它可以生成数据仪表盘、积分板、查询报告等。
  • InZite是一款有趣的替代方案,提供了吸引人的可视化及仪表盘特性,快速而且直观。
  • Birst是一个好选择,提供了大量交互性可视化以及分析工具。它可以生成透视表,还可以用精细直观的报表工具深入钻取数据。
  • SAP Business Objects提供了指向并点击数据可视化功能,以便能够生成交互并可分享的可视化图像和交互仪表盘,它直接集成了SAP的其他产品。

年薪:131,563美元

一般来说,数据可视化程序使用起来相对轻松,所以在你的“数据兵器库”中加入它们并不是个问题。在倾注大量时间掌握其中任何一个工具之前,确保它能与你使用的其他工具集成良好。此外,看看大部分你所感兴趣的软件广告中都包含了哪些其他的可视化软件。

简介:MapReduce被人称作“Hadoop的心脏”。

尽管并不是必须的,但能够熟悉至少一个集成大数据系统是很好的。IBM的BigInsights平台就是其中一个很不错的例子,尽管事实上它还处于初期版本。它的设计思路是将Hadoop的大部分功能封装到一个对用户友好,并且有像样的图形界面的软件包中去。它的加分项是它还能执行数据的可视化和调度,类似这种“多合一”的套件包相当贴心,这样你就可以专注于数据科学工作的其他部分了。BigInsights运行在一个集群/服务器中,可以通过网页浏览器来访问。图8所示为BigInsights平台的界面截屏。

Hadoop在许多低成本电脑服务器中存储了各种各样的数据。为了通过Hadoop获得有意义的数据,程序员需要为MapReduce编写软件——通常使用Java。

通过Mozilla 火狐浏览器访问运行中的IBM的BigInsights平台。如你所见,它的用户界面十分友好。

Dice表示,与MapReduce相关的职位薪酬过去一年增长3.3%。

betway必威官网手机版 19图8 BigInsights平台的界面

10.Puppet

集成大数据系统的一个巨大优势在于它图形化的用户界面,与优秀的文档结合在一起之后,使整个系统变得十分友好、直观,而且可以轻松地学会操作。此外,图形界面会很好地结合Hadoop相关操作命令,它可以让你专注于数据科学中更高级别的方面,将你从原本不得不做的大量底层编程中解放出来。

年薪:131,121美元

与BigInsights类似的另一个选择是Cloudera,它同样驰名于业界,同时更加稳健。其他值得你了解的软件还包括Knime、Alpine数据实验室套件、Pivotal套件,等等。在你读到这里的时候,很可能已经发布了其他一些集成大数据系统,所以请确保你了解它们是什么,以及它们都提供了哪些功能。

简介:Puppet是Puppet Labs开发的一款“IT自动化软件”,这也是少数几家推动“DevOps”趋势的年轻企业之一。

如果不加上一些辅助工具的话,上面这个程序列表就显得不完整。因为发布的公司不同,这些程序可能也会各不相同,但当你需要优化你的“软件兵工厂”的时候,它们是一个好的起步。举个例子,Git版本控制程序绝对值得吸引你的目光,因为你很可能会需要用到它,特别是当你与其他人一起参与一个大型项目的时候。你可以从图9中看到它的操作界面和它的一些常用命令。

当开发者创建了软件(“dev”)后,负责部署该软件的团队(“ops”)需要使用一种高速技术来尽可能加快进度。

betway必威官网手机版 20图9 Git版本控制程序的界面

Puppet可以帮助他们自动完成许多任务,以便保持电脑服务器的高效运行。

Git版本控制程序不算是最直观的可用程序,但具有丰富的功能和高效的工作能力。

Dice表示,与Puppet相关的职位薪酬过去一年增长9.2%。

注意,Git有很多在主流操作系统下的图形界面的插件。有一个在Windows操作系统下非常好的开源图形界面插件叫Git扩展(Git Extensions),除此以外也还有许多在其他操作系统下运行得很好的Git图形界面。这个特别的图形界面插件让Git变得更加直观而且保留了它的命令提示行(但并不是每个Git图形界面都提供这个功能)。

11.TcL

如果在这里忽略了Oracle SQL开发软件,就简直是有悖神明,因为它经常用于访问公司Oracle数据库中的结构化数据。尽管这个特别的软件由于大数据技术的迅速扩张,在接下来的几年内可能会不胜从前,但在做数据科学任务时,它仍然十分重要。你可以从图10中看到Oracle SQL Developer 的截屏界面。

年薪:130,906美元

betway必威官网手机版 21图10 Oracle SQL Developer软件的界面

简介:TcL念做“tickle”,是“工具命令语言”(Tool Command Language)的缩写。这是一种简单而强大的开源脚本语言,它的支持社区十分强大。

Oracle SQL Developer数据库软件是处理公司数据库和数据仓库中结构化数据的最佳搭配。

用TcL编写的脚本语言可以在Unix、Mac和Windows设备上运行,也包括Windows Mobile。

这个软件最关键的部分就是SQL,所以为了使用它的全部潜力,你需要让自己熟悉这种查询语言。正如我们在前几章中看到的那样,这对数据科学家来说是一个非常有用的语言,即使你用得机会并不太多。这是因为它会以其他形式被使用到大数据的数据库程序中。

Dice表示,与TcL相关的职位薪酬过去一年增长17.5%。

当你从事数据科学工作时,一些其他需要熟悉的程序如下。

12.Sqoop

  • MS Excel是微软Office套件中知名的电子表单应用。与其他的数据分析程序相比,Excel以其简单到不可思议的特性,一直沿用到今天,并且在检视csv(逗号分隔值,一组以逗号作为分隔符的数据值)文件形式的原始数据时迟早会派上用处(例如,创建分析结果报告的总结)。就像Office套件中的其他应用一样,它是具有商业所有权的,尽管还有很多具有类似功能的免费替代方案(例如,Open Office 的Calc应用)。
  • MS Outlook是微软Office套件中另一个同样知名的程序,它被设计用来处理电子邮件、日历、待做事宜以及联系人信息。当然也有很多免费的备选程序,但经常被用于工作场合。如果你每天都要处理内部和外部通信、预约等,它会显得非常有用。它也是具有商业所有权的软件。
  • Eclipse如早先提及的那样,这是面向对象语言以及其他编程语言中最具人气的IDE。它非常稳健直观,使得编程的过程更加友好和高效。它是开源而且跨平台的。
  • Emcien能够处理复杂数据集,特别是半结构化数据和非数值类型时所使用的优秀的图像分析程序。如果你对更高级的数据分析,特别是基于图的分析感兴趣的话,这是一个不容错过的程序。它并不是一款其他数据分析程序的替代者,不过,它是具有商业所有权的。
  • Filezilla(或者其他的FTP客户端程序)能够传输大型文件或者在跨Internet进行文件传输时提供某一级别的安全性保障,此时这个程序就显得非常有用。它是一个开源软件。

年薪:130,865美元

简介:得益于大数据趋势的疯狂推进,Sqoop也成为了一项广受欢迎的技能。

  • 数据科学家在日常工作中会利用各类工具,本章介绍了其中最具有代表性的,包括:Hadoop/Spark、面向对象编程语言、数据分析平台、可视化软件以及一些辅助工具(例如GIT和Oracle)。此外还有一些公司和行业所需求的特定程序。
  • Hadoop是大数据软件界的凯迪拉克,它的套件由几类组件组成,包括文件系统、将数据分布到计算机集群的方法(MapReduce)、机器学习程序、编程语言、数据库程序(Hive、HBase等)、调度器、元数据和数据表管理框架以及调试管理器和协同程序(Zookeeper)等。
  • Hadoop套件有很替代方案,例如Storm、Spark、BashReduce、Disco project,等等。
  • 有几款可以并行帮助Hadoop开展工作的程序:Drill、Julia、D3.js、以及Impala等。
  • 作为数据科学家,你应该能处理至少一个面向对象语言,例如Java、C 、Ruby、Python、C#等。面向对象语言目前是分布最广的编程语言范式,尽管最近有一股面向函数型语言的风潮涌动。
  • 函数型编程语言(例如Clojure、OCaml、Clean、ML、Scala和Haskell)都是很优秀的资产,特别是如果你擅长编程而且想要扩展你的编程技能。
  • 你必须对至少一种现下流行的分析工具极为熟悉,R、Matlab/Octave、SPS、SAS、Stata。其中只有R与Octave是开源的,而前者是时下最为流行的选择。
  • Tableau则是数据可视化软件中的最好的选项,尽管还有类似于Spotfire、Qlikview、Brist、inZite、Prism和SAP Business Objects的工具。
  • 集成大数据系统(例如IBM的BigInsights平台)同样值得去研究,因为它们使整体的数据科学流程更高效,同时将你从MapReduce所需的低层编程中解放出来。
  • 其他一些程序值得你花时间去了解,GIT(或者其他的版本控制工具)、Oracle、MS Excel、MS Outloo、Eclipse、Emcien以及Filezilla(或者其他的FTP客户端程序)。很自然地,你会的程序越多(即使没有在本章中列举),也就越牛,只要你对它们掌握得足够好,它们也会在商业应用中展现出更大的价值。

这是一款免费的开源工具,可以将热门大数据存储系统Hadoop中的数据转移到IBM、甲骨文和微软等公司开发的经典关系数据库里。

本文摘自由人民邮电出版社异步社区出版的《数据科学家修炼之道》

这是一种命令行界面工具,因此你必须记住各种命令,并直接将其输入到系统中,而不能使用鼠标来点击。

betway必威官网手机版 22数据科学家修炼之道

Dice表示,与Sqoop相关的职位薪酬过去一年增长14.5%。

数据科学家是指采用科学方法、运用数据挖掘工具寻找新的数据洞察的工程师,他们往往集技术专家和数据分析师的角色于一身。在IT行业中,数据科学家将在创造力、沟通能力以及与商业世界的联系方面得到更多的锻炼机会,是当前非常有发展潜力的新兴职位。

13.NoSQL

本书全面介绍了成为数据科学家应当了解的各类知识。全书共分18章,首先介绍了数据科学与大数据、数据科学的重要性,接着介绍了数据科学家的类型、思维体系、技术资质、经验、社交圈、所用的软件、学习新知和解决问题,另外还介绍了机器学习与R语言平台、数据科学的处理流程、所需的具体技能,介绍了数据科学求职、自我展示并提供了一些有关职业数据科学家和数据科学家的案例学习。本书内容全面、轻松易读,非常适合从事数据科学相关工作的读者阅读,是一本可以住读者应聘数据科学家职位的求职指南。

年薪:130,290美元

样章试读:

简介:NoSQL是大数据趋势中的一种新型数据库。它有时也被称作云数据库。常规数据库需要对数据进行规整,例如,姓名和帐号都需要进行结构化,并添加标签。但NoSQL并不在乎这些问题,它可以适用于各类文档。

有很多热门的NoSQL数据库,包括Mongo、Couchbase和Cassandra。

Dice表示,与NoSQL相关的职位薪酬过去一年增长9.9%。

14.Hive

年薪:129,400美元

简介:Hive也是一种需求极高的技能,主要源自大数据和Hadoop的流行。

它可以存储各种低价电脑服务器中的各种数据。Hive提供了一种方式从Hadoop中提取信息,而使用的方法与常规数据库使用的传统方法相同。用极客的话说,它为Hadoop赋予了数据库请求界面。

Dice表示,与Hive相关的职位薪酬过去一年增长7%。

15.Hadoop

年薪:128,888美元

简介:Hadoop是一项极其重要的技术,成为了整个“大数据”技术的核心。

这款开源软件可以用于收集和存储庞大的数据,并在常见的低价硬件上展开分析。例如,银行或许可以使用Hadoop来探测欺诈行为,而网购服务也可以借此分析用户的购买形态。

Dice表示,与Hadoop相关的职位薪酬过去一年增长6%。

16.UML

年薪:128,198美元

简介:当今的软件的确非常复杂。统一建模语言(UML)是一种视觉语言,可以将复杂的软件设计转化成易于理解的图表。

Dice表示,与UML相关的职位薪酬过去一年增长12%。

17.SDN

年薪:127,464美元

简介:SDN的意思是“软件定义网络”(software-defined networks),这是一种建设公司网络的全新方式。它只需要借助软件,便可实现许多原本需要通过路由器和交换机等硬件组成的网络才能实现的功能。

所有大型网络硬件供应商都提供SDN技术,许多创业公司和VMware也都提供这种技术。在处理云计算数据中心的网络部分时,这已经成为了一种热门方式。

Dice表示,与SDN相关的职位薪酬过去一年增长12%。

18.OmniGraffle

年薪:127,392美元

简介:OmniGraffle是专为Mac和iOS设计的一种制图工具,就像Mac版的微软Visio。

这样一种工具竟然也能获得高薪,的确令人有些意外。但对于网站建设和图片设计等复杂的图表任务而言,这的确是一种热门工具。

Dice表示,与OmniGraffle相关的职位薪酬过去一年增长11%。

19.Fortran

年薪:127,359美元

简介:Fortran是一种很古老的电脑语言,诞生于打孔卡电脑时代,并在大型机时代成名。

然而,大型机其实并没有消失,而了解Fortran技术的人也越来越难找到。这仍是一个应用广泛的科学和研究领域。

Dice表示,与Fortran相关的职位薪酬过去一年增长24%。

20.SOA

年薪:127,268美元

简介:SOA其实是一个古老的软件概念,但随着云计算的崛起,它的流行度逐渐加强。

它是“服务导向式架构”(service-oriented architecture)的简称,实施者以小片段形式编写代码,开发能够在多种应用之间之间共享的小“服务”。例如,不必让每个云应用都自行处理密码,而是可以在许多应用之间共享一款“密码服务”。

Dice表示,与SOA相关的职位薪酬过去一年增长7%。

21.R

年薪:126,249美元

简介:如今的企业都在不遗余力地存储“大数据”,然后对其展开深入分析。

R是开展这种业务的一种选择,可以展开统计性分析和可视性分析。这种技术的热度正在大幅提升。

Dice表示,与R相关的职位薪酬过去一年增长9.7%。

22.Docker

年薪:126,131美元

简介:Docker是一家热门创业公司,他们创造了一种名为的“container”的技术,深受广大程序员的喜爱。

借助container,开发者便可设置一个程序所需的所有电脑和基础设施环境,包括控制内存、CPU和磁盘使用状况。

随后,当程序从从程序员的电脑转移到云计算服务时,一切都可以设置妥当,而程序本身本身也将表现优异。

这是Dice首次将Docker列入热门技能。

23.Netezza

年薪:126,035美元

简介:Netezza是IBM 2010年斥资17.8亿美元收购的一种大数据分析设备。

它处于一个名为“企业数据仓库”的大数据细分领域。企业会在一台设备中存储大量信息,而没有像Haddoop等其他大数据技术一样吧数据分散在很多机器中。

Dice表示,与Netezza相关的职位薪酬过去一年增长13%。

24.ABAP

年薪:125,589美元

简介:ABAP是“高级企业应用编程语言”(Advanced Business Application Programming)的简称,这是SAP开发的一种软件语言,可以用于在SAP的软件上开发商业应用。

该公司开发了一套热门的财务应用套件,而且一直在挺进移动应用和数据库市场。很多企业都希望编写自定义应用,以便充分利用存储在SAP的数据。开发者也为SAP编写了商用应用。

Dice表示,与ABAP相关的职位薪酬过去一年增长1%。

25.webMethods

年薪:125,292美元

简介:webMethods是一款来自Software AG的“中间件”产品。

这是一种服务器,企业可以在上面托管各种各样的其他软件服务。它最著名的是所谓的“集成服务”,例如将一种软件格式映射到另外一种软件格式中,或者运行能让两个应用相互交流信息的API(应用编程接口)。

Dice表示,与webMethods相关的职位薪酬过去一年增长14%。

26.ISO 27000

年薪:124,646美元

简介:ISO 27000是实施电脑安全措施的最佳国际标准。

由于索尼和塔吉特等著名企业过去几年都遭遇了令人震惊的黑客事件,所以电脑如今已经成为了企业的一项重要任务。

这是Dice首次将ISO 27000列入热门IT技能。

27.CMMI

年薪:124,265美元

简介:CMMI是一种复杂的绩效管理方法,它可以帮助企业预测成本、制定计划并确保产品质量。

有一整套CMMI文化可以为人们提供训练模式,教给人们如何使用这项技术。

Dice表示,与CMMI相关的职位薪酬过去一年增长7.6%。

28.Documentum

年薪:124,138美元

简介:EMC Documentum是一种“企业内容管理”系统,意味着它可以帮助企业存储和搜索各种文件。

虽然Hadoop等大数据技术是处理数据的新兴方法,但Documentum仍然是使用许多纸质和电子表格的行业采用的一种热门工具,例如法律、医疗、保险等。

Dice表示,与Dpcumentum相关的职位薪酬过去一年增长8.4%。

29.Solr

年薪:124,036美元

简介:Solr是一个免费的开源企业搜索平台,在大型网站中很受欢迎。

该服务的用户包括eHarmony、StubHub和百思买等众多企业。

Dice表示,与Solr相关的职位薪酬过去一年增长5.7%。

30.Hibenate

年薪:123,948美元

简介:Hibernate是一款免费软件,其开发者加文·金(Gavin Kin)供职于开源软件巨头红帽。正因如此,Hibernate被包含在红帽的一款JBoss热门软件产品中。

Dice表示,与Hibernate相关的职位薪酬过去一年增长10.7%。

31.Korn

年薪:123,738美元

简介:Korn是一种应用于Unix和Linux系统中的脚本语言。这两种语言经常被用在一家企业最重要的应用中。

Dice表示,与Korn相关的职位薪酬过去一年增长10.4%。

32.Informix

年薪:123,023美元

简介:Informix是IBM旗下的一种数据库,它之所以重新复活,是因为IBM针对物联网市场调整了这项技术。物联网是在所有日常物体中都加入传感器,并使之接入互联网的一种技术。

Dice表示,与Informix相关的职位薪酬过去一年增长19.6%。

33.HBase

年薪:122,386美元

简介:HaBase是众多基于Hadoop技术开发的项目中的一个。

Hadoop可以存储许多低价电脑服务器中的各种数据。一旦这些数据使用Hadoop分布式文件系统(HDFS),HBase便可对其进行整理和分类,有点像传统数据库的数据组织方式。

Dice表示,虽然HBase仍是一项高薪技能,但与相关的职位薪酬过去一年减少3.2%。

34.Redis

年薪:122,023美元

简介:Redis是一项热门的开源项目,可以帮助程序员将重要信息存储在电脑内存中,从而立刻获取数据。

程序员使用这种数据库来缓存频繁访问的数据,或者处理应用之间的信息。

35.PMBOK

年薪:121,731美元

简介:PMBOK是“项目管理知识体系”(Project Management Body of Knowledge)的缩写,它体现在Project Management Institute制作的一本书中,该机构还推出了许多项目管理认证项目。

PMBOK其实是一套项目管理体系。

Dice表示,与PMBOK相关的职位薪酬过去一年增长8.5%。

36.Jetty

年薪:121,525美元

简介:Jetty是用Java编写的网络应用软件。虽然这种软件通常用于通过互联网将软件和应用发送给用户,但Jetty已经成为了一种热门的机器间通讯方式,经常在大型软件应用中使用。

将机器接入互联网就是所谓的“物联网”,这是一种重大趋势,也是互联网的一个重要增长领域,

Dice表示,与Jetty相关的职位薪酬过去一年增长7.5%。

37.HP-UX

年薪:120,930美元

简介:HP-UX是惠普开发的Unix操作系统,它被用在惠普最强大的服务器中,这通常用于运行一家企业最重要的企业应用,例如数据库。

Dice表示,与HP-UX相关的职位薪酬过去一年增长13%。

38.Groovy

年薪:120,484美元

简介:Groovy是一种基于Java的优势开发的编程语言,但同时也融合了Python和Ruby等其他语言的额外功能。

Groovy可以简化Java开发者使用这些新型技术编写应用的难度。

Dice表示,与Groovy相关的职位薪酬过去一年增长12.4%。

39.MicroStrategy

年薪:120,184美元

简介:MicroStrategy是一家分析软件开发商,这一领域之前被称作“商业智能”,现在则更名为“大数据”。

所有与大数据有关的技术都在走红,能够基于各种MicroStrategy产品编写企业应用的人才更是炙手可热。

Dice表示,与MicroStrategy相关的职位薪酬过去一年增长10.2%。

40.Matlab

年薪:120,182美元

简介:Matlab是MathWorks开发的一种编程语言,广受世界各地的工程师和科学家的喜爱。MathWorks为工程师和科学家开发了电脑软件。

Dice表示,与Matlab相关的职位薪酬过去一年增长17.8%。(长歌)

本文由betway必威官网手机版发布于互联网知识,转载请注明出处:精品学习资料,这40项IT技能年薪轻松超过10万美

关键词: