存档

文章标签 ‘hadoop’

hadoop spark 大数据相关资源

2016年12月23日 admin 没有评论

小象《Hadoop 2.X大数据平台V3》 链接:http://pan.baidu.com/s/1nvS7GFJ 密码:tqng 《Spark 1.X 大数据平台V2》11月份班 链接:http://pan.baidu.com/s/1sl6KOGX 密码:qlea 深入浅出Hive企业级架构优化、Hive Sql优化、压缩和分布式缓存 链接:http://pan.baidu.com/s/1gfsmj3X 密码:50y2 资源整理中……. 欢迎大家补充!

分类: Hadoop 标签: , ,

Hadoop和云计算的关系

2015年5月4日 admin 没有评论

[caption id="attachment_57" align="aligncenter" width="716"] Hadoop组件[/caption] Hadoop主要是由HDFS和MapReduce组成,HDFS是一个分布式文件系统(Hadoop Distributed File System),MapReduce则是用于并行处理大数据集的软件框架。因此,Hadoop是一个能够对大量数据进行分布式处理的软件框架,它是一种技术的实现。 Hadoop是Apache基金会下的一款开源软件, 它实现了包括分布式文件系统HDFS和MapReduce框架在内的云计算软件平台的基础架构,并且在其上整合了包括数据库、云计算管理、数据仓储等一系列平台,其已成为工业界和学术界进行云计算应用和研究的标准平台。Hadoop现在已经广泛应用于包括国外的FaceBook,Twitter,Yahoo!等公司,

分类: Hadoop, 云计算 标签:

大数据热门职业薪酬榜

2014年2月27日 tianhl 没有评论

随着越来越多企业开始投身于大数据技术的革新洪流,对于IT专业人士的市场需求也水涨船高。时至今日,具备收集、整理、分析以及构建不同来源数据技能的人才正迎来自己职业生涯的上升期。 在当下的数字化时代,数据量的丰富程度远远超过历史上的任何时期,很多时候这种丰富程度甚至成为一种沉重的负担。企业开始将大量资源投入到云技术、移动技术以及社交媒体当中。结合这些新兴领域,再加上企业自身运营所必然产生的信息,我们发现目前需要收集的数据总量单单用“爆炸式”已经不足以形容其扩张速度。根据Kforce公司(一家总部位于佛罗里达州坦帕市的人力资源企业)的调查,伴随着数据量的节节攀升,市场对于有能力收集、整理并利用数据内容的人才

分类: Hadoop 标签: ,

Hadoop权威博客

2014年2月21日 tianhl 没有评论

请关注Yahoo! Hadoop团队的博客(developer.yahoo.com/blogs/hadoop)。 Hadoop在eBay的应用内容是根据eBay研究人员的技术博客[2]整理而成的,其中参考了eBay分析平台开发部Anil Madan介绍的Hadoop在eBay的使用情况,大家如果想要了解Hadoop在eBay应用的更多信息,可以关注eBay研究人员的技术博客(www.ebaytechblog.com)。 百度使用Hadoop平台的情况则是根据近几届Hadoop中国云计算大会上百度研究人员的报告整理而成,大家如果想了解更详细的信息或Hadoop中国云计算大会的相关信息可登录Hadoop in China网站:http://www.hadooper.cn。 Facebook使用Hadoop的情况是根据Facebook相关技术人员在各个云计算大会上所做的报告整理而成的。 Hadoop

分类: Hadoop 标签:

hadoop Task process exit with nonzero status of 126

2013年10月8日 tianhl 没有评论

通过分析hadoop 1.0.1代码,发现map/reduce task在执行的时候,hadoop系统会先把要执行的java 命令已经一些环境变量写到一个本地的sh文件taskjvm.sh中,然后使用bash -c file的方式执行这个sh脚本,如果出错当然后抛出异常,进而导致看到 Caused by: java.io.IOException: Task process exit with nonzero status of 126. at org.apache.hadoop.mapred.TaskRunner.run(TaskRunner.java:258) 这样的错误 所以,这个exitcode实际就是bash执行时的推出代码,bash的exitcode是有特殊含义的,通过google可以知道126表明是permission的问题,具体为啥是这样的,不是很清楚了~~ 上面的那个文件在创建的是权限是700(rwx——), 而这个文件

分类: Hadoop 标签:

Hadoop的分块与分片

2013年9月4日 tianhl 没有评论

HDFS存储系统中,引入了文件系统的分块概念(block),块是存储的最小单位,HDFS定义其大小为64MB。与单磁盘文件系统相似,存储在HDFS上的文件均存储为多个块,不同的是,如果某文件大小没有到达64MB,该文件也不会占据整个块空间。在分布式的HDFS集群上,Hadoop系统保证一个块存储在一个datanode上。 当我们执行hadoop fs -put aa.txt /bb.txt,则aa.txt会被复制为集群的/bb.txt。查看系统的log日志hadoop-$username-namenode-*.log,可以看到类似于 2011-09-07 08:39:12,506 INFO org.apache.hadoop.hdfs.StateChange: BLOCK* NameSystem.addStoredBlock: blockMap updated: 127.     0.0.1:50010 is added to blk_5715489406767973176_1

分类: Hadoop 标签: , ,

Hadoop map和reduce的个数

2013年7月15日 tianhl 没有评论

一般情况下,在输入源是文件的时候,一个task的map数量由splitSize来决定的,那么splitSize是由以下几个来决定的 goalSize = totalSize / mapred.map.tasks inSize = max {mapred.min.split.size, minSplitSize} splitSize = max (minSize, min(goalSize, dfs.block.size)) 一个task的reduce数量,由partition决定。 在输入源是数据库的情况下,比如mysql,对于map的数量需要用户自己指定,比如 jobconf.set(“mapred.map.tasks.nums”,20); 如果数据源是HBase的话,map的数量就是该表对应的region数量。 map和reduce是hadoop的核心功能,hadoop正是通过多个map和reduce的并行运行来实现任务的分布式并行计算,从这个观点来看,如果

分类: Hadoop 标签: ,

Hadoop 2.0激活大数据应用开发

2013年7月7日 tianhl 没有评论

Hadoop生态系统还在不断演进。倒退几年,我们还仅仅把Hadoop看作是HDFS(分布式文件系统)、MapReduce(软件编程模型)以及一些元素(工具与API)的组合,它们逐渐成为了大数据的代名词。 然而上周在圣何塞举行的Hadoop峰会2013让我们意识到,Hadoop已经发生了本质上的变化。Hadoop 2.0登上历史舞台,随之而来的增强特性为我们带来了一套新的数据编程方式,尽管依然依附于Hadoop,但它已经为我们提供了打破Hadoop固有印象的可能。 在Hadoop 2.0中,新增强的功能虽然还是围绕HDFS以及相关组件,如HBase数据库、Hive数据仓库以及Knox安全网关等,但是最引人关注的还是2.0中的YARN组件。YARN的名称来自于字母缩写“Yet Another Resource Manager”,直译

分类: Hadoop 标签:

Java开发者不一定最适合Hadoop

2013年6月29日 tianhl 没有评论

JNAN DASH的一位(IBM数据仓库BI)专家朋友几周前参加了在圣何塞举行的Hadoop会议。两年前也是这个时间,他参加了当时在纽约的Hadoop会议,但当时仅有200人,而这次不仅有2000多人参加,并且门票早已销售一空。显然,这很直观地证明了Hadoop会议引发了业内高度的兴趣。不止如此,他发现每一个主题演讲的PPT中有关Hadoop技术的幻灯片中都提到“我们正在招聘(we are hiring)”。 人才缺乏由此可见一斑。作为一个能够对大量数据进行分布式处理的软件框架,Hadoop可靠、高效而可伸缩。由于Hadoop很容易实现对搜索关键字进行内容分类,并可以通过并行处理加快处理速度,所以受到更行业的欢迎。而Hadoop带有用Java 语言编写的框架,因此在Linux生产

分类: Hadoop 标签: ,

招聘hadoop方向的开发人员主要看重的是什么能力?

2013年6月27日 tianhl 没有评论

想请教一下,在招聘hadoop方向的开发人员时,和招聘web应用开发人员的要求有什么不同,是否会更看重算法设计能力。对于目前从事web开发,想要转至hadoop方向的程序员有没有什么好的建议呢?谢谢! 我的规划中,是没有“专业Hadoop程序员”这个概念的。毕竟这只是一个框架,就好像不能叫“专业Mysql管理员”一样,我们应该是从事分布式计算的工程师,或者云计算工程师。 做这个领域,我认为有两个方面的能力是重要的,技术架构能力和业务数据敏感。 针对目前从事Web开发的工程师,我第一个建议是提高视野。很多Web工程师只认识Web框架内的东西,这阻碍他理解批处理系统的结构。 第二个建议是要对业务数据敏感,大部分Web工程师长期接触一

分类: Hadoop, 云计算 标签: ,