存档

文章标签 ‘MapReduce’

mapreduce程序shell脚本运行跑多天数据

2013年10月23日 tianhl 没有评论

vprun.sh sh vprun.sh 20130101 20130102 说明:参数为开始日期和结束日期,如果开始日期和结束日期是一样的话,那就是跑一天的数据 #!/bin/bash #Filename: vprun.sh ct=0 date=`date -d "${1} ${ct} days" +%Y%m%d` while [[ ${2} > ${date} ]] || [[ ${2} == ${date} ]] do hadoop jar /home/yda/tianhailong/vp-0.0.1-SNAPSHOT.jar com.youku.vp.userindex.day.calculators.TDVUserVideoJoin -libjars /home/yda/tianhailong/json-lib-2.3-jdk15.jar,/home/yda/tianhailong/ezmorph-1.0.6.jar,/home/yda/tianhailong/kfs-0.3.jar,/home/yda/tianhailong/redis-0.0.1.jar,/home/yda/tianhailong/jedis-2.0.0.jar,/w

分类: Hadoop 标签: ,

Hadoop map和reduce的个数

2013年7月15日 tianhl 没有评论

一般情况下,在输入源是文件的时候,一个task的map数量由splitSize来决定的,那么splitSize是由以下几个来决定的 goalSize = totalSize / mapred.map.tasks inSize = max {mapred.min.split.size, minSplitSize} splitSize = max (minSize, min(goalSize, dfs.block.size)) 一个task的reduce数量,由partition决定。 在输入源是数据库的情况下,比如mysql,对于map的数量需要用户自己指定,比如 jobconf.set(“mapred.map.tasks.nums”,20); 如果数据源是HBase的话,map的数量就是该表对应的region数量。 map和reduce是hadoop的核心功能,hadoop正是通过多个map和reduce的并行运行来实现任务的分布式并行计算,从这个观点来看,如果

分类: Hadoop 标签: ,

Google的三大核心技术MapReduce、GFS和BigTable论文

2013年2月19日 tianhl 没有评论

Google的三大核心技术MapReduce、GFS和BigTable论文(中文翻译版) MapReduce: http://blog.csdn.net/active1001/archive/2007/07/02/1675920.aspx GFS: http://blog.csdn.net/xuleicsu/archive/2005/11/10/526386.aspx BigTale: http://blog.csdn.net/accesine960/archive/2006/02/09/595628.aspx

分类: 云计算 标签: , ,

雅虎计划重构 Hadoop-MapReduce,解决性能瓶颈

2012年5月9日 tianhl 没有评论

最近雅虎开发者博客发了一篇介绍Hadoop重构计划的文章。因为他们发现当集群的规模达到4000台机器的时候,Hadoop遭遇到扩展性的瓶颈,目前他们正准备开始对Hadoop进行重构。 Mapreduce面临的瓶颈 从集群大小和工作量中观察到的趋势是,MapReduce的JobTracker需要彻底改革,以解决其可扩展性,内存消耗,线程模型,可靠性和性能的几个缺陷。Mapreduce在过去5年框架不断的修复过程中发现成本在不断增加。目前Hadoop各个模块的紧耦合使得在现有设计的基础上继续改进变得举步维艰。这一点早已在社区内达成共识,所以他们正准备开始对Hadoop进行重构。不过从操作的角度来看,任何轻微的或修复Bug带来的巨大改动都会让Hadoop MapReduce强制进行全系统

分类: Hadoop 标签: , ,

Hadoop的那些事儿

2012年5月8日 tianhl 没有评论

在说Hadoop之前,作为一个铁杆粉丝先粉一下Google。Google的伟大之处不仅在于它建立了一个强悍的搜索引擎,它还创造了几项革命性的技术:GFS,MapReduce,BigTable,即所谓的Google三驾马车。Google虽然没有公布这几项技术的实现代码,但它发表了详细的设计论文,这给业界带来了新鲜气息,很快就出现了类似于Google三驾马车的开源实现,Hadoop就是其中的一个。 关于MapReduce Hadoop说起来很简单,一个存储系统(HDFS),一个计算系统(MapReduce)。仅此而已。模型虽然简单,但我觉得它的精妙之处也就在这里。目前,通过提高CPU主频来提升计算性能的时代已经结束了,因此并行计算、分布式计算在业界发展了起来,但是这也往往意味着复杂的设

分类: Hadoop 标签: , ,

云里雾里的云计算 【4】-转载自邓侃博士的博客

2012年4月11日 tianhl 没有评论

【5】是云计算,还是云存储? Gadgets的目标是方便大家建网站。但是单靠gadgets,建网站的工作还是不够方便。 通常网站有三个组成部分,1. 网页,2. 业务逻辑, 3. 数据存储。如果说网页相当于商店,那么业务逻辑相当于车间,而数据存储相当于仓库。商店,车间和仓库三者中,技术含量最高的,当属车间。 Manufacture in old time Courtesy http://www.atlantic-cable.com/Cables/1857-58Atlantic/Cable-Manufacture.jpg 车间管理可以大致概括为两件事,1. 工艺流程,2. 资源调度。工艺流程关心的是,先做什么,后做什么,才能生产一个完整的产品。资源调度的问题是,哪个工人,用哪台机器,在哪个时间,做什么。 网站的业务逻辑处理,大致来说

分类: 云计算 标签: ,