存档

‘Hadoop’ 分类的存档

Hadoop distcp集群间同步数据

2017年3月13日 admin 没有评论

hadoop distcp -D ipc.client.fallback-to-simple-auth-allowed=true -log /temp/tianhailong/ webhdfs://10.11.4.240:50070/test/tianhl webhdfs://10.11.1.10/user/hive 遇到的坑: 1、数据所在的集群所有机器,需要配置同步集群的hosts。 2、带有Kerberos安全认证,需要加参数。-D ipc.client.fallback-to-simple-auth-allowed=true 3、 注意运行日志,需要写入有权限的文件夹。 -log /temp/tianhailong/ 4、被写入数据的集群是hive用户写入的,需要找一个hive可以写入的权限的文件夹存放数据。/user/hive   参数说明: -m <num_maps> 同时拷贝的最大数目 指定了拷贝数据时map的数目。请注意并不是map数越多吞吐量越大。

分类: Hadoop 标签: ,

维度表和事实表

2017年3月2日 admin 没有评论

维度表示你要对数据进行分析时所用的一个量, 比如你要分析产品销售情况, 你可以选择按类别来进行分析,或按区域来分析. 这样的按..分析就构成一个维度。前面的示例就可以有两个维度:类型和区域。另外每个维度还可以有子维度(称为属性),例如类别可以有子类型,产品名等属性。 下面是两个常见的维度表结构: 产品维度表:Prod_id, Product_Name, Category, Color, Size, Price 时间维度表:TimeKey, Season, Year, Month, Date 而事实表是数据聚合后依据某个维度生成的结果表。它的结构示例如下: 销售事实表:Prod_id(引用产品维度表), TimeKey(引用时间维度表), SalesAmount(销售总量,以货币计), Unit(销售量)   上面的这些表就是存在

分类: Hadoop 标签:

hadoop spark 大数据相关资源

2016年12月23日 admin 没有评论

小象《Hadoop 2.X大数据平台V3》 链接:http://pan.baidu.com/s/1nvS7GFJ 密码:tqng 《Spark 1.X 大数据平台V2》11月份班 链接:http://pan.baidu.com/s/1sl6KOGX 密码:qlea 深入浅出Hive企业级架构优化、Hive Sql优化、压缩和分布式缓存 链接:http://pan.baidu.com/s/1gfsmj3X 密码:50y2 资源整理中……. 欢迎大家补充!

分类: Hadoop 标签: , ,

Presto的作用

2016年8月2日 admin 没有评论

Presto不是什么 虽然Presto一直被一些个人或者团体称为 数据库 ,但是Presto并不是数据库。 千万不要以为Presto可以解析SQL,那么Presto就是一个标准的数据库。Presto并不是传统意义上的数据库。Presto并不是MySQL、PostgreSQL或者Oracle的代替品。Presto并不能用来处理在线事务。其实很多其他的数据库产品也是被用来设计为数据仓库或者数据分析工具,但是也不能处理在线事务。 Presto是什么 Presto通过使用分布式查询,可以快速高效的完成海量数据的查询。如果你需要处理TB或者PB级别的数据,那么你可能更希望借助于Hadoop和HDFS来完成这些数据的处理。作为Hive和Pig(Hive和Pig都是通过MapReduce的管道流来完成HDFS数据的查询)的替代者,Pr

分类: Hadoop 标签:

elasticsearch在window下的安装和java查询

2016年4月7日 admin 没有评论

下载elasticsearch的zip包,elasticsearch的版本是2.2.1 ps:elasticsearch的api随版本更新的速度快,这里边需要查看对应版本的api文档 解压后安装,elasticsearch的访问地址: http://localhost:9200/ { "name" : "Venus", "cluster_name" : "elasticsearch", "version" : { "number" : "2.2.1", "build_hash" : "d045fc29d1932bce18b2e65ab8b297fbf6cd41a1", "build_timestamp" : "2016-03-09T09:38:54Z", "build_snapshot" : false, "lucene_version" : "5.4.1"

分类: Hadoop 标签:

hive视频下载

2016年4月6日 admin 没有评论

https://yunpan.cn/cqPmZzZ9QgUmK 访问密码 9920   [caption id="attachment_2363" align="alignnone" width="300" caption="hive视频下载"][/caption]

分类: Hadoop 标签:

hive中的文件格式

2016年3月30日 admin 没有评论

在hive中的文件格式主要如下几种: textfile:默认的文本方式 Sequencefile:二进制格式 rcfile:面向列的二进制格式 orc:rcfile的增强版本,列式存储 parquet:列式存储,对嵌套类型数据支持较好 hive文件支持压缩方式: 这个与底层的hadoop有关,hadoop支持的压缩,hive都支持,主要有:gzip,bizp,snappy,lzo

分类: Hadoop 标签:

训练对数字的敏感

2015年5月18日 admin 没有评论

开经营会议的时候,我常常发现很多中高层管理人员,对数字相当的不敏感。有时候,整个一场会开完,有些管理人员对各部门所报告的数据,既无问询,也不质疑,只是盯着幻灯片,任其往下翻。而报告的人,常常将一些数字念到个位数,乃至小数点后面两位数,也让我觉得不可思议。我觉得这样的会议,这样的数字,这样的管理人员,都没有价值。不能透过数字,看出数字背后的问题的管理人员,不是好管理人员。要么赶快训练对数字的敏感度,要么,干脆另谋生路。 这让我想自己与数字打交道的故事。 读书时,我的数学成绩并不好。参加工作后,我所从事的工作,却是个天天跟各种数据打交道的工作。至今还记得,第一次做统计数据的工作,一堆数字,我加过去

分类: Hadoop 标签:

Hadoop和云计算的关系

2015年5月4日 admin 没有评论

[caption id="attachment_57" align="aligncenter" width="716"] Hadoop组件[/caption] Hadoop主要是由HDFS和MapReduce组成,HDFS是一个分布式文件系统(Hadoop Distributed File System),MapReduce则是用于并行处理大数据集的软件框架。因此,Hadoop是一个能够对大量数据进行分布式处理的软件框架,它是一种技术的实现。 Hadoop是Apache基金会下的一款开源软件, 它实现了包括分布式文件系统HDFS和MapReduce框架在内的云计算软件平台的基础架构,并且在其上整合了包括数据库、云计算管理、数据仓储等一系列平台,其已成为工业界和学术界进行云计算应用和研究的标准平台。Hadoop现在已经广泛应用于包括国外的FaceBook,Twitter,Yahoo!等公司,

分类: Hadoop, 云计算 标签:

Java和云计算的关系

2015年5月4日 admin 没有评论

Java是一种程序设计语言,云计算是一种新的商业计算模型和服务模式。他们实际上是没有直接关系的,但是由于Java 技术具有卓越的通用性、高效性、平台移植性和安全性,并且广泛应用于个人PC、数据中心、游戏控制台、科学超级计算机、智能手机、物联网和互联网,同时拥有全球最大的开发者专业社群。在全球云计算和移动互联网的产业环境下,Java更具备了显著优势和广阔前景,Java已经成为一个庞大而复杂的技术平台。 hadoop Java与云计算的关系主要体现在以下几个方面: Java在云计算中的优势: Java使云计算更简单,Java具有简单性、兼容性、简易性、安全性、动态性、高性能、解释性、健壮性 Java与分布式计算: 基于JAVA的分布式程序设计: 基

分类: Hadoop, 云计算 标签: ,