存档

文章标签 ‘hive’

hive视频下载

2016年4月6日 admin 没有评论

https://yunpan.cn/cqPmZzZ9QgUmK 访问密码 9920   [caption id="attachment_2363" align="alignnone" width="300" caption="hive视频下载"][/caption]

分类: Hadoop 标签:

hive中的文件格式

2016年3月30日 admin 没有评论

在hive中的文件格式主要如下几种: textfile:默认的文本方式 Sequencefile:二进制格式 rcfile:面向列的二进制格式 orc:rcfile的增强版本,列式存储 parquet:列式存储,对嵌套类型数据支持较好 hive文件支持压缩方式: 这个与底层的hadoop有关,hadoop支持的压缩,hive都支持,主要有:gzip,bizp,snappy,lzo

分类: Hadoop 标签:

hive日常积累优化技巧

2013年9月17日 tianhl 没有评论

一、join优化 Join查找操作的基本原则:应该将条目少的表/子查询放在 Join 操作符的左边。原因是在 Join 操作的 Reduce 阶段,位于 Join 操作符左边的表的内容会被加载进内存,将条目少的表放在左边,可以有效减少发生内存溢出错误的几率。 Join查找操作中如果存在多个join,且所有参与join的表中其参与join的key都相同,则会将所有的join合并到一个mapred程序中。 案例: SELECT a.val, b.val, c.val FROM a JOIN b ON (a.key = b.key1) JOIN c ON (c.key = b.key1) 在一个mapre程序中执行join SELECT a.val, b.val, c.val FROM a JOIN b ON (a.key = b.key1) JOIN c ON (c.key = b.key2) 在两个mapred程序中执行join Map join的关键在于join

分类: Hadoop 标签: ,

比Hive高效7倍 Facebook推新一代查询引擎Presto

2013年6月26日 tianhl 没有评论

在Facebook总部的一次开发者会议上,这个社交网络巨头的工程师透露,他们正在使用新的自主研发的查询引擎Presto,在已有的250PB的庞大数据仓库上进行交互式分析。 据Martin Traverso工程师透露,有超过850名Facebook工程师每天用它来扫描超过320TB的数据。在以前,我们的科学家和分析师一直依靠Hive来做数据分析。但Hive是专为批处理设计的。但随着数据越来越多,Hive已不能满足我们的需求。虽然我们还有其他比Hive更快的工具,但它们要么在功能有所限制要么就太简单,以至于无法操作我们庞大的数据仓库。而在过去的几个月中,我们一直使用Presto来填补这方面的空白。 Hive是Facebook在几年前专为Hadoop打造的一款数据仓库工具。因为它主要依赖

分类: Hadoop 标签: ,

Hadoop, Hive和Scribe在运维方面的应用

2012年5月8日 tianhl 没有评论

邵铮(Facebook) 2011-12-07 13:30 永泰大宴会厅B 演讲幻灯片:Hadoop, Hive和Scribe在运维方面的应用[PDF] 在云计算和大机群越来越普及的今天,运维的工作越来越多的转化为大规模数据分析的工作。在本议程中,我们会先介绍Hadoop, Hive和Scribe系统所解决的问题,以及这些系统本身在运维方面的挑战;然后我们会介绍如何利用这些系统来解决其自身在运维方面的挑战;最后我们会介绍如何利用这些系统来满足其他系统在监测和运维方面的需求。 邵铮 Facebook 2008年起至今在美国Facebook公司任软件工程师/研发经理,专注于公司内海量数据仓库与实时数据分析系统的建设。2009年起兼任Apache软件基金会Hadoop项目委员会委员。2005年至2008年就职于美

分类: Hadoop 标签: , ,