hive中的文件格式

hive中的文件格式

在hive中的文件格式主要如下几种: textfile:默认的文本方式 Sequencefile:二进制格式 rcfile:面向列的二进制格式 orc:rcfile的增强版本,列式存储 parquet:列式存储,对嵌套类型数据支持较好 hive文件支持压缩方式: 这个与底层的hadoop有关,hadoop支持的压缩,hive都支持,主要有:gzip,bizp,snappy,lzo

比Hive高效7倍 Facebook推新一代查询引擎Presto

比Hive高效7倍 Facebook推新一代查询引擎Presto

在Facebook总部的一次开发者会议上,这个社交网络巨头的工程师透露,他们正在使用新的自主研发的查询引擎Presto,在已有的250PB的庞大数据仓库上进行交互式分析。 据Martin Traverso工程师透露,有超过850名Facebook工程师每天用它来扫描超过320TB的数据。在以前,我们的科学家和分析师一直依靠Hive来做数据分析。但Hive是专为批处理设计的。但随着数据越来越多,Hive已不能满足我们的需求。虽然我们还有其他比Hive更快的工具,但它们要么在功能有所限制要么就太简单,以至于无法操作我们庞大的数据仓库。而在过去的几个月中,我们一直使用Presto来填补这方面的空白。 Hive是Facebook在几年前专为Hadoop打造的一款数据仓库工具。因为它主要依赖

Hadoop, Hive和Scribe在运维方面的应用

Hadoop, Hive和Scribe在运维方面的应用

邵铮(Facebook) 2011-12-07 13:30 永泰大宴会厅B 演讲幻灯片:Hadoop, Hive和Scribe在运维方面的应用[PDF] 在云计算和大机群越来越普及的今天,运维的工作越来越多的转化为大规模数据分析的工作。在本议程中,我们会先介绍Hadoop, Hive和Scribe系统所解决的问题,以及这些系统本身在运维方面的挑战;然后我们会介绍如何利用这些系统来解决其自身在运维方面的挑战;最后我们会介绍如何利用这些系统来满足其他系统在监测和运维方面的需求。 邵铮 Facebook 2008年起至今在美国Facebook公司任软件工程师/研发经理,专注于公司内海量数据仓库与实时数据分析系统的建设。2009年起兼任Apache软件基金会Hadoop项目委员会委员。2005年至2008年就职于美