Hadoop distcp集群间同步数据

hadoop distcp -D ipc.client.fallback-to-simple-auth-allowed=true -log /temp/tianhailong/ webhdfs://10.11.4.240:50070/test/tianhl webhdfs://10.11.1.10/user/hive

遇到的坑：
1、数据所在的集群所有机器，需要配置同步集群的hosts。
2、带有Kerberos安全认证，需要加参数。-D ipc.client.fallback-to-simple-auth-allowed=true
3、注意运行日志，需要写入有权限的文件夹。 -log /temp/tianhailong/
4、被写入数据的集群是hive用户写入的，需要找一个hive可以写入的权限的文件夹存放数据。/user/hive

参数说明：

-m <num_maps>

同时拷贝的最大数目

指定了拷贝数据时map的数目。请注意并不是map数越多吞吐量越大。

参考网址：
https://community.hortonworks.com/questions/294/running-distcp-between-two-cluster-one-kerberized.html
http://stardust.wang/?p=331

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30