存档

2017年3月13日 的存档

Hadoop distcp集群间同步数据

2017年3月13日 admin 没有评论

hadoop distcp -D ipc.client.fallback-to-simple-auth-allowed=true -log /temp/tianhailong/ webhdfs://10.11.4.240:50070/test/tianhl webhdfs://10.11.1.10/user/hive 遇到的坑: 1、数据所在的集群所有机器,需要配置同步集群的hosts。 2、带有Kerberos安全认证,需要加参数。-D ipc.client.fallback-to-simple-auth-allowed=true 3、 注意运行日志,需要写入有权限的文件夹。 -log /temp/tianhailong/ 4、被写入数据的集群是hive用户写入的,需要找一个hive可以写入的权限的文件夹存放数据。/user/hive   参数说明: -m <num_maps> 同时拷贝的最大数目 指定了拷贝数据时map的数目。请注意并不是map数越多吞吐量越大。

分类: Hadoop 标签: ,