存档

文章标签 ‘HDFS’

HDFS在百度的使用

2013年12月4日 tianhl 没有评论

HDFS在百度的使用: 建议在火狐下查看 [crocodoc width="700" height="500"]

分类: Hadoop 标签: ,

利用hdfs搭建网盘–webserver开发

2013年6月23日 tianhl 没有评论

利用hdfs搭建网盘–webserver开发,描述下实现思路: 1、网盘系统中的webserver是用来给用户提供操作界面,接收用户指令,完成文件上传、下载、图片上传、下载和图片预览功能的。 2、其中关于存储相关的功能都是调用hdfs API来完成,而关于文件的相关结构化信息都存储在mysql关系型数据库中; 3、webserver起到的是连接客户和hdfs的作用 4、采用的是SSH框架(Struts2、spring、hibernate)、数据库为mysql,数据模型请参考:利用hdfs搭建网盘–数据模型设计 5、web调用hdfs API的思路是:利用java运行时 运行java jar包,可参考《利用HDFS java API增删改查操作》,例如: process = Runtime.getRuntime().exec("java -jar /root/hdfs-0.0

分类: Hadoop 标签: ,

利用hdfs搭建网盘–数据模型设计

2013年6月18日 tianhl 没有评论

先阐述下利用hdfs搭建网盘的思路: (1)、首先要搭建hadoop集群,确保该集群正常运行 (2)、通过API访问文件到存储在hdfs中的文件,能对文件进行增删改查 (3)、文件的其他结构化信息,,比如:文件名称,上传时间,所属用户、文件类型等信息,需要存储在数据库里,我们使用mysql (4)、用户需要通过操作界面来访问网盘系统,而不是直接操作hdfs,这里采用java、struts2框架来实现web端开发 (5)、有用户系统,存储用户相关信息,另外hdfs中文件存放的路径也和用户有直接关系 网盘系统的截图:http://pan.baidu.com/share/link?shareid=3253971941&uk=772112791 第一点已经在《Hadoop集群搭建详细简明教程》里详细写明步骤了,再次就

分类: Hadoop 标签: ,

利用HDFS java API增删改查操作

2013年5月19日 tianhl 4 条评论

利用HDFS java API增删改查操作 在做这个实验的时候需要特别注意下面三个问题: 1、hdfs安全模式需要关闭 命令:./hadoop dfsadmin -safemode leave 2、工程中依赖的版本必须和集群的一致,否则也会报 version不一致错误 3、hadoop集群用户权限的问题,以及各个目录的作用 目前为什么会有这三个问题的原因待查!!! 未验证目前使用hadoop的版本(release-0.20.0)是否支持webhdfs,反正我是怎么都连接不上啊!!! 从这上面看,0.20.0 可能是不支持的 https://jira.springsource.org/browse/IMPALA-15?page=com.atlassian.jira.plugin.system.issuetabpanels:all-tabpanel Serengeti Distro: Apache Hadoop:1.0.1 GreenPlum HD:1.1(Apache H

分类: Hadoop, Java 标签: , ,

HDFS:Hadoop分布式文件系统的架构和设计

2012年6月1日 tianhl 没有评论

Hadoop分布式文件系统:架构和设计要点 原文:http://hadoop.apache.org/core/docs/current/hdfs_design.html 一、前提和设计目标 1、硬件错误是常态,而非异常情况,HDFS可能是有成百上千的server组成,任何一个组件都有可能一直失效,因此错误检测和快速、自动的恢复是HDFS的核心架构目标。 2、跑在HDFS上的应用与一般的应用不同,它们主要是以流式读为主,做批量处理;比之关注数据访问的低延迟问题,更关键的在于数据访问的高吞吐量。 3、HDFS以支持大数据集合为目标,一个存储在上面的典型文件大小一般都在千兆至T字节,一个单一HDFS实例应该能支撑数以千万计的文件。 4、 HDFS应用对文件要求的是write-one-read-many访问模型。一个文件经

分类: Hadoop 标签: ,

Hadoop

2012年4月6日 tianhl 没有评论

[caption id="attachment_34" align="aligncenter" width="631" caption="hadoop"][/caption] 一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streaming access)文件系统中的数据。 Hadoop 是一个能

分类: 云计算 标签: , ,