BBC.地平线.大数据时代

BBC.地平线.大数据时代

“在洛杉矶,警方通过数据分析,预测12小时内哪个地区最有可能发生犯罪;在伦敦金融城,一位交易员认为,数学计算可成为发财”秘笈”;在南美,天文学家尝试为整个宇宙进行分类记录……这些迥然不同的领域如今出现同一特征:数据量的大爆发。”

这是英国广播公司品牌栏目《地平线》最新播出的纪录片《大数据时代》中的开篇一幕。

Java开发者不一定最适合Hadoop

Java开发者不一定最适合Hadoop

JNAN DASH的一位(IBM数据仓库BI)专家朋友几周前参加了在圣何塞举行的Hadoop会议。两年前也是这个时间,他参加了当时在纽约的Hadoop会议,但当时仅有200人,而这次不仅有2000多人参加,并且门票早已销售一空。显然,这很直观地证明了Hadoop会议引发了业内高度的兴趣。不止如此,他发现每一个主题演讲的PPT中有关Hadoop技术的幻灯片中都提到“我们正在招聘(we are hiring)”。

招聘hadoop方向的开发人员主要看重的是什么能力?

招聘hadoop方向的开发人员主要看重的是什么能力?

想请教一下,在招聘hadoop方向的开发人员时,和招聘web应用开发人员的要求有什么不同,是否会更看重算法设计能力。对于目前从事web开发,想要转至hadoop方向的程序员有没有什么好的建议呢?谢谢! 我的规划中,是没有“专业Hadoop程序员”这个概念的。毕竟这只是一个框架,就好像不能叫“专业Mysql管理员”一样,我们应该是从事分布式计算的工程师,或者云计算工程师。 做这个领域,我认为有两个方面的能力是重要的,技术架构能力和业务数据敏感。 针对目前从事Web开发的工程师,我第一个建议是提高视野。很多Web工程师只认识Web框架内的东西,这阻碍他理解批处理系统的结构。 第二个建议是要对业务数据敏感,大部分Web工程师长期接触一

比Hive高效7倍 Facebook推新一代查询引擎Presto

比Hive高效7倍 Facebook推新一代查询引擎Presto

在Facebook总部的一次开发者会议上,这个社交网络巨头的工程师透露,他们正在使用新的自主研发的查询引擎Presto,在已有的250PB的庞大数据仓库上进行交互式分析。 据Martin Traverso工程师透露,有超过850名Facebook工程师每天用它来扫描超过320TB的数据。在以前,我们的科学家和分析师一直依靠Hive来做数据分析。但Hive是专为批处理设计的。但随着数据越来越多,Hive已不能满足我们的需求。虽然我们还有其他比Hive更快的工具,但它们要么在功能有所限制要么就太简单,以至于无法操作我们庞大的数据仓库。而在过去的几个月中,我们一直使用Presto来填补这方面的空白。 Hive是Facebook在几年前专为Hadoop打造的一款数据仓库工具。因为它主要依赖

乔布斯传记影片《Jobs》预告片

乔布斯传记影片《Jobs》预告片

Ashton Kutcher主演的乔布斯传记电影Jobs今天发布了首段预告片,为大家展示了这部电影的基本概况。Jobs在今年的圣丹斯电影节上举行了首映,影评网站对这部电影的评价褒贬不一。这部电影原计划在今年4月公映,不过一直被推迟至今年8月16日。

Jobs电影中,Ashton Kutcher将扮演乔布斯,Josh Gad版本Steve Wozniak。早在今年4月,搞笑视频网站Funny or Die就发布了不受好评的iSteve喜剧风格乔布斯传记电影,其中乔布斯的扮演者是Justin Long,他曾经在Mac vs PC广告系列中扮演Mac角色。

最后,由Aaron Sorkin担任编剧的得到Walter Isaacon官方授权的乔布斯传记电影目前还在制作初期,这部电影计划讲述乔布斯的人生的三个阶段,也就是发布原始Mac、NeXT和发布iPod,每个阶段大概30分钟左右。

利用hdfs搭建网盘–webserver开发

利用hdfs搭建网盘–webserver开发

利用hdfs搭建网盘–webserver开发,描述下实现思路:

1、网盘系统中的webserver是用来给用户提供操作界面,接收用户指令,完成文件上传、下载、图片上传、下载和图片预览功能的。
2、其中关于存储相关的功能都是调用hdfs API来完成,而关于文件的相关结构化信息都存储在mysql关系型数据库中;
3、webserver起到的是连接客户和hdfs的作用
4、采用的是SSH框架(Struts2、spring、hibernate)、数据库为mysql,数据模型请参考:利用hdfs搭建网盘–数据模型设计
5、web调用hdfs API的思路是:利用java运行时 运行java jar包,可参考《利用HDFS java API增删改查操作》,例如:

云计算上课感悟

云计算上课感悟

1、阿里神话,阿里将数据一致性高的都放在银行侧了,这是他们去ioe化的基础,并且,马云可以选择哪家银行存放钱,这是阿里的底气。在双十一阿里显得霸气侧漏的时候,其实苦逼的是银行。 2、数据中心进了老鼠怎么办,谷歌不知道怎么办,但国内银行是放只猫,抓完老鼠就拿出来。 3、企业IT和互联网IT,如果在某一方面达到极致,那么最后都是相通的,我随不做你那方面的东西,但我一眼就能看出来,哪些地方是夸大,哪些是创新。 4、对数据一致性要求高的一定是用IOE的,这是架构设计的选型依据。 上课感想(观点不一定正确),后续补充…. 相关资料: (1)、IOE事件中的I是代表IBM的缩写,也即去IBM的存储设备和小型机,主要是小型机,阿里巴巴

400 Bad Request-Url特殊字符编码

400 Bad Request-Url特殊字符编码

今天碰到一个诡异的问题,线上系统没有问题可以访问,但在本机测试却不行。现象是在火狐访问空白页面,当时就蒙了啊,后来换ie则提示:400 Bad Request。
原来url中不允许出现特殊字符,比如:%