存档

2012年11月 的存档

持续集成术语解释

2012年11月27日 tianhl 没有评论

Continuous Integration(持续集成):持续集成要求开发人员频繁地提交他们的所完成的工作产品,这个频率通常是至少每天一次,有时候可以多次。每次集成会通过自动化构建(automated build)的方式进行尽量快速地验证,以确保新提交的变化不会造成新的问题。如果在集成的过程中出现异常,则应当快速的反馈给相关的人员。 Build(构建):构建是将源代码放在一起,并验证软件可以作为一个一致的单元运行的过程;验证活动一般包括编译、测试、审查和部署。 Build Tool(构建工具):用于执行构建过程的工具称为构建工具,它通过执行构建脚本实现自动化的编译、测试、审查和部署。Make是所有构建工具之祖,它向我们展示了依赖关系检查和增量式构建

maven安装

2012年11月26日 tianhl 1 条评论

Windows 如何安装 maven 1、安装 java,配置好 java 的环境变量 2、下载 apache-maven-3.0–bin.zip windows 版本(官网上有下载) 3、安装 maven;安装目录假设为:D:binapache-maven-3.0,添加 maven 的环境变量,变 量名为:M2_HOME;值为: D:binapache-maven-3.0;配置 path 变量,加上%M2_HOME%bin; 最后 mvn -v 命令(CMD 状态下)检测 maven 有没有 配置好。 4、更新:直接解压新版本的 maven 覆盖老的目录,然后更改下原来的环境变量。 —————————————————————– Linux 如何安装

分类: 云计算 标签:

K-means

2012年11月12日 tianhl 没有评论

K-means算法是硬聚类算法,是典型的局域原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度,它是求对应某一初始聚类中心向量V最有分类,使得评价指标J最小。算法采用误差平方和准则函数作为聚类准则函数。

分类: 云计算 标签:

Apriori算法

2012年11月12日 tianhl 没有评论

  Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。   该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集,使用

分类: 云计算 标签:

数据挖掘工作平台 Weka

2012年11月8日 tianhl 没有评论

WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),同时weka也是新西兰的一种鸟名,而WEKA的主要开发者来自新西兰。 WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。 如果想自己实现数据挖掘算法的话,可以看一看weka的接口文档。在weka中集成自己的算法甚至借鉴它的方法自己实现可视化工具并不是件很困难的事情。 2005年8月,在第11届ACM SIGKDD国际会议上,怀卡托大学的Weka小组荣获了数据挖掘和知识探索领域的最高服务奖,Weka系统得到了广泛的认可,被誉为数据挖掘和机器学习 历史上

分类: 云计算 标签: ,

迈出单元测试的第一步

2012年11月8日 tianhl 没有评论

单元测试不仅是软件行业的最佳实践,在敏捷方法的推动下,它也成为了可持续软件生产的支柱。根据最新的年度敏捷调查,70%的参与者会对他们的代码进行单元测试。 单元测试和其他敏捷实践密切相关,所以开始编写测试是组织向敏捷转型的踏脚石。道路漫长,但值得去做。我将在本文介绍符合要求的小技巧,以及在开发周期里进行单元测试的步骤。 有效的单元测试默认要能自动化。没有自动化,生产力就会下降。没有自动化,单元测试的习惯也不会持续太久。依靠手工测试(由测试人员或开发人员完成)并不能持续太长时间;在有压力的情况下,没人会记得去运行所有的测试,或者去覆盖所有的场景。自动化是我们的朋友,所有的单元测试框架都支持自动化,而

数据挖掘:中国互联网未来的十年——专访党书国

2012年11月8日 tianhl 没有评论

门户解决了web0.5时代的信息匮乏;Google解决了web1.0时代的信息泛滥;Fackbook解决了web2.0时代的社交需求;未来是谁的十年?展望web3.0时代,当高效的社交网络趋于信息量爆炸,我们庞大的社交关系也需要一个”Google”来处理,那就是下一个十年,数据挖掘的十年,网络智能的十年。 数据挖掘:互联网阶段性产物 数据挖掘之所以在近几年颇受关注与互联网发展的阶段有关。随着网页的增多,用户量达到一定规模,就产生了大量用户和网页应用交互的行为,这些数据实际上非常有意义。互联网也因此形成了两条主线结构。一种是以信息为对象的,还有一种是以人为对象。但是人与信息之间不是割裂的,而是时时刻刻交织

分类: 云计算 标签:

网站分析WA(web analysis)与互联网数据分析挖掘的区别

2012年11月8日 tianhl 没有评论

背景:一直以来有不少朋友来信或留言,询问网站分析WA(web analysis)与互联网数据分析挖掘的区别。这个问题看上去的确比较纠缠不清,不是因为字面理解,而是因为在当前的互联网行业的具体实践。今天是周末,我百无聊赖之际试图针对该问题做个肤浅的一孔之见,一方面希望能抛砖引玉,接受大家的批评指正;另一方面也算是对这个周末光阴有个交代,我在这个世界混吃混喝,总是要奉献点什么的吧。 虽然从字面理解,网站分析WA应该被包容在互联网数据分析挖掘的大范畴里面,但是实际情况却是当前“网站分析WA”已经成了一个非常独立的明确定义的专业名称和专业领域,从而事实上已经与当前的“互联网数据分析挖掘”有了一个明确清晰的界限,所以关

分类: 云计算 标签:

VV(video view)-UV(unique visitor)

2012年11月7日 tianhl 没有评论

VV,为video view的简写,即中文意思为视频播放次数,为当前衡量视频网效果如何的参数之一。例如:风行、暴风影音、优酷、土豆、奇艺网等视频网站均涉及视频播放次数的问题。   UV是unique visitor的简写,是指独立用户/独立访客。指访问某个站点或点击某条新闻的不同IP地址的人数,在同一天的00:00-24:00内,UV只记录第一次进入网站的具有独立IP的访问者,在同一天内再次访问该网站则不计数。独立IP访问者提供了一定时间内不同观众数量的统计指标,而没有反应出网站的全面活动。   00:00-24:00内相同的客户端只被计算一次。   PV(访问量):即Page View, 即页面浏览量或点击量,用户每次刷新即被计算一次。   IP(独立IP):指独立I

分类: 云计算 标签:

OLTP-联机事务处理系统

2012年11月7日 tianhl 没有评论

  On-Line Transaction Processing联机事务处理系统(OLTP)   也称为面向交易的处理系统,其基本特征是顾客的原始数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。这样做的最大优点是可以即时地处理输入的数据,及时地回答。也称为实时系统(Real time System)。衡量联机事务处理系统的一个重要性能指标是系统性能,具体体现为实时响应时间(Response Time),即用户在终端上送入数据之后,到计算机对这个请求给出答复所需要的时间。OLTP是由数据库引擎负责完成的。   OLTP 数据库旨在使事务应用程序仅写入所需的数据,以便尽快处理单个事务。

分类: 云计算 标签: