存档

文章标签 ‘数据挖掘’

数据的游戏:冰与火

2013年8月6日 tianhl 没有评论

我对数据挖掘和机器学习是新手,从去年7月份在Amazon才开始接触,而且还是因为工作需要被动接触的,以前都没有接触过,做的是需求预测机器学习相关的。后来,到了淘宝后,自己凭兴趣主动地做了几个月的和用户地址相关数据挖掘上的工作,有一些浅薄的心得。下面这篇文章主要是我做为一个新人仅从事数据方面技术不到10个月的一些心得,也许对你有用,也许很傻,不管怎么样,欢迎指教和讨论。 另外,注明一下,这篇文章的标题模仿了一个美剧《权力的游戏:冰与火之歌》。在数据的世界里,我们看到了很多很牛,很强大也很有趣的案例。但是,数据就像一个王座一样,像征着一种权力和征服,但登上去的路途一样令人胆颤。 数据挖掘中的三种角色 在Ama

分类: 云计算 标签: ,

数据挖掘工作平台 Weka

2012年11月8日 tianhl 没有评论

WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),同时weka也是新西兰的一种鸟名,而WEKA的主要开发者来自新西兰。 WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。 如果想自己实现数据挖掘算法的话,可以看一看weka的接口文档。在weka中集成自己的算法甚至借鉴它的方法自己实现可视化工具并不是件很困难的事情。 2005年8月,在第11届ACM SIGKDD国际会议上,怀卡托大学的Weka小组荣获了数据挖掘和知识探索领域的最高服务奖,Weka系统得到了广泛的认可,被誉为数据挖掘和机器学习 历史上

分类: 云计算 标签: ,

数据挖掘:中国互联网未来的十年——专访党书国

2012年11月8日 tianhl 没有评论

门户解决了web0.5时代的信息匮乏;Google解决了web1.0时代的信息泛滥;Fackbook解决了web2.0时代的社交需求;未来是谁的十年?展望web3.0时代,当高效的社交网络趋于信息量爆炸,我们庞大的社交关系也需要一个”Google”来处理,那就是下一个十年,数据挖掘的十年,网络智能的十年。 数据挖掘:互联网阶段性产物 数据挖掘之所以在近几年颇受关注与互联网发展的阶段有关。随着网页的增多,用户量达到一定规模,就产生了大量用户和网页应用交互的行为,这些数据实际上非常有意义。互联网也因此形成了两条主线结构。一种是以信息为对象的,还有一种是以人为对象。但是人与信息之间不是割裂的,而是时时刻刻交织

分类: 云计算 标签:

网站分析WA(web analysis)与互联网数据分析挖掘的区别

2012年11月8日 tianhl 没有评论

背景:一直以来有不少朋友来信或留言,询问网站分析WA(web analysis)与互联网数据分析挖掘的区别。这个问题看上去的确比较纠缠不清,不是因为字面理解,而是因为在当前的互联网行业的具体实践。今天是周末,我百无聊赖之际试图针对该问题做个肤浅的一孔之见,一方面希望能抛砖引玉,接受大家的批评指正;另一方面也算是对这个周末光阴有个交代,我在这个世界混吃混喝,总是要奉献点什么的吧。 虽然从字面理解,网站分析WA应该被包容在互联网数据分析挖掘的大范畴里面,但是实际情况却是当前“网站分析WA”已经成了一个非常独立的明确定义的专业名称和专业领域,从而事实上已经与当前的“互联网数据分析挖掘”有了一个明确清晰的界限,所以关

分类: 云计算 标签: