这一章讲的是利用聚集算法对blog进行分类。 首先是构造数据,找到一组blog,每个blog包含一组单词。这样就形成了(blog-name, word*)*的数据结构。 在构造该数据结构的过程中,还需要删除那些出现得太广泛的单词,删除的办法是计算每个词出现的总次数以及blog的总数,两者的比例超出某...
分类:
其他好文 时间:
2014-09-20 15:17:27
阅读次数:
202
chapter5 随机优化技术:1.randomoptimize中,返回值应为bestr2.geneticoptimize中,mute函数应该将所有路径都返回一个编译结果,否则会在后续的dorm测试中 报出异常,应该修改为:3.crosscount中,应该添加float类型的强制类型转换,否则得出的...
分类:
其他好文 时间:
2014-09-18 18:23:14
阅读次数:
168
有一个网站,允许用户对她看过的电影打分。一个可能的结果是: 用户1:{电影1=5;电影2=3;电影3=4} 用户2: 用户3: 省略其他用户。 现在网站向一个用户Jack推荐电影,最直接的方式是,找出与Jack品味最接近的人,也就需要把所有用户按照他们与jack的相似度排序。 怎么计算相似度呢? 第...
分类:
其他好文 时间:
2014-09-13 13:13:45
阅读次数:
159
入门:数据挖掘入门的书籍,中文的大体有这些:JiaweiHan的《数据挖掘概念与技术》IanH.Witten/EibeFrank的《数据挖掘实用机器学习技术》TomMitchell的《机器学习》TOBYSEGARAN的《集体智慧编程》AnandRajaraman的《大数据》Pang-NingTan的...
分类:
其他好文 时间:
2014-09-09 22:55:09
阅读次数:
405
最近在工作之余的时间在阅读集体智慧编程这本书,在随书码字的过程中遇到的一些问题,就在这里记录一下:(注:下面的页码针对于英文的非影印版)chapter1 标题:没什么说的,浏览下就好。chapter2 提供推荐:1.书上的源码是基于python 2.x,而在3.x中print是被当作一个函数处理,所...
分类:
其他好文 时间:
2014-08-24 12:52:22
阅读次数:
572
算法&数学:算法导论详细数学离散数学及其应用(选)线性代数及其应用数论及其应用(选)python:python 基础教程python cookbookpython 网络编程基础python in a nutshell集体智慧编程机器学习实战js:dom编程艺术js cookbooklinuxlinu...
分类:
其他好文 时间:
2014-07-14 08:21:40
阅读次数:
303
在阅读《集体智慧编程》时,看到了csv文件,咋看起来跟Excel文件样子很像,具体百度吧。
这里记录下怎么用Excel来编辑csv文件。
csv文件直接用记事本打开,可以看见每个字段都是用逗号隔开的,就是说每输入一个字段就要用逗号隔开,这对于懒惰如我的人而言觉的麻烦至极,而且记事本下编辑内容总觉的是上个世纪的事。那就用个稍微高级点的offic 的Excel吧。
Excel打开:
用Exce...
分类:
其他好文 时间:
2014-06-27 09:52:51
阅读次数:
199
一:勘误
classifier类中: def fprob(self, f, cat):
if self.catcount(cat) == 0:
return 0
#notice: rember change int to double or float
# + 0.0 or *1.0 is ok, other wise, may get 0.
return self.fc...
分类:
其他好文 时间:
2014-06-24 17:49:42
阅读次数:
211
原来这么长时间没写了,今天阅读《集体智慧编程》的时候,发现了python的一个功能,列表推导式。留个存[ 表达式 for 变量 in 列表] 或者[表达式
for 变量 in 列表 if 条件]例如:ll=[1,2,3,4,5,6,7,8,9,0]print (v*10 for v in ll if...
分类:
编程语言 时间:
2014-06-11 11:23:16
阅读次数:
330
准备开题报告了,先要熟悉一下领域范围,《集体智慧编程》参考一下论点。简单的思路是看一下哪个话题最热门,用google学术来衡量一下论文数,虽然不够精确但是足以反应一点什么。
当然是选择最近比较热门的,同时参考一下国内的论文数目情况。
关键字
总的
2014
国内总数
2014
推荐
2,480,000
...
分类:
其他好文 时间:
2014-06-05 01:59:36
阅读次数:
241