1.基础概念:
(1) 10折交叉验证:英文名是10-fold cross-validation,用来测试算法的准确性。是常用的测试方法。将数据集分成10份。轮流将其中的9份作为训练数据,1分作为测试数据,进行试验。每次试验都会得出相应的正确率(或差错率)。10次的结果的正确率(或差错率)的平均值作为对算法精度的估计,一般还需要进行多次10折交叉验证,在求其平均值,对算法的准确性进行估计。
...
分类:
其他好文 时间:
2014-08-01 13:47:32
阅读次数:
250
Python 爬行Twitter用户的Friendship图...
分类:
编程语言 时间:
2014-08-01 09:19:31
阅读次数:
297
安装过程:POST-->Bootloader(kernel+ramdisk)-->anacondaBootLoader界面:GUI界面text界面boot:anaconda接口:text接口GUI接口安装过程分为两个阶段:安装前的配置阶段:(既可交互式进行,亦可直接读取配置文件自动完成)键盘类型安装过程中的语言支持使用语言时区选择..
分类:
其他好文 时间:
2014-08-01 00:16:12
阅读次数:
358
数据预处理(Data Preprocess):通过采用数据清理、数据集成与变换以及数据规约等方法对数据预先进行处理,处理后的数据用于数据挖掘。在当前社会中,由于大数据、数据源不唯一等原因使得在真实数据库存放的数据存在噪声、缺失和不一致的问题。基于数据的信息挖掘在数据不能保证的情况下,挖掘得到的信息也...
分类:
其他好文 时间:
2014-07-31 19:33:40
阅读次数:
258
转自:http://blog.chinaunix.net/uid-446337-id-94440.html分类:机器学习的有概率分类器(probabilistic) ,贝叶斯推理网络(bayesian inference networks) , 决策树分类器(decision tree) ,决策规则...
分类:
其他好文 时间:
2014-07-31 19:33:17
阅读次数:
411
商业智能(BI,Business Intelligence)。SAP BI商业智能的概念最早在1996年提出。当时将商业智能定义为一类由数据仓库(或数据集市)、查询报表、数据分析、数据挖掘、数据备份和恢复等部分组成的、以帮助企业决策为目的技术及其应用。目前,商业智能通常被理解为将企业中现有的数据转化...
分类:
其他好文 时间:
2014-07-31 13:09:16
阅读次数:
297
Centos的安装管理程序是anaconda,系统安装完成之后会在root的家目录下自动生成anaconda_ks.cfg。这个文件主要安装的系统所需要的配置,主要是由命令段,软件包段和脚本段构成。我们可以通过编辑修改安装完成后的系统根下的anaconda_ks.cfg.kickstart文件。另外我们也可以通过..
分类:
其他好文 时间:
2014-07-31 09:59:46
阅读次数:
342
一、系统的安装原理:Linux系统安装过程:POST---->Bootloader(ramdisk)----->anaconda系统安装程序其实,安装操作系统就是把编译好的二进制格式的操作系统导入到目标磁盘中,就要访问硬件。这就涉及到安装程序anaconda能不能驱动目标磁盘。如果,不能驱动目标磁盘的话,..
分类:
系统相关 时间:
2014-07-31 09:59:19
阅读次数:
609
Python 提取Twitter用户的Tweet...
分类:
编程语言 时间:
2014-07-31 07:28:36
阅读次数:
346
Centos的安装管理程序是anaconda,系统安装完成之后会在root的家目录下自动生成一个kickstart配置文件:anaconda_ks.cfg。这个文件主要是由命令段,软件包段和脚本段构成。命令段:包含安装系统是的各种操作命令软件包段:包含指定安装或者不安装的软件包和包组%packages表示此..
分类:
其他好文 时间:
2014-07-31 03:08:26
阅读次数:
278