链接:https://pan.baidu.com/s/1inc53wfbJ_6dOKWp2LbGDA 提取码:gwy0 这本书和上学的时候学的数据挖掘导论有点像,很经典的一本书,伴我一点点熟悉了这个领域 ...
分类:
其他好文 时间:
2020-05-09 00:45:04
阅读次数:
67
Pandas详解 Pandas是一个强大的分析结构化数据的工具集;它的使用基础是Numpy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能。 1、安装包 pip install pandas 2、数据结构 Pandas有三大数据结构,Series、DataFrame以及Pan ...
分类:
其他好文 时间:
2020-05-09 00:32:44
阅读次数:
78
链接:https://pan.baidu.com/s/1_ytY_EEBzb3uqmtcl1Ku1Q 提取码:97em 这本书是我研一学习数据挖掘课程的教材,很经典,书也比较厚,讲的比较透彻 链接:https://pan.baidu.com/s/1_ytY_EEBzb3uqmtcl1Ku1Q 提取码 ...
分类:
其他好文 时间:
2020-05-09 00:27:53
阅读次数:
84
redash可以作为可视化工具、数据库查询编辑器(类似navicat-premium)、数据挖掘探索工具来用。截止目前,自建redash支持43种数据源,在权限控制,精细配图方面比superset弱,但是环境易维护,可以生成中间表,可以join。 权限管理 https://ithelp.ithome ...
分类:
其他好文 时间:
2020-05-06 14:16:51
阅读次数:
233
数据采集利用各种手段获取数据,数据样式不限制,但一般而言是形如excel或者csv这样的表格格式。数据采集:urllib,requests数据解析:Xpath,BS4,正则表达式数据持久化存储:pd.to_csv,pd.to_excel,MySQL,Redis数据预处理一般而言,数据分析和数据挖掘领域的处理的数据都是海量的数据,这样的数据难免会出现问题。数据预处理占到数据挖掘工作的60%,这是最重
分类:
编程语言 时间:
2020-05-03 00:58:59
阅读次数:
67
序言 众所周知,大多数情况下,业务需要记录的并不是简单的系统时间%date,级别%level,信息%message等字段,而是需要自定义的业务字段。以便后续的数据挖掘和钻取。 逐步研究发现Log4Net记录日志的info,error,debug等方法可以传入object参数:log.info(obj ...
分类:
Web程序 时间:
2020-05-02 22:54:28
阅读次数:
87
TF IDF基础: TF IDF(Term Frequency InversDocument Frequency)是一种常用于信息处理和数据挖掘的加权技术。该技术采用一种统计方法,根据字词的在文本中出现的次数和在整个语料中出现的文档频率来计算一个字词在整个语料中的重要程度。它的优点是能过滤掉一些常见 ...
分类:
其他好文 时间:
2020-04-30 12:01:23
阅读次数:
88
前言 努力从今天开始,成功从“零”开始。 一、logging模块是什么? 是Python内置的标准模块,主要用于输出运行日志 二、日志是什么? 日志是代码的必要组成部分 记录日志能显示程序当前运行状态 出问题后定位当时问题 对日志记录的数据挖掘进行统计和分析(比如 地区登录APP人数较多等) 三、p ...
分类:
编程语言 时间:
2020-04-29 10:43:42
阅读次数:
73
深度神经网络(DNN,Deep Neural Networks)简介 首先让我们先回想起在之前博客( "数据挖掘入门系列教程(七点五)之神经网络介绍" )中介绍的神经网络:为了解决M P模型中无法处理XOR等简单的非线性可分的问题时,我们提出了多层感知机,在输入层和输出层中间添加一层隐含层,这样该网 ...
分类:
其他好文 时间:
2020-04-28 00:28:05
阅读次数:
52
1.用自己的话描述一下,什么是逻辑回归,与线性回归对比,有什么不同? 逻辑回归:是一种广义的线性回归分析模型。常用于数据挖掘,疾病自动诊断,经济预测等领域。 线性回归:利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量百关系的一种统计分析方法。常运用于数学、金融、趋势线、经济学等领域。 ...
分类:
其他好文 时间:
2020-04-26 11:23:25
阅读次数:
67