数据清洗之数据表处理 1. 数据常用筛选方法 In [ ]: import pandas as pd import numpy as np In [ ]: import os # 更改文件路劲 os.chdir('F:\CSDN\课程内容\代码和数据') In [ ]: df = pd.read_c ...
分类:
其他好文 时间:
2020-02-05 00:04:49
阅读次数:
88
数据清洗之文件操作 这是一个关于淘宝母婴产品的用户消费行为的数据集,然后基于这个数据集,做数据清洗 csv文件读写 In [ ]: import pandas as pd import numpy as np import os In [ ]: # 更改文件路劲 os.chdir('F:\CSDN\ ...
分类:
数据库 时间:
2020-02-04 23:53:22
阅读次数:
123
Numpy常用数据结构 1. 数组创建 In [ ]: # 导入库 import numpy as np In [ ]: arr1 = np.array([-9,7,4,3]) In [ ]: arr1 In [ ]: arr2 = np.array([-9,7,4,3],dtype =float) ...
分类:
其他好文 时间:
2020-02-04 22:08:05
阅读次数:
110
今天没有继续整数据,这个数据还需要进一步的清洗,很麻烦,暂时不想清洗,今天看了一部分spark的内容,在网上查找了一些资料,明天将使用eclipse连接spark进行编程实验,或者进行数据的清洗。 今天也将数据导入到了数据库中。 ...
分类:
其他好文 时间:
2020-02-03 19:08:28
阅读次数:
48
2019 10 16 14:46:06 仅供学习使用 aijiaoai 人工智能主要应用 1. 图像识别 识别图片中的内容、对象。 KNN 卷积神经网络 2. 情感分析 分析文本中包含的 文本,是正面的、负面的、中性的。 文本的表示:词向量、TFIDF 文本预处理、清洗 分类算法,逻辑回归、决策树、 ...
分类:
其他好文 时间:
2020-02-02 21:39:26
阅读次数:
124
什么是爬虫 网络爬虫,也叫网络蜘蛛(spider),是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。 网络搜索引擎等站点通过爬虫软件更新自身的网站内容或其对其他网站的索引。网络爬虫可以将自己所访问的页面保存下来,以便搜索引擎事后生成索引供用户搜索。 爬虫访问网站的过程会消耗目标系统资 ...
分类:
编程语言 时间:
2020-02-02 15:45:03
阅读次数:
203
继上次爬取完总体数据之后,这次我做的是将每个信件的网址使用MapReduce进行清洗出来,进而爬取出进一步的数据。 通过观察所得该网站根据不同的信件类型有不同的网址其对应关系如下: 咨询 com.web.consult.consultDetail.flow 建议 com.web.suggest.su ...
分类:
其他好文 时间:
2020-02-01 21:31:51
阅读次数:
94
flume agent 内部原理 1、Source采集数据,将数据封装成Event对象,然后将数据交给 Channel Processor (利用该类的方法进行下一步的处理) 2、 Channel Processor 将Event事件传递给拦截器链(Intercepter,进行简单的数据清洗),然后 ...
分类:
Web程序 时间:
2020-01-26 14:29:01
阅读次数:
130
一、Tushare介绍 Tushare是一个免费、开源的python财经数据接口包。主要实现对股票等金融数据从数据采集、清洗加工到数据存储的过程,能够为金融分析人员提供快速、整洁、多样的便于分析的数据,使得数据获取方面极大地减轻工作量,更加专注于策略和模型的研究和实现。 Tushare从新浪财经、腾 ...
分类:
其他好文 时间:
2020-01-26 00:47:55
阅读次数:
854
一、前言 上一节已经对这次的实战北京做了介绍,这一节主要介绍数据清洗。 唯一的就是,今天大年三十,祝大家新年快乐,来年事业、家庭都能如意!!! 二、实战-数据清洗 导入库 #导入库import pandas as pd import numpy as np import matplotlib.pyp ...
分类:
其他好文 时间:
2020-01-24 10:51:58
阅读次数:
100