码迷,mamicode.com
首页 >  
搜索关键字:清洗    ( 781个结果
Python网络爬虫实战:天猫胸罩销售数据分析
本文实现一个非常有趣的项目,这个项目是关于胸罩销售数据分析的。是网络爬虫和数据分析的综合应用项目。本项目会从天猫抓取胸罩销售数据,并将这些数据保存到SQLite数据库中,然后对数据进行清洗,最后通过SQL语句、Pandas和Matplotlib对数据进行数据可视化分析。我们从分析结果中可以得出很多有的结果,例如,中国女性胸部标准尺寸是多少;胸罩上胸围的销售比例;哪个颜色的胸罩最受女性欢迎。
分类:编程语言   时间:2018-09-10 14:04:07    阅读次数:250
Python网络爬虫实战:根据天猫胸罩销售数据分析中国女性胸部大小分布
本文实现一个非常有趣的项目,这个项目是关于胸罩销售数据分析的。是网络爬虫和数据分析的综合应用项目。本项目会从天猫抓取胸罩销售数据,并将这些数据保存到SQLite数据库中,然后对数据进行清洗,最后通过SQL语句、Pandas和Matplotlib对数据进行数据可视化分析。我们从分析结果中可以得出很多有... ...
分类:编程语言   时间:2018-09-10 13:25:02    阅读次数:170
脚本化加载文件与转储
## 脚本化加载文件与转储### 1、加载数据到原生表#### 1.1 介绍由于每天都会产生大量的日志数据,需要对每天的日志进行加载与清洗以及转储,编写脚本文件后,通过azkaban进行调度即可。#### 1.2 编写load_data_to_hive_raw_logs.sql加载数据到hive原生... ...
分类:其他好文   时间:2018-08-31 14:10:01    阅读次数:170
基于Impala平台打造交互查询系统
本文来自网易云社区 原创: 蒋鸿翔 DataFunTalk 本文根据网易大数据蒋鸿翔老师DataFun Talk——“大数据从底层处理到数据驱动业务”中分享的《基于Impala平台打造交互查询系统》编辑整理而成,在未改变原意的基础上稍做整理。 以上是今天的内容大纲,第一个讲一下交互式查询的特点,在大 ...
分类:其他好文   时间:2018-08-30 13:20:09    阅读次数:181
Mysql千万级数据性能调优配置
背景: 笔者的源数据一张表大概7000多万条,数据大小36G,索引6G,加起来表空间有40G+,类似的表有4张,总计2亿多条 数据库mysql,引擎为innodb,版本5.7,服务器内存256G,物理内存几个T,硬件参数杠杠的,然而处理这些数据踩了不少坑,因 为之前没做过这方面的工作,现在记录下清洗 ...
分类:数据库   时间:2018-08-25 14:13:18    阅读次数:213
日志打入kafka改造历程-我们到底能走多远系列49
方案 日志收集的方案有很多,包括各种日志过滤清洗,分析,统计,而且看起来都很高大上。本文只描述一个打入kafka的功能。 流程:app kafka logstash es kibana 业务应用直接将日志打入kafka,然后由logstash消费,数据进入es。 另一方面,应用在服务器上会打日志文件 ...
分类:其他好文   时间:2018-08-21 16:03:22    阅读次数:421
将QQ聊天记录创建为词云
1. 导出并清洗qq聊天记录 将qq聊天记录从电脑版qq导出 去掉聊天中的图片表情以及时间戳 具体代码如下: 2. 准备其他素材 准备要生成图云的照片 准备生成词云的字体(没有的话,会造成中文字体不显示的问题) 3. 准备使用到的python库 numpy : 处理图片文件 jieba : 聊天记录 ...
分类:其他好文   时间:2018-08-19 22:02:46    阅读次数:280
Python基本的数据清洗
接触Python两年多了,还从来没有独立用Python完成一个项目,说来惭愧。最近因为工作需要,用Excel和oracle整理数据貌似不可行了,于是转向Python,理所当然的踩了很多坑,一一记录下来,避免以后再次入坑,毕竟不常用,好了伤疤就会忘了疼··· 业务场景: 领导拿来几个Excel,共15 ...
分类:编程语言   时间:2018-08-19 18:04:14    阅读次数:183
清洗微博评论数据
0. 问题描述 抓取到的评论数据非常滴脏,其中有一些无用信息,所以目标就是只提取其中的中文文字内容 评论中会存在很多表情,如下所示 实际上展现出的内容则是: 不是很快就撤了吗? 这一种类型的表情是微博特有的表情,还有一种是Emoji 表情,前者会在评论内容嵌入html代码,后者则是会已编码的方式呈现 ...
分类:其他好文   时间:2018-08-16 13:36:48    阅读次数:175
pandas常用函数
关键词和导入 在这个速查卡中,我们会用到一下缩写: 您还需要执行以下导入才能开始: import pandas as pd import numpy as np 导入数据 输出数据 创建测试对象 用于测试的代码 查看/检查数据 选择 数据清洗 筛选,排序和分组 加入/合并 统计 以下这些都可以应用于 ...
分类:其他好文   时间:2018-08-15 13:29:39    阅读次数:214
781条   上一页 1 ... 35 36 37 38 39 ... 79 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!