码迷,mamicode.com
首页 >  
搜索关键字:清洗    ( 781个结果
机器学习一
机器学习 编程环境 Anaconda3 导入库 定义 机器学习是人工智能的分支,设计一个系统,使其通过训练数据进行学习,并且不断优化性能,能够预测相关结果。 内涵 应用 1. 数据清洗、特征选择 2. 算法模型、特征选择 3. 结果预测 不能解决 1. 大数据储存/并行计算 2. 机器人 机器学习的 ...
分类:其他好文   时间:2020-04-02 18:24:07    阅读次数:70
Pandas的对齐运算和函数
Pandas的对齐运算 是数据清洗的重要过程,可以按索引对齐进行运算,如果没对齐的位置则补NaN,最后也可以填充NaN Series的对齐运算 1. Series 按行、索引对齐 s1 = pd.Series(range(10, 20), index=range(10)) s2 = pd.Serie ...
分类:其他好文   时间:2020-03-29 19:31:40    阅读次数:90
数据清洗
数据清洗一是为了解决数据质量问题,二是让数据更加适合做挖掘。数据清洗, 是整个数据分析过程中不可缺少的一个环节,其结果质量直接关系到模型效果和最终结论。在实际操作中,数据清洗通常会占据分析过程的50%—80%的时间。在这里,小编跟大家介绍一下数据清洗的步骤和方法。 一、检查数据的质量 数据的完整性, ...
分类:其他好文   时间:2020-03-27 21:45:55    阅读次数:105
pandas常用数据清洗方法
数据预处理常用函数 df.duplicated() :判断各行是重复,False为非重复值。 df.drop_duplicates():删除重复行 df.fillna(0):用实数0填充na df.dropna():按行删除缺失数据,使用参数axis=0;按列删除缺失值,使用参数axis=1,how ...
分类:其他好文   时间:2020-03-27 17:17:54    阅读次数:128
Python爬虫连载17-ItemPipeLine、中间件
一、ItemPipeLine 1.爬虫提取出的数据存入item之后,item中保存的数据需要进一步处理,比如:清洗,去重,存储等 2.pipeline需要process_item函数 (1)process_item?:spider提出来的item作为参数出入,同时传入的还有spider;此方法是必须 ...
分类:编程语言   时间:2020-03-26 01:16:56    阅读次数:85
讲一下数据分析有哪些步骤,在你做项目的过程中哪个步骤需要花费的时间最久?为什么?
数据分析的步骤 1.定义问题,明确需要解决的需求是什么。 2.问题拆分。对于最终需要解决或探索的问题,进行细分,拆分成不同层面的问题。 3.确定指标。根据不同的细分问题,确定需要探索的指标 4.数据收集。收集整理分析项目所需的数据。 5.数据清洗。删除重复数据,异常值,缺失值处理她,特征筛选,数据归 ...
分类:其他好文   时间:2020-03-20 16:58:08    阅读次数:99
Graylog2进阶之获取nginx来源IP的地理位置信息
如果你们觉得graylog只是负责日志收集的一个管理工具,那就too young too naive 。日志收集只是graylog的最最基础的用法,graylog有很多实用的数据清洗和处理的进阶用法。 从这期开始我将陆续向大家介绍一些关于graylog的进阶用法,这次讲一下如何通过Geoip库莱获取 ...
分类:其他好文   时间:2020-03-17 19:10:50    阅读次数:72
Linux-Bigdata
总结一下大数据开发基本常识: JDK(做java开发必备的开发工具包) Hadoop(Apache开发的分布式系统的基础框架)三大组件:MapReduce,Yarn,Hdfs Sqoop(数据迁移,清洗) Kettle(数据清洗,格式转换) Hive(基于Hadoop的数据仓库,并不是数据库,需要安 ...
分类:系统相关   时间:2020-03-15 22:17:01    阅读次数:90
2020/3/13-大数据应用极限测试每日总结
砍柴ing 今天主要进行数据清洗及处理 # -*- coding: gbk -*- import json import pymysql import jieba.analyse ##生成三个表:用来做地图可视化 ##表province:省:项目数 ##表city:市:项目数 ##表contie:县 ...
分类:其他好文   时间:2020-03-15 16:25:44    阅读次数:84
基于Canal和Kafka实现MySQL的Binlog近实时同步
前提 近段时间,业务系统架构基本完备,数据层面的建设比较薄弱,因为笔者目前工作重心在于搭建一个小型的数据平台。优先级比较高的一个任务就是需要近实时同步业务系统的数据(包括保存、更新或者软删除)到一个另一个数据源,持久化之前需要清洗数据并且构建一个相对合理的便于后续业务数据统计、标签系统构建等扩展功能 ...
分类:数据库   时间:2020-03-13 01:50:01    阅读次数:141
781条   上一页 1 ... 8 9 10 11 12 ... 79 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!