码迷,mamicode.com
首页 >  
搜索关键字:清洗    ( 781个结果
Flashtext:大规模数据清洗的利器
Flashtext:大规模数据清洗的利器 在这篇文章中,我们将介绍一种新的关键字搜索和替换的算法:Flashtext 算法。Flashtext 算法是一个高效的字符搜索和替换算法。该算法的时间复杂度不依赖于搜索或替换的字符的数量。比如,对于一个文档有 N 个字符,和一个有 M 个词的关键词库,那么时 ...
分类:其他好文   时间:2018-01-07 16:11:00    阅读次数:267
[数据清洗]-看上去一样的数字
数据不正确(格式不正确,数据不准确,数据缺失)我们做什么都是徒劳。数据清洗时数据分析的第一步,也是最耗时的一步。 数据不正确(格式不正确,数据不准确,数据缺失)我们做什么都是徒劳。数据清洗时数据分析的第一步,也是最耗时的一步。 数据清洗很枯燥,但是随着数据清理技巧越来越熟练,就有越有可能从他人无从下 ...
分类:其他好文   时间:2018-01-06 14:16:21    阅读次数:200
机器学习解决问题的框架
一、确定目标 业务需求 数据 特征工程 (占70%,主要包括数据的清洗,提取,转换) 二、训练模型 定义模型 定义损失函数 (偏差的大小) 优化算法 三、模型评估 交叉验证 效果评估 ...
分类:其他好文   时间:2018-01-06 11:54:20    阅读次数:110
数据科学之数据预处理
数据预处理 1数据质量 基本属性:正确性,完整性,一致性 2数据审计 运用一定的规律和评价方法,发现数据中存在的问题。如:缺失值,噪声值,不一致值,不完整值。 数据审计的三种类型:预定义审计,自定义审计,可视化审计 3数据清洗 3.1缺失数据清洗 三个活动:缺失识别,缺失分析,缺失处理 方法:较为简 ...
分类:其他好文   时间:2017-12-24 12:44:48    阅读次数:145
Python 爬虫 大量数据清洗 ---- sql语句优化
1. 问题描述 在做爬虫的时候,数据量很大,大约有五百百万条数据,假设有个字段是conmany_name(拍卖公司名称),我们现在需要从五百万条数据里面查找出来五十家拍卖公司, 并且要求字段 time(时间) 大于7月一号,小于10月31号。 2. 问题解决 我们首先想到的解决办法是添加索引,对拍卖... ...
分类:数据库   时间:2017-12-19 19:37:16    阅读次数:1046
机器学习之数据清洗与特征提取
本文详细的解释了机器学习中,经常会用到数据清洗与特征提取的方法PCA,从理论、数据、代码三个层次予以分析。 ...
分类:其他好文   时间:2017-12-14 17:53:32    阅读次数:91
数据分析-Excel基础篇(数据清洗)
清理数据的基本步骤如下所示:从外部数据源导入数据。原始数据备份。先执行不需要列操作的任务,例如拼写检查等接下来,执行需要列操作的任务。数据清理基础知识连接(导入)数据概述-Excelhttps://support.office.com/zh-cn/article/%E8%BF%9E%E6%8E%A5-%EF%BC%88%E5%AF%BC%E5%85%A5%EF%BC%89-%E6%95%B0%E6
分类:其他好文   时间:2017-12-10 01:21:56    阅读次数:228
正则表达式总结及一些有用的例子
背景 正则表达式的用处十分广泛:字符串处理、输入验证等,特别是在爬取网页中对网页内容的清洗更需要正则。 正则表达式 基本所有的语言都支持正则表达式,或者内置或者引入。正则的语法很多,但每种语言对正则支持的程度都不同(常用的语法规则基本都支持),这点需要格外注意。 元字符 正则表达式有12个特殊的标点 ...
分类:其他好文   时间:2017-12-09 19:39:36    阅读次数:153
OpenStreetMap数据清洗(SQL版本)
目标:通过网上下载的OpenStreetMap.xml数据格式,将该文件的格式进行统计,清洗,并导出成CSV格式的文件,最后倒入到SQLite中 本案例中所需的包 1.统计文件中每一个标签出现的次数 思路:将xml文件使用sax解析,将每一个节点的的标签值设为字典的key,次数为value,初始化为 ...
分类:数据库   时间:2017-12-04 16:44:37    阅读次数:628
python简单的数据清洗,数据筛选方法归类
创建数组有两种方式,1.直接赋值 2.随机变量生成随机生成包括4种:np.arange(20),np.linspace(0,10,5),np.logspace(0,2,5),np.random.random(3,2,3)np.arange(10,20,2) ##左闭右开区间,起始值,终止值,步长np ...
分类:编程语言   时间:2017-12-02 23:26:56    阅读次数:302
781条   上一页 1 ... 43 44 45 46 47 ... 79 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!