最近项目中需要对实际地震数据进行道头, 卷头的操作以及数据清洗, 因此需要SU进行处理. 下载安装VMare, 并配置Ubantu18.04 从官网上下载VMare Workstation 15.5: https://my.vmware.com/cn/web/vmware/info/slug/des ...
使用requests模块获取网页内容,bs4数据清洗 ,pands保存数据一般都为csv格式。 import requests from bs4 import BeautifulSoup import pandas as pd def Get_data(url): # 请求得到网页内容 res = ...
分类:
编程语言 时间:
2019-12-02 19:06:27
阅读次数:
120
每年双十一,对买家来说是一场买买买的剁手之旅,但对于电商公司的技术人员来说,却是一次严峻的技术期末考。如何保证系统在预估的流量洪峰来临时,既能保证用户的买买买不受影响, 促进业务及营销活动的目标达成,又能用尽可能少的成本投入保障系统的稳定可用性,是技术童鞋必须面对的挑战。我司在双十一来临的最后关口完 ...
分类:
其他好文 时间:
2019-12-02 01:10:02
阅读次数:
111
在数据的处理过程中,一般都需要进行数据清洗工作,如数据集是否存在重复,是否存在缺失,数据是否具有完整性和一致性,数据中是否存在异常值等.发现诸如此类的问题都需要针对性地处理,下面我们一起学习常用的数据清洗方法. 1.重复观测处理 重复观测:指观测行存在重复的现象,重复观测的存在会影响数据分析和挖掘结 ...
分类:
编程语言 时间:
2019-11-22 14:04:41
阅读次数:
68
在日常分析工作中,80%左右的时间用于清洗数据,所以掌握数据清洗相当重要 ...
分类:
编程语言 时间:
2019-11-21 09:17:17
阅读次数:
66
·按照地市统计最受欢迎的Top10课程 (ip) Dao层 package echart; import java.sql.Connection; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Sta ...
分类:
其他好文 时间:
2019-11-17 09:12:27
阅读次数:
95
最近在弄一个小项目,大概600w行的数据,要进行数据清洗,因数据量偏大,如果单线程去执行,会造成效率偏低,只能用多线程了,但采用多线程存在线程安全问题,于是查了下资料,发现有ConcurrentQueue<T>该数据结构,完美的解决了我目前问题。 采自msdn上面解释:表示线程安全的先进先出 (FI ...
分类:
编程语言 时间:
2019-11-17 01:09:04
阅读次数:
107
日期:2019.11.15 博客期:117 星期五 这两天因为有课,其他的课程需要做实验,所以课下都在做其他科目的实验。 不过还是有新的进度的。 我研究了IP到城市的格式转换 1 public class IPUtil { 2 3 public static String getCityInfo(S ...
分类:
其他好文 时间:
2019-11-15 22:07:01
阅读次数:
189
两阶段数据清洗: (1)第一阶段:把需要的信息从原始日志中提取出来 ip: 199.30.25.88 time: 10/Nov/2016:00:01:03 +0800 traffic: 62 文章: article/11325 视频: video/3235 (2)第二阶段:根据提取出来的信息做精细化 ...
分类:
其他好文 时间:
2019-11-15 09:35:46
阅读次数:
121
package test; import java.io.IOException; import java.text.ParseException; import java.text.SimpleDateFormat; import java.util.Date; import java.util. ...
分类:
其他好文 时间:
2019-11-14 09:32:06
阅读次数:
88