Highlight all occurrences of selected word高亮代码Indent Guides代码的开头结尾连接竖线..是代码更清洗PHP Tools for visual studio (安装1.15)支付PHP语法.代码自动补全等等Productivity Power T...
分类:
其他好文 时间:
2015-08-19 11:06:21
阅读次数:
129
一、概要公司近期Storm清洗程序那边反应HDFS会出现偶发性的异常导致数据写不进HDFS,另外一些Spark作业在大规模往HDFS灌数据时客户端会出现各种“alldatanodebad..”以及服务端出现各种timeout,值得注意的是出现这样的问题是各个datanode节点的负载并不高!二、故障分析首先,..
分类:
编程语言 时间:
2015-08-13 20:20:37
阅读次数:
191
主要处理 嵌套 div,正则无法很好的处理清洗 比如文本: 想要移除 class =quizPutTag 的div ,内部可能嵌套的还有未知层级的div【前提是html文本段是闭合标签的】这是testtestH2C2O4?2H2O△.CO↑+CO2↑+3H2O↑保留的实现codeload(''.$....
分类:
Web程序 时间:
2015-08-13 19:44:51
阅读次数:
330
机器学习漫谈
数据挖掘/机器学习项目一般包括四个关键部分,分别是,数据分析,特征工程,建立模型,验证。
1 数据分析
从广义上讲,数据分析包括数据收集,数据处理,数据清洗,探究性数据分析,建模和算法设计,数据可视化等等[1]。从狭义上讲,数据分析指的是探究性数据分析(EDA)。
所谓探索性数据分析(ExploratoryD...
分类:
其他好文 时间:
2015-08-12 21:53:11
阅读次数:
263
建筑物看似结实,其实也有它们固有的弱点,如果只是单纯的装修,而不对建筑物进行保养,那么它们的使用寿命就会得到下降。今天就来说说墙砖清洗的一些要注意的地方,一起来看看吧。 外墙砖清洁注意之一:外墙砖的日常清洁可以不湿水 我们可以先用扫把或是除尘纸拖把清扫磁砖表面的细微砂石和灰尘,对于粘附在砖...
分类:
其他好文 时间:
2015-08-11 15:29:56
阅读次数:
111
在数据清洗,评估 ,抽验等等过程中,经常有这样的应用场景 : 需要在一个大的数据集合中随机出来样本,进行人工评估。为了保证足够随机,借助脚本来实现。下面一个脚本 ,用于应对这种应用场景。使用方法: python random_select_line.py -h建议:自定义 alias random....
分类:
编程语言 时间:
2015-08-08 14:47:58
阅读次数:
137
关于人肉工程,包括业务知识、领域知识,经验等,在实际的机器学习问题中的应用,是一个屡见不鲜的话题,典型的有苦逼的数据清洗、人肉特征工程等。大家都想把尽可能多的过程由机器自动完成,但是目前的状态是,大部分机器学习问题中,最困难也最重要的部分,还是依靠人的经验来生成特征。那么人的经验为什么重要,能否用机...
分类:
其他好文 时间:
2015-07-29 10:13:07
阅读次数:
122
一个、一个房间不扫何以扫天下1. “5整洁”:衣着整洁、干净的床、卧室整洁、办公桌(房)整洁、PC文件夹整齐;2. ”每日洗漱“。早晚刷牙,每天洗澡。内衣袜子每天更换,当天清洗;3. “出门前检查”:衣着得体、发型整齐、随身物品干净整齐和有序;二、言必行。行必果1. 当日事,当日毕;2. 学会日程....
分类:
其他好文 时间:
2015-07-25 22:43:05
阅读次数:
225
本文参考:http://scikit-learn.org/stable/data_transforms.html
本篇主要讲数据预处理,包括四部分:
数据清洗、数据降维(PCA类)、数据增维(Kernel类)、提取自定义特征。哇哈哈,还是关注预处理比较靠谱。。。。
重要的不翻译:scikit-learn provides
a library of transformers, whi...
分类:
其他好文 时间:
2015-07-17 10:09:01
阅读次数:
145
shell-mysql? (1)脚本背景:? 由于要在Linux上,远程读取mysql的表的数据,然后做一定清洗后,把数据上传至Hadoop集群中,使用Java写吧,感觉太麻烦了,得在Win上开发好,还得打成jar包, 上传到Linux上,如果...
分类:
数据库 时间:
2015-07-15 15:22:59
阅读次数:
158