数据清洗 不可信样本丢弃 缺省值极多的字段考虑不用 数据采样 下/上采样 保证样本均衡 特征处理 数值型 类别型 时间型 文本型 统计型 组合特征 特征选择 过滤型 sklearn.feature_selection.SelectKBest 包裹型 sklearn.feature_selection ...
分类:
其他好文 时间:
2017-02-17 00:01:57
阅读次数:
456
iDT算法是行为识别领域中非常经典的一种算法,在深度学习应用于该领域前也是效果最好的算法。由INRIA的IEAR实验室于2013年发表于ICCV。目前基于深度学习的行为识别算法效果已经超过了iDT算法,但与iDT的结果做ensemble总还是能获得一些提升。所以这几年好多论文的最优效果都是“Our ...
分类:
编程语言 时间:
2016-12-15 20:40:08
阅读次数:
1359
昨晚和一位读者朋友讨论了一个问题:在一台多核 CPU 的 Web 服务器上,存在负载不均衡问题,其中 CPU0 的负载明显高于其它 CPUx,进一步调查表明 PHP-FPM 的嫌疑很大。话说以前我曾经记录过软中断导致过类似的问题,但是本例中可以排除嫌疑。让我们在一台四核服务器上采样分析一下数据确认看 ...
分类:
系统相关 时间:
2016-11-16 14:39:13
阅读次数:
278
从信息论的角度来看,描述信息源的数据是信息和数据冗余之和,即:数据=信息+数据冗余。空间冗余是图像数据中经常存在的一种数据冗余,是静态图像中存在的最主要的一种数据冗余。是静态图像中存在的最主要的一种数据冗余。 定义 同一景物表面上采样点的颜色之间通常存在着空间关联性,相邻各点的取值往往近似或者相同, ...
分类:
其他好文 时间:
2016-11-08 17:18:45
阅读次数:
151
常采样指的是下采样,也就是对信号的抽取 。 连续-〉离散 上采样是下采样的逆过程,也称增取样(Upsampling)或内插(Interpolating)。 离散-〉连续或加密!(转载自http://blog.sina.com.cn/s/blog_54b5ea250101bbr9.html) ...
分类:
其他好文 时间:
2016-07-10 23:01:38
阅读次数:
139
L1正则化和L2正则化的区别:L1起截断作用,L2起缩放作用(不让参数θ过大) 数据和特征处理 数据清洗 正负样本不平衡的处理方法:上采样,下采样,修改损失函数 数值型特征:幅度调整,归一化,离散化 类别型特征:one-hot 编码 组合特征 文本特征中的TF-IDF:TF(t)=(t在当前文中出现 ...
分类:
其他好文 时间:
2016-06-29 20:40:42
阅读次数:
501
GMSK 调制的的原理非常简单。就是MSK调制前进行Gauss滤波。在实现中有这样的方法,首先产生高斯系数,对称的上升陂和下降陂系数。输入一个符号,进行上采样,经过高斯滤波器,滤波器的输出做有符号的累加。累加的输出与上限值和下限值比较,即大于PI的值减去2PI或者小于-PI的要加上2PI。把结果送到...
分类:
其他好文 时间:
2015-10-02 22:30:23
阅读次数:
280
百度给的样例程序,不论C还是Java版,都分为method1和method2两种
前者称为隐式(post的是json串,音频数据编码到json里),后者称为显式(post的就是音频数据)
一开始考虑到python wave包处理的都是“字符串”,担心跟C语言的数组不一致,所以选择低效但保险的method1,
即先将音频数据base64编码,再加上采样率、通道数等信息汇集成dict,最...
分类:
编程语言 时间:
2015-05-18 14:45:28
阅读次数:
900
这里有篇论文《基于子带谱平滑度的音频篡改检测》,可供参考。
这里的质量主要涉及到采样率,即低采样率伪装高采样率音频。
大部分假无损就是上采样为高质量的音频,然后用无损格式封装。
11025Hz 伪装重采样 22050Hz音频,重采样不会补充有用信息,即11025/2 ~ 22050/2仍然平坦。
22050Hz原始音频,一般情况下是自然逐步衰减(这取决与音频的内容,...
分类:
其他好文 时间:
2015-04-26 09:27:53
阅读次数:
165
这里有篇论文《基于子带谱平滑度的音频篡改检测》,可供参考。这里的质量主要涉及到采样率,即低采样率伪装高采样率音频。大部分假无损就是上采样为高质量的音频,然后用无损格式封装。11025Hz 伪装重采样 22050Hz音频,重采样不会补充有用信息,即11025/2 ~ 22050/2仍然平坦。22050...
分类:
其他好文 时间:
2015-04-25 21:04:52
阅读次数:
124