能够将热爱的技术应用于实际生活生产中,是做技术人员向往和乐之不疲的事。
现将前期手里面的一个项目做一个大致的总结,与大家一起分享、交流、进步。项目现在正在线上运行,项目名——基于Hadoop的数据分析综合管理平台。
项目流程整体比较清晰,爬取数据(txt文本)-->数据清洗-->文本模型训练-->文本分类-...
分类:
其他好文 时间:
2014-05-04 00:22:05
阅读次数:
476
第48期百度技术沙龙上的《大数据场景下主题检索应用》讲座介绍了很多训练大规模主题模型的技术细节。讲座回来后,我粗略整理了下讲座上涉及的主题模型和训练大规模模型相关的资料和文献。
1. 主题模型的发展历史
a. 布尔模型 Boolean model
b. 向量空间模型 VSM (Vector space model)
c. 潜在语义索引 LSI (Latent...
分类:
其他好文 时间:
2014-05-03 21:40:07
阅读次数:
371
上个月,参加了百度技术沙龙, 夏粉的《广告数据上的大规模机器学习》讲座介绍了大规模机器学习中的若干重要问题。遗憾的是,百度的相关算法没有公开的论文。
1. 数据处理
目标: 获取信息, 去除噪音
机器学习技术点: 选择对点击概率分布 预估足够多样本
解决方法: a. 不可见和不完整样本过滤; b. 样本采样; c. 异常样本检测
算法:a. 百度...
分类:
其他好文 时间:
2014-05-03 21:12:36
阅读次数:
378
我买的书或借的 没看的计算机方面: 深入浅出MFC vc++深入详解 算法入门 算法入门训练指南
大话数据结构 C++ 第6版本图像处理与机器视觉: 机器视觉 张广军 数字图像处理疑难解析 图像处理与计算机视觉算法应用 opencv2 图像配准技术模式识别:
机器学习实战 模式分类 神经网络设计 斯...
分类:
其他好文 时间:
2014-05-02 20:00:42
阅读次数:
323
UML语言使系统建模过程标准化,统一化,规范化。 UML在整个软件开发过程中采用相同的概念和表示方
法,在不同的开发阶段,不必转换概念和表示方法,避免了传统软件开发方法的两个鸿沟。 UML采用图形化的
表现形式。产生的模型易于理解,易于开发人员与用户之间的沟通,从而能够及时得到用户的反馈信息。 用
UML进行系统建模所得到的建模制品不仅仅包括各种模型框图,还有大量丰富的文档,这些文档给系统后期的维
护工作带来了便捷。...
分类:
其他好文 时间:
2014-05-02 10:13:40
阅读次数:
270
方法定义的完整格式。
访问权限{public |default|protected|private}[final][static][synchronized]返回值类型|void 方法名称(参数类型 参数名称,.....)[throws Exception1,Exception2]{return[返回值|返回用处]};
一个多线程的程序如果通过Runnable接口实现的,则意味着类中的属性将被...
分类:
编程语言 时间:
2014-05-02 10:11:29
阅读次数:
346
本节是李政軒Cheng-Hsuan Li的关于机器学习一些算法的中文视频教程。讲得很好不错。这里非常感谢他的分享:http://www.powercam.cc/chli。也贴到这里,和大家共同学习。...
分类:
其他好文 时间:
2014-05-02 05:25:33
阅读次数:
569
关于最大熵模型的介绍请看:http://www.cnblogs.com/hexinuaa/p/3353479.html
下面是GIS训练算法的python实现,代码不到100行。
from collections import defaultdict
import math
class MaxEnt(object):
def __ini...
分类:
其他好文 时间:
2014-04-30 22:46:39
阅读次数:
384