业务解决方案/-数据结构与算法速成

时间：2017-12-05 16:01:26 阅读：239 评论：0 收藏：0 [点我收藏+]

业务解决方案：

0. 数据源加载

1. 特征工程: 字符转数值/二值型/多值型把字符型特征转化成算法可以处理的数值表示，实现特征抽象.特征是二值型的，如sex 这个字段有male 和fem 两种，就把sex 抽象成0 和1。如果特征的数值是多值型，如status，就按照严重程度从0 到1 再到2 来抽象.

2.数据预处理:数值转double/归一化到0 和1 之间通过“类型转换组件”先把数据类型全部转化成 double 型（机器学习算法普遍对double 型数据的支持比较好），然后通过“归一化组件” 对数据进行去量纲处理，把全部数值都归一化到0 和1 之间

3.训练和评估：拆分组件”，在组件中数据按照7 : 3 的比例随机拆分 70%的数据用来训练模型，30%的数据用来预测。

4。模型评估：因为本次实验是一个二分类场景，已经通过“预测组件”拿到了预测值和真实值的结果，但是我们需要更直观地验证实验是否准确，所以选择了“二分类评估组件”对结果进行评估。

新闻文本分析

1。数据预处理及分词，增加序号，分词

2。关键词提取词频统计组件

3。文章分类。“三元组转KV 组件”是文本向量化的常用算法，原理是把文本数据转成K:V 格式展示，

突击-数据结构与算法速成

第一课：从基本数据结构说起，栈，队列，链表的常规应用

第二课：基本数据结构之————栈，队列，链表的奇淫技巧

第三课：进阶数据结构之————堆，二叉树的常规应用

第四课：进阶数据结构之————树的无奇不有的变形

第五课：进阶数据结构之————散列表、搜索树

第六课：必修算法之————排序

第七课：必修算法之————分治

第八课：必修算法之————贪心

第九课：必修算法之————搜索

第十课：图算法之————拓扑排序、最小生成树（Kruskal与Prim）

第十一课：图算法之————单源最短路径（Dijstra、Bellmanford、SPFA）及其变式使用

原文地址：http://www.cnblogs.com/csj007523/p/7987260.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行