支持向量机SVM

时间：2017-10-20 16:49:33 阅读：211 评论：0 收藏：0 [点我收藏+]

标签：算法朴素贝叶斯运行时数字海量数据还需 lin port 参数

2.1 SVM介绍及基础理论

支持向量机SVM：support vector machine

支持向量机本质就是找出最佳分割线。

最佳分割线（间隔）的特点：使得间隔距离平均、最大化。

最佳分割线可以减小分类的误差，确保结果的准确性。

SVM首先保证分类正确，然后对间隔最大化。

SVM应该能够处理异常值。

2.2 SVM算法使用示例

>>> from sklearn import svm

>>> X = [[0, 0], [1, 1]]

>>> y = [0, 1]

>>> clf = svm.SVC()

>>> clf.fit(X, y)

>>> clf.predict([[2., 2.]])

过程：导入、创建、拟合、预测。

from sklearn.svm import SVC

clf = SVC(kernel="linear")

clf.fit(features_train,labels_train)

pred=clf.predict(features_test)

sco=clf.score(features_test,labels_test)

print sco

2.3 非线性SVM

当分割线为非线性决策面时，确定核函数显得尤为重要，SVC有各种各样的核函数。

核函数类型：核函数设置类型有四种(默认为rbf函数)，可以是‘linear’, ‘poly’, ‘rbf’, ‘sigmoid’, ‘precomputed’

0 –线性：u‘v

1 –多项式：(r*u‘v + coef0)^degree

2 – RBF函数：exp(-gamma|u-v|^2)

3 –sigmoid：tanh(r*u‘v + coef0)

2.4 SVM的参数

机器学习中的参数：参数是你在创建分类器时要传递的自变量，这发生在拟合之前，这些参数可以对算法所达到的决策边界产生巨大影响。

SVM主要参数有哪些：

核kernel：有linear、rbf等
C：控制光滑决策边界（误差项：惩罚参数）

　　　　C参数越大，分界越光滑，正确率越高。

　　3.r（gamma）：当核参数为‘rbf’,‘poly’ 和‘sigmoid’时，r参数可用

　　　　默认是’auto’，则会选择1/n_features

2.5 过拟合

过拟合：使决策边界变得过度复杂（本可以通过简单的决策边界进行分类）

机器学习过程中，一定要避免过度拟合。

综合控制“核kernel”、C、r这三个参数，可以控制过度拟合的参数。

2.6 SVM的优缺点

优点：SVM在复杂领域、有明显分隔边界的情况下，表现十分出色。

缺点：海量数据集时训练时间过多、噪音过多的情况下可能导致过度拟合。

可以考虑使用朴素贝叶斯更有效。

因此，需要我们队数据集和可用特征进行测试。

2.7 SVM练习一

练习介绍：

部分1：根据邮件文本使用的单词，辨别邮件的作者是谁

部分2：进一步研究SVM的参数，看看如何通过调节参数，缩短支持向量机的训练时间或预测时间，以及对准确度有什么影响？

转到 svm 目录，查找初始代码 (svm/svm_author_id.py)（此为附件）。

使用 sklearn SVC 分类器进行导入、创建、训练和预测。在创建分类器时使用线性内核（如果你忘记此步骤，你会发现分类器要花很长的时间来训练）。分类器的准确率是多少？运行时间如何？

from sklearn.svm import SVC

clf=SVC(kernel="linear")

clf.fit(features_train,labels_train)

pred=clf.predict(features_test)

sco=clf.score(features_test,labels_test)

print sco

1.使用线性核函数

training time: 239.453 s

predicting time: 25.417 s

准确度为0.984072810011

可以看出，SVM准确度高于naive_bayes，但处理时长明显也多。

2.不使用linear核函数

不使用linear核函数，默认使用rbf

运行时间长到你怀疑人生，嗯，果断放弃了。

2.8 SVM练习二

加快算法速度的一种方式是在一个较小的训练数据集上训练它。这样做换来的是准确率几乎肯定会下降。让我们更具体地探讨这个问题：在训练分类器之前，立即加入以下两行。

features_train = features_train[:len(features_train)/100] 
labels_train = labels_train[:len(labels_train)/100]

这两行有效地将训练数据集切割至原始大小的 1%，丢弃掉 99% 的训练数据。

training time: 0.137 s

predicting time: 1.475 s

0.884527872582

可以看出，我们用牺牲准确率的方式换取了算法运行速度。很多场景下，非常快速地运行的算法尤其重要：比如，标记信用卡欺诈，在欺诈发生之前阻止交易；Siri 之类的语音识别等。

依然在将训练数据集切割至原始大小的 1%，丢弃掉 99% 的训练数据。使用rbf内核函数，我们得到的准确率更低，但算法运行时间显著提高了（但仍比linear慢一点）。

training time: 0.154 s

predicting time: 1.667 s

0.616040955631

保持训练集大小不变，并且保留上一个测试题中的 rbf 内核，但是尝试多个 C 值（比如：10.0、100.、1000. 和 10000.）。

当 C=10:

training time: 0.158 s

predicting time: 1.69 s

0.616040955631

当 C=100:

training time: 0.153 s

predicting time: 1.666 s

0.616040955631

当 C=1000:

training time: 0.148 s

predicting time: 1.637 s

0.821387940842

当 C=10000:

training time: 0.149 s

predicting time: 1.354 s

0.892491467577

经试验可以看出，当核函数给定brf,数据集大小给定时，C参数设置越大，算法运行速度越快，准确度也越高。

恢复完整训练集后，此时的准确率有：

training time: 160.568 s

predicting time: 16.178 s

0.990898748578

此时，我们看到准确率很高，超过linear核函数、naive_bayes

2.9 SVM练习三

你的 SVM（0 或 1，分别对应 Sara 和 Chris）将测试集中的元素 10 预测为哪一类？元素 26 ？还是元素 50 ？

（使用 RBF 内核、C=10000 和 1% 的训练集。通常，使用完整的训练集能获得最好的结果，但是我们发现使用 1% 的完整训练集不仅大幅加快计算过程，而且不会改变我们的结果，因此你在这里可以随意使用该快捷算法。）

而且需要说明的是，我们这里给出的数据点数字 (10, 26, 50) 假设使用的是零索引列表。因此，使用类似于 answer=predictions[100] 的表达式可找到元素 # 100 的正确答案。

print clf.predict(features_test[10])

print clf.predict(features_test[26])

print clf.predict(features_test[50])

分别得到答案1，0,1

2.10 SVM练习四

预测有多少 Chris 的邮件？

测试事件的数量超过 1700——其中多少预测在“Chris” (1) 类中？（使用 RBF 内核、C=10000. 以及完整的训练集。）

print "no. of Chris predicting emails:", sum(clf.predict(features_test))

print "no. of Sara predicting emails:", len(clf.predict(features_test))-sum(clf.predict(features_test))

no. of Chris predicting emails: 877

no. of Sara predicting emails: 881

2.11 小节

朴素贝叶斯非常适合文本时，对于这一具体问题，朴素贝叶斯不仅更快，而且通常比 SVM 更出色。当然，SVM 更适合许多其他问题。你在第一次求解问题时就知道该尝试各个算法，这是机器学习艺术和科学性的一个体现。除了选择算法外，视你尝试的算法而定，你还需要考虑相应的参数调整以及过拟合的可能性（特别是在你没有大量训练数据的情况下）。调整参数的工作量很大，之后，将介绍 GridCV，一种几乎能自动查找最优参数调整的优秀 sklearn 工具。

支持向量机SVM

标签：算法朴素贝叶斯运行时数字海量数据还需 lin port 参数

原文地址：http://www.cnblogs.com/Fly-lulu/p/7700088.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行