有关动态代价支持向量机增量学习算法毕业论文写作资料-论文写作网

简介:关于对写作支持向量机论文范文与课题研究的大学硕士、相关本科毕业论文支持向量机论文开题报告范文和相关文献综述及职称论文参考文献资料下载有帮助。

支持向量机论文范文

1. 数据不均衡对增量学习的影响
1 1 增量学习
1 2 数据不均衡对分类超平面的影响
2. 惩罚因子
2 1 核空间中类样本密度
3. 不均衡数据集下的SVM增量学习算法
3 1 算法思想
3 2 算法步骤
4. 实验与数据分析
4 1 实验数据选取
4 2 实验结果与分析
5. 结论

1. 数据不均衡对增量学习的影响

1 1 增量学习

　　增量学习是依据当前分类器对新增样本进行学习的算法,每种分类算法都有对应的增量学习算法,支持向量机的增量学习算法主要包括算法层面的和数据层面的,数据层面的增量学习主要是利用一种策略选择对当前分类器有影响的样本加入下次训练,例如,KKT条件,选择违背KKT条件的样本,即选择能修正当前分类超平面的样本,在不均衡数据集下分类超平面的偏移导致依据KKT条件选择的样本不够准确,影响最终分类器性能,因此本文通过动态代价避免分类超平面的偏移,提高所选样本的质量,进而提高最终分类器的性能.

1 2 数据不均衡对分类超平面的影响

　　数据集中类样本数量不成比例的数据被称为不均衡数据（Imbalanced Data,ID）,在实际应用中,不均衡问题普遍存在,如入侵检测、医疗诊断、故障检测、雷达检测等,而数据不均衡会导致分类超平面的偏移,使得最终的分类效果不理想,数据不均衡对分类超平面的影响,如图1所示,图1中分布是样本数量为100：100和200：20两种情况下分类超平面的情况,可以明显看到分类超平面向样本比较系数的方向偏移.增量学习是依据KKT条件选择样本加入训练集,分类超平面的偏移导致所选样本不够准确,从而使得增量学习的结果受到影响.

2. 惩罚因子

2 1 核空间中类样本密度

　　数据不均衡的本质是类样本密度不均衡,因此依据类样本密度之间的关系计算每个类的惩罚因子,能够更准确的反映类样本的错分代价.由于支持向量机计算过程是在特征空间下进行,故本文的类样本密度计算也在特征空间下,在特征空间下类样本密度的计算如下.

　　样本x与样本y之间的距离表示d(x,y)等于||x-y||,若核函数为K(x,y)等于〈?准(x),?准(y)〉,则在特征空间中两样本间的距离表示为：

　　d(x,y)等于■(1)

　　若采用RBF核函数,即K(x,y)等于exp(-g||x-y||2),则在该核空间下,两样本间的距离表示为：

　　d(x,y)等于■等于

■等于

■(2)

　　根据核空间下两样本之间距离的计算方法,样本到类中心的距离表示为：

　　Ｄ(xj,Ci)等于■等于

■

　　其中n■是类样本数,Ci是类中心,表示为,

Ci＝■■?准(xm)等于■■等于■■

　　类样本密度多采用样本数量与类空间大小的比值表示,类空间大小采用能包含所有样本的最小超球半径表示,但若存在噪声数据,导致半径值偏大,从而不能准确描述类空间大小,本文采用样本到类中心距离的平均值表示类空间大小,类空间大小表示为：

　　Si等于■等于

■

(3)

　　类密度是样本数目与类空间大小的比值,可以表示为：

　　ρi等于■等于

■

(4)

　　若采用RBF核函数,则类密度可表示为：

　　ρi等于

■2.2 动态错分代价

　　错分代价表示对样本错分的惩罚,可以改变样本对最终分类超平面的影响,传统支持向量机对两类用相同的错分代价,支持向量机是保证错分代价最小化,同时最大化分类间隔,因此,在不均衡数据集下,分类超平面向类密度小的方向偏移,来保证错分代价最小化.为了减少分类超平面的偏移,对每类采用不同的错分代价,比如对少数类采用较大的错分代价,而对多数类采用较小的错分代价.然而错分代价多是依据经验进行设定,无法准确的描述真实的错分代价,为此,本文依据类样本密度动态计算类样本的错分代价.设C+和C-是正类和负类样本的错分代价,ρ+和ρ-是类样本密度,类样本的错分代价与类样本密度成反比,表示为：

　　■等于■(5)

　　由式(5)可得正类和负类样本的错分代价为：

　　C+等于C*C-■(6)

　　C-等于C*C+■(7)

3. 不均衡数据集下的SVM增量学习算法

3 1 算法思想

　　增量学习是用增量样本中的空间信息逐步完善前分类器,使得分类器逐渐有较高的分类性能,为了提高算法速度,每次迭代时通过一定策略选择对当前分类器有影响的样本加入下一次训练,例如利用KKT条件,然而在不均衡数据集下,分类超平面的偏移导致使得通过KKT条件选择的样本不够准确,并且错误会被传递、累积,进而影响最终分类器的性能.本文动态代价敏感增量SVM算法利用类样本密度,动态计算类的错分代价,避免由于数据不均衡造成的分类超平面的偏移,保证每次选择的样本的准确度,逐步把增量样本中的空间信息吸纳到最终分类器中,提高最终分类器的性能.

3 2 算法步骤

　　每次迭代产生的错误会被传递,为提高增量学习算法的泛化性能,根据类样本密度之间关系动态计算两类的错分代价,提高所选样本的准确度,DCISVM算法的详细过程如下：

　　输入：初始样本集T,增量样本集U,错分代价C

　　输出：最终分类器

　　步1. 利用式(6)和式(7)在初始样本集T上计算正类错分代价C■■和负类错分代价C■■；

　　步2. 利用C■■、C■■、T进行训练获得初始分类器M0；

　　步3. 利用分类器M0对U进行分类,若无违背KKT条件的样本,则算法终止；否则,对违背KKT条件的样本按照yif(xi)进行排序,选择前K个样本构成temp；

　　步4. 令T＝T＋temp,重新用式(6)和式(7)在T上计算正类错分代价C■■和负类错分代价C■■；

　　步5. 在训练集T上结合C+和C-,重新训练得到新的分类器,返回步3；

　　算法中每次选择违背KKT条件的K个样本,而不是选择所有违背KKT条件的样本,目的在于选择信度较高的样本加入下一次迭代,保证每次迭代中分类器的性能.每次迭代中错分代价C可以采用不同的数值,本文实验中所有C值相同.

4. 实验与数据分析

　　该部分实验是在Matlab 7.11.0环境下,结合台湾林智仁的LIBSVM[16]上完成,主机为Intel Core i7 2.3GHz,4G内存,操作系统为Win7的PC机.

4 1 实验数据选取

　　本实验在有代表性的5个UCI数据集上进行,数据集的详细信息如表1所示,这五组实验数据在不同程度上都有类间不均衡性,表1中的“比例”表示类样本数量之间的比值,本实验中假设多数类为正类,少数类为负类.数据集letter是多类数据集,本文算法是针对二类分类问题,因此本实验把其转换为二类数据,即把数据集letter中的A类作为少数类,其它B-Z类看作多数类.实验数据从数据集中分别取出五分之一的多数类样本和少数类样本作为训练样本,剩余作为增量样本.

4 2 实验结果与分析

　　在实际应用中,两类样本的错分代价是不同的,大多数情况关注的是少数类的分类准确率,常用的分类精度对算法的评价方法,不能很好的评价不均衡数据下的分类算法性能,对于不均衡数据,公认的评价指标有F-measure、G-mean、AUC及ROC曲线,都是通过用查全率Recall和查准率Precision来表示.本文采用文献[13]中的性能评价指标,F-measure综合考虑少数类样本的准确率和查准率,能够更准确的反映对少数类样本的分类性能；而G-mean综合考虑多数类和少数类样本的分类准确率,能够衡量分类器的整体分类性能.本文通过对比AUC、F-measure和G-mean来介绍本文算法的有效性,其中算法SVM1是只对训练样本进行学习的结果,SVM2是把训练样本和增量样本一起作为训练集进行学习,算法KKTISVM是依据KKT条件对增量样本进行迭代学习,算法PISVM、TISVM是来自参考文献[9]的算法,DCISVM为本文算法的结果,实验结果如表2、表3、表4.

　　F-measure综合考虑少数类样本的准确率和查准率,类样本数值比越大,F-measure值越小,可以看到采用SVM1时Balance和Letter的实验结果,可见对少数类的分类效果较差；因此能够更准确的反映对少数类样本的分类性能；而G-mean综合考虑多数类和少数类样本的分类准确率,可以看到各分类算法对Letter的G-mean值都较大,因为Letter数据集中有大量的多数类样本.对于数据集Phoneme,可以看到有较好的实验结果,分析数据发现,该数据集的类样本密度比为1.75：1,同时该训练集中两类样本数量都较多,包含比较多的空间信息.由表2、表3、表4可以看到,本文算法对于不均衡数据的增量学习有较好的效果,但本文算法每次迭代都要计算类样本密度,训练时间会有增加.

5. 结论

　　针对增量学习过程中数据不均衡的影响,利用类样本密度之间的关系动态计算类样本的错分代价,减少分类超平面的偏移,确保每次迭代中选择样本的准确性,避免错误的传递和累积,从而提高最终分类器的性能,该算法是针对二类分类问题,如何实现在不均衡数据下的多类增量学习将是下一阶段的主要工作.

参考文献：

[1] 权鑫,顾韵华,郑关胜,等.一种增量式的代价敏感支持向量机[J].中国科学技术大学学报,2016,46(9):727-735.

[2] 王洪波,赵光宙,齐冬莲,等.一类支持向量机的快速增量学习方法[J].浙江大学学报(工学版),2012,46(7):1327-1332.

[3] 郝运河,张浩峰.基于双支持向量回归机的增量学习算法[J].计算机科学,2016,43(2):230-234,249.

[4] 徐久成,刘洋洋,杜丽娜,等.基于三支决策的支持向量机增量学习方法[J].计算机科学,2016,42(6):82-87.

[5] 刘伟,谢兴生,肖超峰.一种基于支持向量阈值控制的优化增量SVM算法[J].计算机工程与应用,2015,51(3):124-128.

[6] 曹健,孙世宇,段修生,等.基于KKT条件的SVM增量学习算法[J].火力与指挥控制,2014,39(7):139-143.

[7] 马占飞,樊捷杰,张文兴.广义KKT约束的增量支持向量机建模研究[J].机械设计与建造,2015(11):167-170.

[8] 李娟,王宇平.基于样本密度和分类错误率的增量学习矢量量化算法研究[J].自动化学报,2015,41(6):1187-1200.

[9] 潘世超,王文剑,郭虎升.基于概率密度分布的增量支持向量机算法[J].南京大学学报(自然科学版),2013,49(5):603-610.

[10] 杨海涛,肖军,王佩瑶,等.基于参数间隔孪生支持向量机的增量学习算法[J].信息与控制,2016,45(4):432-436,443.

[11] 郭虎升,王文剑,潘世超.基于组合半监督的增量支持向量机学习算法[J].模式识别与人工智能,2016,29(6):504-510.

[12] 杜红乐,滕少华,张燕.协同标注的直推式支持向量机算法[J].小型微型计算机系统,2016,37(11):2443-2447.

[13] 杜红乐,张燕.密度不均衡数据分类算法[J].西华大学学报(自然科学版),2015,34(5):16-23,74.

[14] DU H L, TENG S H, ZHANG L. Support Vector Machine Based on Dynamic Density Equalization[C]. HCC, LNCS 2016,9567:58-69.

[15] XIE Z, GAO L, YANG J. Improved multi-class classification incremental learning algorithm based on sphere structured SVM [J]. Journal of Harbin Engineering University,2009,30(9):1041-1046.

[16] CHANG C C, LIN C J. LIBSVM: a library for support vector machines, 2014. Software 论文范文ailable at http://www.csie.ntu.tw/~cjlin/libsvm.

总结：这篇支持向量机论文范文为免费优秀学术论文范文,可用于相关写作参考。

支持向量机 matlab引用文献: