论文降重

集成重复训练极限学习机的数据分类

时间:2018-05-05 17:55:47 编辑:知网查重入口 www.cnkiid.cn

 

摘  要:极限学习机是一种学习速度快,泛化能力强的训练单隐含层前馈神经网络的算法,它用随机化方法初始化输入层连接权和隐含层偏置,用分析的方法确定输出层连接权。给定网络结构,用极限学习机重复训练网络,会得到不同的学习模型。本文提出了一种集成这些模型,并用集成模型对数据进行分类的方法。具体地,首先用极限学习机算法重复训练若干个单隐含层前馈神经网络,然后用多数投票法集成训练好的神经网络,最后用集成模型对数据进行分类。我们在10个数据集上,实验比较了本文提出的方法和传统的极限学习机方法。实验结果表明,本文提出的方法在分类性能上优于传统的极限学习机算法。
关键词极限学习机,随机化方法,重复训练泛化能力,集成
中图法分类号:TP181    文献标识码:A
Ensemble of Retrained Extreme Learning Machine for Data Classification
ZHAI Jun-hai1, ZANG Li-guang2, ZHOU Zhao-yi1
1(Key Lab. of Machine Learning and Computational Intelligence, College of Mathematics and Information Science, Hebei University, Baoding 071002, China)
2(College of Computer Science and Technology, Hebei University, Baoding 071002, China)
 
Abstract: Extreme learning machine (ELM) is an algorithm for training single-hidden layer feed-forward neural networks (SLFNN) with fast learning speed and good generalization. ELM employs randomization method firstly to generate the input weights and hidden nodes biases, and then determines the output weights analytically. Given the architecture of SLFNN, we can obtain different learning models by training SLFNN with ELM. This paper proposes an approach by integrating these learning models for data classification. Specifically, firstly several SLFNNs are trained by ELM, secondly the trained SLFNNs are integrated by majority voting method, finally the integrated model is used for data classification. We experimentally compared the proposed approach with traditional ELM on 10 data sets, the experimental results confirm that the proposed approach outperforms the traditional ELM on performance of classification.
Key words: Extreme learning machine, randomization methods, retrain, generalization, ensemble


1引言
极限学习机(Extreme Learning Machine: ELM)是Huang等人[1]于2004年提出的一种训练单隐含层前馈神经网络(Single-hidden Layer Feed-forward Neural Networks (SLFNN)的算法,它用随机化方法初始化输入层连接权和隐含层偏置,用分析的方法确定输出层连接权。因为ELM不需要迭代调整权参数,所以学习速度非常快。另外,Huang等人[2]从理论上证明了ELM具有很强的泛化能力。ELM已经成为近几年机器学习领域的研究热点,已成功应用于模式识别[3,4]、预测预报[5,6]、分类与回归等领域[7,8]
作为一种数据挖掘算法,极限学习机既可以解决分类问题,也可以解决回归问题,本文考虑分类问题。在分类的框架下,研究人员提出了许多基于传统极限学习机的分类算法。传统的极限学习机是一种批处理学习模型,处理的数据是静态数据。针对在线序列数据(online sequential data)的分类问题,Liang等人[9]于2006年提出了在线序列极限学习机(OS-ELM: Online Sequential-ELM)。因为OS-ELM能处理源源不断出现的数据,所以从某种意义上来说,OS-ELM是一种解决大数据分类问题的方法。但是OS-ELM在处理数据集时,必须等到所有训练样例训练完之后才能停止,导致训练时间很长,而且OS-ELM和传统的ELM一样,学习模型有不稳定的弱点[10]
针对类别非平衡数据(classes imbalanced data)的分类问题,Zong等人[11]于2013年提出了加权ELM学习模型,用于处理类别不平衡学习问题,他们通过不同的惩罚系数对样例加权,并把惩罚系数嵌入到优化模型中。Li等人[12]将加权ELM和AdaBoost结合起来,将惩罚系数作为AdaBoost权值,提出了Boosting加权ELM学习模型,用于处理类别不平衡学习问题。实际上,对样例加权是用代价敏感性的方法处理类别不平衡问题。Lin等人[13]提出了基于ELM和合成小类上采样相结合的方法,用于处理两类不平衡学习问题。
针对含有噪声或有缺失值数据(noisy or missing data)的分类问题,Man等人[14]通过分析输出权矩阵关于隐含层输出矩阵的敏感性,提出了一种称为有限脉冲响应的极限学习机模型(FIR-ELM: Finite Impulse Response-ELM)。该模型可以改进传统极限学习机对含有噪声数据分类的性能,还可以提高模型的鲁棒性。在这一工作的基础上, 基于离散傅里叶变换技术,Man等人[15]提出了另外一种对噪声数据更鲁棒的学习模型。Yu等人[16]研究了具有缺失数据的ELM回归问题,提出了Tikhonov正则化优化剪枝ELM(Tikhonov Regularized Optimally Pruned ELM: TROP-ELM)学习模型。因为分类是回归的特殊情况,所以该模型也适用于具有具有缺失数据的分类问题。
针对大数据分类问题,基于MapReduce编程框架,He等人分别提出了并行增量ESVM算法[17]和并行ELM算法[18],这是用ELM解决大数据分类问题的较早的工作。Wang等人[19]提出了基于MapReduce的并行序列ELM算法,用于解决序列大数据分类问题。Xin等人[20]将矩阵运算分解到不同的云计算节点上以实现并行化,提出了ELM*算法,应用解决大数据ELM广义逆矩阵的计算问题。沿着这一技术路线,邓等人[21]提出了面向大样本数据的核化ELM学习模型。
对于上面的数据分类问题,研究人员还提出了许多基于集成学习的分类算法。例如,Liu等人[22]提出了基于集成的ELM学习模型,目的是为了提高学习模型的泛化能力。文献[22]中所用的集成方法是静态集成方法,在分类测试样例时,各个基本分类器被看作具有同等的重要性。Wang等人[23]提出了一种动态集成ELM学习模型,其动态性体现在所用的集成策略上,即AdaBoost集成学习策略。基于样本的信息熵,Zhai等人[24]提出了另一种动态集成ELM学习模型,该模型在泛化能力和稳定性上均匀好的表现。
本文提出了一种简单有效的集成数据分类方法,该方法分为三步:(1)用极限学习机算法重复训练若干个单隐含层前馈神经网络;(2)用多数投票法集成训练好的神经网络;(3)用集成模型对数据进行分类。我们在10个数据集上,实验比较了本文提出的方法和传统的极限学习机方法。实验结果表明,本文提出的方法在分类性能上优于传统的极限学习机算法。

 

想知道重复率是多少?点击“知网论文查重入口”直连中国知网查重检测系统