决策树类有关毕业论文格式范文 跟基于决策树模型的概念阐述与算法改进类论文范文检索

该文是关于决策树论文范文,为你的论文写作提供相关论文资料参考。

基于决策树模型的概念阐述与算法改进

【摘 要】 本文主要介绍了机器学习中决策树的发展历程以及与其相关算法的改进等.第二章主要阐述机器学习的相关发展历程及其主要内涵.第三章开始介绍决策树的发展历史,使用背景以及主要优缺点.第四章介绍了决策树主要的相关概念.第五章介绍了对于决策树模型中存在缺陷的改进方法.第六章介绍了决策树模型的发展前景.

【关键词】 机器学习 决策树 ID3 算法 CART 算法

一、引言

近年来,随着“深蓝击败国际象棋大师”“Alpha Go 战胜李世石”等消息越来越多见诸报端,人工智能也逐渐进入了人们的视野,得到了更多的研究,成为了现在的时代热点.相应地,有许多边缘学科由此衍生出来.在人工智能领域中,核心部分就是机器学习,它包含诸多模型与算法.本文介绍的决策树模型就是其中很重要的一种.

二、机器学习的概念

机器学习是人工智能中最重要的部分,是一门综合性多领域交叉学科,涵盖统计学,概率学,逼近论等多个学科.对于机器学习而言,它本质上就是把我们人类通过思考从而得出某些结论的过程变成了系统通过计算从而得出同样结论的过程.可以说,机器学习就是对人类在生活中学习成长的一个模拟.

在机器学习中,我们利用计算机设计一个系统,并给它提供大量的数据资料使其能够利用各种推理过程来对照学习.随着训练次数的增加,该系统在性能上可以不断重新组织已有的知识并对于自身性能做出改进,最后就可以通过多次优化过的学习模型来预测相关问题了.由此可见,“数据”在机器学习中是占有相当重要的地位的.一般来说,给定数据越多,系统通过机器学习建立的模型越容易作出合理的判断.

目前的机器学习主要分为:

监督学习,通俗来说,就是我们给定系统一些“有明确特征的样本”时,系统通过学习可以得到一个分类器,当其他含有相关明确特征的对象出现时,系统就可以对它予以正确的分类.监督学习主要包括回归算法、神经网络、SVM(支持向量机),决策树等等.

无监督学习,主要包括聚类算法,降维算法等.值得注意的是,机器学习中使用的基本方法是归纳而不是演绎.本质在于收集信息,分析信息,得出结论.

三、决策树模型的发展背景和历史

决策树模型属于机器学习中的监督学习模型,在机器学习中占有十分重要的地位.

决策树,顾名思义,是一种在给定各种情况发生概率时,通过树形结构,在其每个内部节点上进行测试,选取每一个局部最优解,直至输出结果,从而用于评估风险,判断可行性的决策分析方法.

决策树有许多优点:

首先就是树形图带来的简洁性——它可以运用概率直接分析,能够尽可能地体现数据的特点,并不需要使用者有多么深厚的信息学知识基础;

其次,正如在监督学习的概念中所提到的,决策树可以同时处理数据本身和常规性属性;

最重要的还是它的实际作用,从测试的数据来看,它对于数据的处理结果很好.

但是,决策树模型也存在一些不可避免的问题,如过拟合,有时精度不够等,将在下文详细阐述.

四、决策树模型中基本概念以及基本算法

4.1 训练集与测试集

前文已经提到,系统既然要进行学习,那就需要一定量的数据反复进行重新组织,从而不断修正优化学习模型.训练集的作用,一言以蔽之,就是拟合出多个分类器.

测试集是主要用来进行模型预测的数据集合.测试集的数据符合两个特征:首先要独立于训练集数据.其次,概率分布应与训练集分布大致相同.

训练集与测试集是决策树模型中最基础的概念.

4.2 过拟合现象与剪枝

过拟合现象是决策树类模型早期最难解决的问题之一.过拟合现象可以看做在训练时,系统为了达到与训练集一致的假设而“变得过于严格”.通俗来说,好比有人给出了一个有各种各样波斯猫的训练集让系统进行学习,经过多次迭代训练之后,模型训练好了,在训练集中的表现也很好.但是如果给出一个只有加菲猫的测试集呢?最后的结果就很有可能是“加菲猫并不是猫”.这就是模型的过拟合.造成过拟合的原因有二,样本数过少. 还有一个原因是样本中噪声过多.

剪枝是决策树特有的一种数据处理方法.顾名思义,剪枝是为了避免决策树无休止地疯长下去,从而导致树的过于复杂.

剪枝分为先剪枝和后剪枝.先剪枝通常指在训练集的操作,设定一个前阈值,从而控制分裂,可以使结果相对简洁.后剪枝是在测试集的操作,包括REP(错误率降低剪枝)以及PEP(悲观剪枝).

在决策树的使用中,先剪枝由于阈值设定难度较大,对结果影响也较大,通常使用不如后剪枝频繁.

4.3 信息熵,信息增益和ID3 算法

“信息熵”是一个从热力学中迁移过来的概念.热力学中的“熵”通常表示体系的混乱程度,而信息学中的“熵”则表示信息的不确定性.

“信息增益”可以看做信息熵变化的量度.

而ID3 算法正是基于信息熵和信息增益而出现的一种分类算法.

从上到下每步都优先选取信息增益高的结果,并由此继续向下进行分裂.这样一来,经过训练就可以得到一棵ID3决策树了.

4.4 Gini 系数和Cart 算法

相比于ID3 算法,在Cart 算法中,核心由信息熵变成了Gini 指数,而计算原则也从“将信息增益最大化”变成了“将样本的不纯度最小化”.

Gini 指数:用于衡量样本的不纯度.Gini 指数越大,样本的不确定性就越大.

Cart 算法本身与.5 算法很相似.首先需要计算给定特征的Gini 指数,当满足分裂条件时(对于Cart 算法而言是Gini 指数小于阈值)停止分裂.若没有达到此标准,则选择最小Gini 指数继续分裂.大量重复上述操作,就可以生产Cart 决策树了.

ID3 算法中属性值使用过一次便不再使用,准确性会略低于Cart 算法.

五、对于决策树模型存在缺陷的改进

5.1 防止过拟合的方法

5.1.1 数据的处理

在4.2 中我们已经提到,决策树模型最容易出现的问题是过拟合.究其根源,问题在于系统在训练时面对的对象仅仅是训练集这么一个有限集,在面对存在各种可能的测试集时难免会出现纰漏——正如你无法要求牙牙学语的幼儿拥有窥一斑而知全豹的能力.

面对这一问题,普遍的方法是扩大样本数据量.“见多识广”的模型,拥有更强的自我修正能力,面对相似事物时自然更容易做出判断.完成这一点有很多方法.

下面以3.2 中波斯猫的例子来解释这几种方法.

首先是增加从数据源头获取的数据量,但是这一招有时候并不是很实用,客观事实限制了我们对于数据的采集——波斯猫可不是那么好找的,想大量增加拍摄不同波斯猫的照片更是难上加难;

进行数据增强也是一种可取的方法,只需将波斯猫的照片进行处理——翻转、镜面等操作,都可以达到大量扩充数据库并且不影响分类结果的效果.

5.1.2 多种模型的结合

我们在研究如何提升一种模型的分类能力时,除了研究数据的采集,还要研究数据的使用,即内部模型的选择.下面以两种算法为例.

Bagging,即“袋子”,在集成学习中是一种常见的算法——原来准确率不高的弱分类器,通过构造预测函数以及,引入随机性来减小偏差,最终得以减小过拟合的程度;而Adaboost 算法与之比较,更侧重于对于弱分类器本身的强化,最终得到一个强分类器.

将这些专门用来减小拟合程度的算法与分类算法结合起来,从而在减小过拟合程度的同时还保证了精度的方法,我们称其为集成学习法.

5.2 兼顾准确率与拟合

5.2.1 两者的结合

我们现在讨论的是决策树的改进问题.决策树自身分为ID3 决策树,.5 决策树,Cart 决策树等等;防过拟合的方法在5.1 中也已经提及.

Cart 决策树和Bagging 算法的结合目前无人提及,但是也许是一种有用的结合手段.

Cart 本身准确率就略高于ID3 算法.同等条件下,一般来看由Cart 算法生成的Cart 决策树精度会略高于ID3 决策树.这样,在后续的减小过拟合处理上也会占有一定优势.

5.2.2 结合实例:随机森林

随机森林是一种提高准确率与防止过拟合两者结合比较成功的模型,目前发展也已经比较成熟.目前最普遍的随机森林算法是ID3 与Bagging 算法的结合——首先由ID3 算法生产多棵决策树,随后多棵决策树进行,这样就极大地避免了过拟合问题的产生.

随机森林还有一些特点:由于随机森林由多棵决策树组成,随机性较大,除了对于过拟合问题的抗性大,防噪声能力也非常强.自身也保证了准确率.在目前来看,是最实用的分类模型之一.

5.2.3 其他防止过拟合模型与信息增益的结合除了随机森林模型以外,还有许多模型做到了防过拟合与提高准确率的优良结合,如AdaBoost 算法与决策树结合可以产生提升树模型.

而Gradient Boosting 算法与决策树可以得到GBDT(梯度提升树)等等.

六、结语

决策树作为一种基础的分类模型,通过与其他算法结合,产生了许多更加优秀的模型,如上文提到的随机森林等.因为其便捷性在企业决策和投资中得到了广泛应用.长远来看,机器学习仍将是一个时代热点.而决策树作为机器学习中的核心之一,随着新的分类算法的产生以及其与集成算法的组合,精度等指标也必将不断上升,以后仍将是企业决策的重要手段.

参 考 文 献

[1] 王小巍,蒋玉明. 决策树ID3 算法的分析与改进[A]. 四川: 计算机工程与设计,2011.

[2] 苏志同,李晋宏,王俊山. 一种改进的决策树算法及其应用[A].《微计算机信息》 ,2009,25(30):177-178

[3] 李道国,苗夺谦,俞冰. 决策树剪枝算法的研究与改进[A].《计算机工程》 ,2005,31(8):19-21

[4] 冯少荣,肖文俊. 一种基于样本选取的决策树改进算法[A].《西南交通大学学报》,2009,44(5):643-647

决策树论文范文结:

关于决策树方面的论文题目、论文提纲、决策树论文开题报告、文献综述、参考文献的相关大学硕士和本科毕业论文。

1、领导决策信息杂志社

2、决策杂志社

3、驳论文树靶子