核心内容摘要
《火影忍者》:当鸣人敲响小樱的门,青春的悸动与羁绊在动漫世界里绽放
核心比喻森林与委员会想象一下你现在有一个难题比如判断一个水果是苹果还是橙子你自己拿不准主意。
你会怎么办一个聪明的方法是去问一群人然后采纳大多数人的意见。
随机森林就是这个思想的“机器版”。
它的工作分三步组建专家委员会它不是找一群人而是培养一大堆“决策树”你可以理解成一个个简单的判断小机器。
这就是“森林”。
让每个专家独立判断把问题比如一个水果的数据红色、圆形、直径8cm…抛给森林里的每一棵树。
每棵树都会独立给出自己的答案“苹果”或“橙子”。
投票决定最终结果所有树进行投票得票最多的那个答案就是随机森林的最终判断。
关键问题为什么要“随机”每棵树怎么长得不一样如果每棵树都用完全相同的方式思考那它们就会给出完全相同的答案投票就没有意义了。
这就像你问了一群复制人他们的答案都一样。
为了让每棵树有独特的“个性”随机森林在“培养”每棵树时做了两件非常重要的事
随机抽数据行随机假设我们有1000个水果的样品数据。
在培养树A时从这1000个里随机抽取比如800个来训练它。
抽到的数据可能重复没被抽到的数据约200个称为“袋外数据”可以用来检验这棵树的表现。
这个过程叫“自助抽样法”。
这样每棵树看到的数据集都略有不同。
随机抽特征列随机判断一个水果时有很多特征颜色、重量、光滑度、有无把儿等等。
在训练树A的每一个分叉点时不是考虑所有特征而是只从所有特征里随机抽取一部分比如只考虑颜色和重量然后从这部分里找最好的分叉方式。
这样每棵树关注的重点也不同有的更关注颜色有的更关注重量。
正是因为这两个“随机”保证了森林里的每棵树都各有专长、视角不同整个森林才会更全面、更稳健不容易犯大的错误。
通俗
总结随机森林是什么它是一片“森林”由成百上千棵“决策树”组成。
它的核心是“民主”通过集体投票来做决定。
它的秘诀是“随机”通过随机抽取数据和特征让每棵树具有多样性避免“人云亦云”。
它的结果是“可靠”集体的智慧通常比单个专家单棵树更稳定、更准确。
优点为什么大家喜欢用它非常强大且准确通常能取得很好的预测效果。
不容易过度拟合单棵树容易钻牛角尖过度拟合训练数据但森林通过投票把这种倾向平均掉了。
能处理大量数据并且能评估每个特征的重要性。
使用简单对于初学者你几乎不需要做复杂的参数调整它就能开箱即用效果不错。
它能做什么分类问题预测类别。
比如判断邮件是垃圾邮件还是正常邮件诊断病人是否患有某种疾病。
回归问题预测数值。
比如预测明天的气温预测房子的价格。
一个生活化的例子任务预测明天是否会下雨。
随机森林的做法培养1000个“天气预测小专家”树。
每个小专家通过查看过去不同的天气数据温度、湿度、风速、季节…来学习。
要预测时把明天的天气数据温度28度湿度80%东风2级…给这1000个小专家。
小专家A看了看湿度和季节说“会下雨”。
小专家B看了看风速和气压说“不会下雨”。
……最后统计票数比如有720个小专家说“会下雨”280个说“不会下雨”。
最终结论明天会下雨。
这就是随机森林一个用“三个臭皮匠顶个诸葛亮”思想构建的强大机器学习工具。
希望这个解释能帮助你理解框图要点解读顶层目标随机森林的目标是做出更稳健、更准确的预测。
两大基石构造森林通过集成大量树来模拟“委员会”。
双重随机这是随机森林的灵魂确保了树的“多样性”是它性能强大的根本原因。
工作流程训练阶段左半部分利用“双重随机”规则训练出一片各不相同的决策树。
预测阶段右半部分新数据进入后每棵树独立判断最后通过投票分类或平均回归的方式得出集体共识作为最终结果。
简单记忆随机造树投票决定。
这张图清晰地展示了这个“造”和“决”的全过程。