作者归档:seatre

Bagging, Boosting, and C4.5

论文简介

英文题目:Bagging, Boosting, and C4.5

中文题目:自助聚集、提升和C4.5

作者:J. R. Quinlan

书籍:Handbook of statistics

发表日期:2005

在机器学习领域,提升模型的预测精度一直是研究人员的核心目标之一。由J. R. Quinlan撰写的《Bagging, Boosting, and C4.5》深入探讨了两种在分类器学习系统中备受关注的技术:自助聚集(Bagging)和提升(Boosting)。这篇论文不仅比较了这两种方法在不同数据集上的表现,还提出了对其效果的详细分析。通过应用C4.5决策树模型,作者揭示了这两种方法在提升预测精度方面的潜力及其局限性,特别是当Boosting在某些数据集上可能引发精度的下降时。对于那些渴望了解机器学习前沿技术并希望提高模型性能的研究人员而言,这篇论文无疑是一份重要的参考。

继续阅读

AdaBoost 算法研究进展与展望

论文简介

英文题目:Advance and Prospects of AdaBoost Algorithm

中文题目:AdaBoost 算法研究进展与展望

作者:曹莹, 苗启广, 刘家辰, 高琳

发表期刊或会议:《自动化学报》

发表日期:2013年6月

AdaBoost算法作为最成功的Boosting算法之一,因其能够将弱分类器提升为强分类器而在机器学习领域中取得了广泛应用。然而,随着算法的广泛应用和深入研究,AdaBoost在训练误差、泛化能力、理论分析模型等方面仍存在许多值得探讨的问题。本文旨在系统地总结AdaBoost算法的发展历程、理论基础及其变种算法,并探讨该领域未来的研究方向,为相关研究人员提供有用的研究线索。

继续阅读

Bagging Is A Small-Data-Set Phenomenon

论文简介

英文题目:Bagging Is A Small-Data-Set Phenomenon

中文题目:Bagging 是一种小数据集现象

作者:Nitesh Chawla, Thomas E. Moore, Jr., Kevin W. Bowyer, Lawrence O. Hall, Clayton Springer, Philip Kegelmeyer

发表期刊或会议:Computer Vision and Pattern Recognition, 2001. CVPR 2001. Proceedings of the 2001 IEEE Computer Society Conference

发表日期:2001年

在机器学习领域,Bagging一直被认为是提升模型性能的利器,尤其是在处理小数据集时效果显著。然而,当面对数百万甚至数千万条数据时,Bagging是否仍然能够保持其神奇的效果?在这篇论文中,研究人员Nitesh Chawla和他的团队对这一经典方法提出了质疑,并揭示了在大数据集上,简单的数据划分可能比复杂的Bagging方法更为有效。他们的研究挑战了传统观念,带来了关于大数据处理的新视角。如果你关心如何在数据爆炸的时代中实现高效的模型训练,这篇文章将为你揭示一个意想不到的答案。

继续阅读

Bagging Predictors |Bagging

论文简介

英文题目:Bagging Predictors

中文题目:自助聚集预测模型

作者:Leo Breiman

发表期刊 或 会议:Machine Learning

发表日期:1996年

论文链接:

https://www.jianguoyun.com/p/Dd5_s68Qmdv9CBiBqtIFIAA

以下是对论文《Bagging Predictors》的总结:

在当今数据驱动的世界中,准确预测和分类变得尤为关键。经典的机器学习技术,如分类和回归树,尽管在某些领域表现出色,但在面对不稳定的数据集时常常表现不佳。然而,一种名为Bagging(自助聚集)的技术为这一难题提供了突破性的解决方案。通过对同一数据集进行多次自助抽样并结合多个预测模型,Bagging能够显著提升模型的准确性,尤其是在处理不稳定的预测方法时。这种方法的简单性和强大的效果使其成为许多领域的首选,而本论文正是揭示了Bagging技术的潜力与应用,带领读者探索其在不同数据集上的出色表现。无论是理论基础还是实验证据,都表明Bagging能够将一个良好的但不稳定的模型推向更接近最优的表现。这不仅是机器学习领域的一个里程碑,更是每一个追求卓越预测能力的研究者不可忽视的重要工具。

继续阅读

AdaBoost | A decision-theoretic generalization of on-line learning and an application to boosting

英文题目:A decision-theoretic generalization of on-line learning and an application to boosting

中文题目:在线学习的决策理论推广及其在Boosting中的应用

作者:Yoav Freund, Robert E. Schapire

发表期刊 或 会议:Journal of Computer and System Sciences

发表日期:September 20, 1995

AdaBoost可将弱学习算法的预测精度提升到任意高的水平!这项研究不仅为在线资源分配问题提供了一个更通用的框架,还为机器学习领域带来了新的思路。AdaBoost无需事先了解弱学习算法的性能,就能自适应地调整参数,最大程度地利用弱学习算法生成的假设,从而获得惊人的预测精度。

继续阅读

决策树算法的编程实现——递归的用法

决策树是一种常用的机器学习算法,广泛应用于分类和回归任务中。递归在决策树的实现中起着至关重要的作用,通过递归调用,可以有效地构建和使用决策树。本文将详细介绍决策树实现算法中的递归,重点讲解基线条件与递归调用的实现。

继续阅读

Maximizing diversity by transformed ensemble learning | 论文笔记

Applied Soft Computing Journal, 2019

提升集成学习:在多样性和准确性之间找到平衡

集成学习,就像一个团队合作,将多个“学习者”的预测结果结合起来,以期获得比单个学习者更准确的结果。然而,集成学习中一直存在一个挑战:如何平衡学习者之间的多样性和个体准确性?通常,多样性越高,个体准确性就越低,反之亦然。为了解决这一问题,西安电子科技大学的研究人员提出了一种新的加权集成学习方法,通过将多个学习器的组合转化为线性变换,并通过最大化多样性和个体准确性来获得最佳权重,从而在两者之间取得平衡。这项研究发表在《应用软计算杂志》上,为集成学习领域带来了新的思路。

继续阅读

最小描述长度原理 | 机器学习的基础

[latexpage]
最小描述长度:一个美丽的想法,它将统计学、信息论和哲学的概念结合在一起,为机器学习奠定了基础。

最小描述长度(MDL)的概念

最小描述长度(Minimum Description Length, MDL)原理是一种基于信息论的方法,用于解决模型选择和数据压缩问题。它是由Jorma Rissanen在1978年开始的⼀系列论⽂中提出的。

继续阅读