Reinforced quasi-random forest | 论文笔记

英文题目:

Reinforced quasi-random forest

中文题目:

强化准随机森林

作者:

Paul, Angshuman; Mukherjee, Dipti Prasad

发表期刊 或 会议:

Pattern Recognition

发表日期:

2019-10-01

随机森林是一种广泛使用且精度很高的集成学习方法,但仍有进一步提升性能的空间。最近,研究者提出了一种增强型随机森林的新方法,称为"强化拟随机森林"(Reinforced Quasi-Random Forest, RQRF)。这种方法在原有随机森林的基础上,通过迭代地增加新的决策树来进行强化学习,同时会识别出导致训练数据被错误分类的属性,并在构建新树时降低这些属性的重要性。另外,新增的树具有正交性且属性选择是确定性的,因此被称为"拟随机"树。通过一种新颖的静电模型,可以从新增树中选出最佳的树加入到原始的随机森林中,从而最大程度地提高分类精度。

实验表明,这种强化拟随机森林方法在乳腺癌数据集上检测有丝分裂细胞核的任务中取得了显著的改进,与其他最新方法相比性能更优。在一些基准数据集上,分类错误率最多降低了14%。这项研究展示了强化学习在进一步提升随机森林性能方面的巨大潜力。

这篇论文适合对机器学习尤其是集成学习算法感兴趣的研究人员阅读,特别是那些希望了解如何将强化学习思想应用到决策树集成模型中,以进一步提高分类性能的人。此外,论文也展示了Attribution of importance和正交树在随机森林改进中的重要作用,值得关注。

<研究背景与目的>

随机森林是一种非常有效的集成分类器,但存在局限性。该文旨在提出一种改进的随机森林算法,通过迭代地添加加强树来提高分类准确性,并降低树之间的相关性。

<创新点>

  1. 提出了一种确定属性重要性的新方法,可以去除不重要的属性。
  2. 提出了一种构建正交准随机决策树的新方法,以降低树与树之间的相关性。
  3. 提出了一种基于静电模型的新方法来选择加强树,以最大程度地提高分类准确性。

<结论>

该算法在多个公开数据集上取得了比其他先进算法更好的分类性能,尤其是在噪声和较小数据集上表现优异。在乳腺癌数据集上也取得了优异的表现,有望应用于临床诊断。

<实验内容>

在多个公开基准数据集和3个乳腺癌数据集上进行了实验和评估。与随机森林、AdaBoost、RUSBoost等算法进行了比较。

<对本领域的贡献>

提出了一种新的加强随机森林的方法,在分类准确性和树间正交性方面有所提高。为集成学习算法的优化提供了新的思路。

<主要定理>

无明确定理,主要是提出了几种创新的技术,包括:属性重要性评估、准随机正交树构建和加强树选择(基于静电模型)。

<存在的不足>

  1. 对小数据集(如Madelon)的可重复性仍有待提高。
  2. 串行构建准随机树会影响算法速度。

<未来的工作>

  1. 探索通过最优数量的正交树进行加强的可能性,以进一步提高效率。
  2. 研究该方法在一次性学习(one-shot learning)中的应用前景。