Overview of Automated Feature Selection Techniques in M

发布于:2023-09-23 ⋅ 阅读:(90) ⋅ 点赞:(0)

作者:禅与计算机程序设计艺术

1.简介

随着互联网、移动互联网等新型信息技术的出现,人们对数据的需求量越来越大。数据收集越来越多,数据处理也变得更加复杂。如何有效地整合、分析和挖掘数据,是提升机器学习模型性能、改善产品质量的关键环节。如何从海量数据中自动发现重要特征并进行有效降维、分类或预测,成为新的研究热点。

为了解决这一问题,自动化特征选择方法在机器学习领域获得了广泛关注。在本文中,我们将主要讨论三种常用的特征选择方法,它们分别是Filter、Wrapper、Embedded方法。同时,我们还会对其进行综述、评价,并提供一些相关资源的链接。

2.主要内容概要

2.1 Filter方法

Filter方法,又称为基于统计的特征选择方法。这种方法基于数据集中的每一个样本或样本子集的统计特性,根据阈值或准则选取部分最具代表性的特征。Filter方法通常采用高维空间中的均方差或相关系数作为指标来衡量特征之间的相关性。其中,相关系数可以用来反映两个变量之间的线性相关程度;均方差可以用来衡量两个变量之间的非线性关系。通过筛选出具有显著统计相关性的特征,Filter方法能够自动识别出原始数据中最有价值的特征,并舍弃掉不相关的特征。Filter方法的优点是简单、容易实现;缺点是无法对多元变量之间的依赖关系做出判断。

2.2 Wrapper方法

Wrapper方法,又称为基于模型的特征选择方法。这种方法利用机器学习模型训练后的结果,对特征进行排序或者重新组合,从而达到特征选择的目的。具体来说,它首先训练一系列的基学习器(基模型),然后计算每个基学习器的重要性,并根据模型的效果对


网站公告

今日签到

点亮在社区的每一天
去签到