机器学习15-发展历史补充
1-机器学习发展历史
第一阶段:早期探索(20 世纪中叶 - 20 世纪 90 年代初)
- 1936 年图灵机概念 :图灵提出图灵机概念,认为机器可以解决世界上所有的计算问题,这一理论为计算机科学奠定了基础,引发人们对计算和智能的初步思考与试探。
- 专家系统兴起与局限 :在人工智能发展过程中,专家系统出现并一度受到关注,它能够解决特定领域的逻辑推理问题,但专家系统的应用场景有限,知识获取困难,难以适应广泛的问题求解,导致其发展受限。
- 感知机的发明及局限 :感知机的发明是模拟人类神经元的一次尝试,被视为对实现机器智能的一种探索,但感知机存在缺陷,不具备解决复杂问题的完备性,例如对于线性不可分问题无能为力。
- 神经网络的发展 :为克服感知机的缺陷,神经网络应运而生。早期的单层神经网络计算能力有限,但在一次神经网络竞赛中,有研究者使用多层神经网络取得了良好效果,为神经网络的发展带来了新的灵感,推动了深度学习的兴起。
第二阶段:统计学习与核方法(20 世纪 90 年代至 2000 年代初期)
- 决策树的出现 :决策树作为一种基础数学研究的成果被提出,它在缺失值处理、训练时间段、可解释性、特征选择等方面都有较好的表现,为机器学习提供了新的方法和思路。
- 支持向量机(SVM)的提出 :SVM 的核心思想是找到一个最优分类超平面,使得分类间隔最大化,它通过核技巧来处理非线性问题,并非是只选择一个数据丢弃其他数据,也不是简单地认为平面内所有分类问题都可用一条一维直线解决,而是在高维空间中寻找一个超平面来进行分类,且经科学验证在解决高维数据分类问题上表现良好,在一定程度上缓解了维度爆炸问题。
第三阶段:特征工程与模型优化(2000 年代中期至 2010 年代初期)
- 特征工程的重视 :随着基础数学和神经网络的推进,机器学习应用增多,但数据预处理缺乏经验,于是特征工程受到强调,包括数据选择、特征提取和特征处理等。
- 模型性能优化 :
- 梯度提升机集成 :梯度提升机集成方法(如 GBM)由 Jerome Friedman 在 2001 年提出,通过迭代优化损失函数来提升模型性能,是集成学习领域的重要进展。
- 线性回归与逻辑回归的发展 :线性回归是一种基础的统计学习方法,用于解决回归问题。逻辑回归则是将线性回归的输出通过逻辑函数映射到 [0,1] 区间,从而用于解决分类问题,它将 [-∞,+∞] 的实数值映射到 [0,1] 的概率值,并广泛应用于分类任务,其所属的基础数学理论为机器学习在回归和分类领域的发展提供了有力支撑。
第四阶段:大规模数据和分布式计算(2010 年代中后期)
- 集成方法的优化与应用 :在大规模数据和分布式计算的背景下,集成方法得到进一步发展和优化。
- XGBoost :由 Tianqi Chen 在 2014 年提出,是 GBM 的优化版本,通过高效的并行计算和一系列优化策略,提升了模型的性能和训练速度,适合处理大规模数据且在分布式计算环境下表现出色。
- LightGBM 和 CatBoost :分别由微软和 Yandex 在 2017 年提出,在 GBM 的基础上进一步优化了性能和速度,采用了直方图算法、梯度单边采样等技术,提高了模型在大规模数据集上的训练效率和准确性。
第五阶段:自动化机器学习和特征选择(2010 年代末至今)
- 自动化机器学习兴起的 :随着机器学习的成熟和商业化,为降低技术门槛,让更多人能够应用机器学习,自动化机器学习(AutoML)出现并发展。AutoML 工具如 Auto-sklearn 和 TPOT 等,能够自动进行模型选择、超参数优化和特征工程,简化了机器学习流程,使得非专业人员也能更便捷地构建和应用机器学习模型。
- 特征选择算法的发展 :特征选择算法如 LASSO(Least Absolute Shrinkage and Selection Operator)和 RFECV(Recursive Feature Elimination with Cross-Validation)等得到广泛应用。LASSO 通过在损失函数中添加 L1 正则化项,实现特征的选择和系数的压缩;RFECV 则是通过递归地消除特征并结合交叉验证来选择重要特征,这些算法能够有效地提升模型性能,减少过拟合风险,提高模型的泛化能力。
需要注意的是,机器学习的发展历程是复杂且多样的,以上只是对主要事件和方法的简要梳理,还有很多细节和技术演进未在此详细阐述,同时,各的阶段划分和时间节点也并非绝对明确,不同技术在不同时期相互交叉和影响。但总体而言,机器学习的发展体现了从理论探索到实践应用、从简单模型到复杂系统、从人工设计到自动化优化的不断演进过程。