作者:禅与计算机程序设计艺术
1.背景介绍
1.1什么是机器学习?
机器学习(英语:Machine Learning)是一类人工智能研究领域,涉及如何通过训练数据(或其他信息源)对未知的数据进行预测或决策的一门技术。它主要从以下两个方面进行研究:⼀个是计算机科学领域关于数据 mining 和 pattern recognition 的分支;另一个则侧重于统计学、优化方法、线性代数、概率论等多种数学领域的应用。机器学习有多个子领域,如分类、回归、强化学习、关联规则、聚类、异常检测、降维等。这些子领域提供了许多不同的算法来处理不同类型的数据。其中,朴素贝叶斯算法又被认为是最简单的一种,也是人们最容易理解和实现的一个。
1.2什么是朴素贝叶斯?
朴素贝叶斯(英语:Naive Bayes)是一套基于贝叶斯定理与特征条件独立假设的简单而有效的概率分类器。在实际运用中,朴素贝叶斯是一种比较简单的机器学习分类算法。朴素贝叶斯模型是一个简单而高效的分类器,特别适用于文本分类、垃圾邮件过滤、新闻简报分类等多元分类任务。它的优点是计算复杂度小,速度快,易于实现,并且能够处理多分类问题。缺点是无法处理非概率形式的输出(比如有向图),适合输入变量相互之间没有明显相关性的情况。
1.3为什么要用朴素贝叶斯?
- 可解释性高:算法易于理解,对模型的建模过程可以给予用户很好的直观感受&#x