机器学习中的线性模型中的线性回归概念与原理

发布于:2024-10-13 ⋅ 阅读:(216) ⋅ 点赞:(0)

线性模型 - 线性回归概念与原理 (机器学习)

线性回归其实就是一种简单的数学方法,帮助我们找到输入和输出之间的“直线关系”,用来预测未来的数值。

线性回归的基本概念

假设你有一些数据,比如你想预测一个人的身高 ( y ),而你知道他们的年龄 ( x )。线性回归的目标是找到一种简单的公式,像这样:

y = w x + b y = wx + b y=wx+b

这里:

  • ( y ) 是你要预测的结果(比如身高)。
  • ( x ) 是你用来预测的输入(比如年龄)。
  • ( w ) 是“权重”或“斜率”,告诉你 ( x ) 每增加一单位, ( y ) 增加多少。
  • ( b ) 是“截距”,也就是当 ( x = 0 ) 时, ( y ) 的值。

想象一下,如果你用一个点云图表示年龄和身高的关系,线性回归就是试图在这些点中画一条“最合适的直线”。

线性回归的原理

线性回归的工作方式是尽量让这条线能够准确预测你已有的数据。如何判断线画得好不好呢?就是看看模型预测的结果和实际值之间的差距(误差)有多大。为了让误差最小,线性回归会通过数学方法“调整”那条线的斜率 ( w ) 和截距 ( b )。

具体来说,它会使用一个叫“均方误差”的方法来计算误差,目标是让这些误差尽可能小。

L ( w , b ) = 1 m ∑ i = 1 m ( y ^ i − y i ) 2 L(w, b) = \frac{1}{m} \sum_{i=1}^{m} (\hat{y}_i - y_i)^2 L(w,b)=m1i=1m(y^iyi)2

这里:

  • L ( w , b ) L(w, b) L(w,b) 是计算出的误差值。
  • y ^ i \hat{y}_i y^i 是模型预测出的结果。
  • y i y_i yi 是实际的真实值。
  • m m m 是数据的样本数量。

这就是线性回归的核心思想:找到一条“最好的”直线,让预测值尽量接近真实值。

简单例子

假设我们想通过一个人的学习时间来预测他们的考试分数。我们收集了一些数据,像这样:

学习时间 (小时) 考试分数
1 50
2 55
3 60
4 65
5 70

线性回归会在这些数据点中找到一条直线,比如:

分数 = 10 × 学习时间 + 40 分数 = 10 \times 学习时间 + 40 分数=10×学习时间+40

这里,斜率 ( w = 10 ) 表示每多学习一小时,考试分数会增加 10 分,而 截距 ( b = 40 ) 表示如果没有学习(学习时间为 0),预测的分数是 40 分。

优点和缺点

优点

  • 简单易懂,容易实现。
  • 当输入和输出之间的关系确实是线性的时,效果很好。

缺点

  • 如果输入和输出之间的关系不是线性的,线性回归的效果就会很差。
  • 它很容易受到异常数据的影响,比如极端的值可能会大大改变结果。

简单总结:线性回归就是用一条直线来描述两者之间的关系。它适合一些简单的预测场景,比如通过学习时间预测分数,或者通过房子的面积预测房价。


网站公告

今日签到

点亮在社区的每一天
去签到