【线性回归模型公式】线性回归是一种用于预测和建模变量之间关系的统计方法,广泛应用于数据分析、经济预测、社会科学等领域。其核心思想是通过建立一个线性方程来描述自变量与因变量之间的关系。以下是线性回归模型的基本公式及其相关概念的总结。
一、基本公式
线性回归模型的基本形式为:
$$
y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_n x_n + \epsilon
$$
其中:
- $ y $:因变量(目标变量)
- $ x_1, x_2, \dots, x_n $:自变量(特征变量)
- $ \beta_0 $:截距项
- $ \beta_1, \beta_2, \dots, \beta_n $:自变量的系数
- $ \epsilon $:误差项(随机扰动)
在实际应用中,我们通常使用样本数据估计这些参数,以最小化预测值与真实值之间的误差。
二、模型类型
根据变量数量的不同,线性回归可分为以下两种主要类型:
| 类型 | 变量数量 | 公式示例 |
| 简单线性回归 | 1个自变量 | $ y = \beta_0 + \beta_1 x + \epsilon $ |
| 多元线性回归 | 2个或以上自变量 | $ y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_n x_n + \epsilon $ |
三、参数估计方法
常用的参数估计方法是最小二乘法,其目标是最小化残差平方和:
$$
\text{RSS} = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2
$$
其中:
- $ y_i $:第 $ i $ 个观测值的因变量实际值
- $ \hat{y}_i $:第 $ i $ 个观测值的因变量预测值
通过求导并解方程,可以得到参数 $ \beta_0, \beta_1, \dots, \beta_n $ 的最优估计值。
四、模型评估指标
为了衡量线性回归模型的拟合效果,常用以下指标:
| 指标名称 | 公式 | 说明 | ||
| 均方误差(MSE) | $ \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 $ | 误差的平均平方值 | ||
| 平均绝对误差(MAE) | $ \frac{1}{n} \sum_{i=1}^{n} | y_i - \hat{y}_i | $ | 误差的平均绝对值 |
| 决定系数(R²) | $ R^2 = 1 - \frac{\text{SSE}}{\text{SST}} $ | 表示模型解释的变异比例 |
五、模型假设
线性回归模型基于以下几个关键假设:
1. 线性关系:自变量与因变量之间存在线性关系。
2. 独立性:误差项之间相互独立。
3. 正态性:误差项服从正态分布。
4. 同方差性:误差项的方差恒定。
5. 无多重共线性:自变量之间不存在高度相关性。
如果这些假设不成立,可能需要对模型进行调整或选择其他更适合的方法。
总结
线性回归是一种基础但强大的统计工具,适用于多种预测任务。掌握其基本公式、参数估计方法以及评估指标,有助于更好地理解和应用该模型。在实际操作中,还需注意模型的假设条件,并根据数据情况进行适当的调整和验证。


