07.机器学习阶段总结（线性回归/朴素贝叶斯/逻辑回归）

本节1913字2025-05-26 09:01:23

线性回归

1. 什么是回归？回归解决什么问题？

定义：回归是一种监督学习方法，用于预测连续型数值输出（如房价、温度、销售额等）。

解决问题：通过建立输入特征（自变量）与连续输出（因变量）之间的关系模型，进行预测。例如，根据房屋面积、位置等特征预测房价。

2. 项目中如何应用回归？

场景：预测类任务（如销量预测、股票价格分析）。

步骤：

数据采集--》数据清洗--》特征工程--》建模--》训练--》发布

数据准备：收集特征数据并清洗（处理缺失值、异常值）。

特征工程：选择或构造对目标变量有显著影响的特征（如多项式特征）。

模型训练：使用线性回归模型（如最小二乘法）拟合数据。

评估指标：通过均方误差（MSE）、R²值等评估模型性能。

部署：将模型集成到业务系统中，实时预测。

3. 什么是正则化？#（对过拟合数据中的极值参数进行限制，提供泛化能力）

目的：防止模型过拟合，提高泛化能力。（训练数据中的极值数据权重占比导致过拟合）

泛化：预测未来数据的表现较好

过拟合：在训练数据中表现较好，在预测未来数据的表现不好

欠拟合：在训练数据中表现不好，原因是多维复杂数据，用了单一的算法模型。（解决办法：换用更高维的算法模型）

方法：

L1正则化（LASSO）：在损失函数中添加权重的绝对值之和，可产生稀疏权重（部分特征权重为0）。

L2正则化（Ridge）：添加权重的平方和，使权重趋向较小值，避免模型过于复杂。

4. 什么是梯度下降？（学习过程，使用优化算法不停的迭代）

原理：一种优化算法，通过迭代调整模型参数（如线性回归的权重），最小化损失函数。每一步沿损失函数的负梯度方向更新参数。

迭代的学习方法--》找到损失函数的最小值--》给我们求解的损失函数一个初始数值--》

--》计算损失函数的梯度--》向负梯度方向更新--》迭代，直到达到终止条件

公式：

$$\theta_j := \theta_j - \alpha \frac{\partial J(\theta)}{\partial \theta_j}$$

（\alpha是学习率，J(\theta)是损失函数）

5. 随机梯度下降（SGD）和批量梯度下降（BGD）的区别

特性批量梯度下降（BGD）随机梯度下降（SGD）

数据使用每次迭代使用全部训练数据每次迭代随机使用一个样本

计算效率低（大数据集计算慢）高（适合大规模数据）

收敛速度慢（但稳定，接近全局最优）快（但可能震荡，陷入局部最优）

适用场景小规模数据集大规模数据集、在线学习

朴素贝叶斯

1. 贝叶斯理论（是使用似然[可能性]函数和先验经验，推断后验概率的过程。）

简单来说就是根据以往的经验，推断预测未来事件的概率。

核心公式（贝叶斯定理）：

P(Y|X) = \frac{P(X|Y) \cdot P(Y)}{P(X)}

P(Y|X)：后验概率（已知特征X时类别Y的概率）。

P(X|Y)：似然概率（已知类别Y时特征X的概率）。

P(Y)：先验概率（类别Y的分布）。

P(X)：证据概率（通常忽略，仅用于归一化）。

2. 文本分类的原理和过程

步骤：

特征提取：将文本转换为词袋模型（Bag-of-Words）或TF-IDF向量。

计算先验概率：统计每个类别的文档比例（如垃圾邮件占比）。

计算似然概率：统计每个词在类别中的出现频率（如“免费”在垃圾邮件中出现的概率）。

分类决策：对输入文本计算属于每个类别的后验概率，选择概率最大的类别。

逻辑回归

1. 最大似然估计（MLE）

原理：通过最大化观测数据的联合概率密度，估计模型参数。

通俗来讲就是根据模型产生的数据结果来推断参数

例如：假设样本独立，最大化 P(y_1, y_2, ..., y_n | x_1, x_2, ..., x_n; \theta)。

2. 逻辑斯蒂回归的原理

核心思想：将线性回归的输出映射到[0,1]区间，表示概率。

通俗来讲就是将分类数据的线性计算结果映射到一个概率空间

步骤：

线性组合：z = w^T x + b。

Sigmoid函数：p = \frac{1}{1 + e^{-z}}，表示样本属于正类的概率。

损失函数：交叉熵损失 J(w, b) = -\frac{1}{N} \sum [y \log p + (1-y) \log (1-p)]。

优化：通过梯度下降最小化损失函数。

总结对比表

算法输入输出类型核心方法典型应用

线性回归连续输入 → 连续输出最小化均方误差房价预测、销量预测

朴素贝叶斯离散/连续输入 → 类别贝叶斯定理 + 特征独立假设文本分类、垃圾邮件识别

逻辑回归连续输入 → 类别概率 Sigmoid函数 + 交叉熵损失二分类、多分类（如广告点击率）

通过以上内容，可以系统性地理解这些算法的核心思想、差异及实际应用场景。

07.机器学习阶段总结（线性回归/朴素贝叶斯/逻辑回归）

线性回归

朴素贝叶斯

逻辑回归

相关作品

python基础

python代码第一周

python代码第二周

python代码第三周

mysql数据库

Python数据分析

python练习

杂谈