线性回归
1. 什么是回归?回归解决什么问题?
定义:回归是一种监督学习方法,用于预测连续型数值输出(如房价、温度、销售额等)。
解决问题:通过建立输入特征(自变量)与连续输出(因变量)之间的关系模型,进行预测。例如,根据房屋面积、位置等特征预测房价。
2. 项目中如何应用回归?
场景:预测类任务(如销量预测、股票价格分析)。
步骤:
数据采集--》数据清洗--》特征工程--》建模--》训练--》发布
数据准备:收集特征数据并清洗(处理缺失值、异常值)。
特征工程:选择或构造对目标变量有显著影响的特征(如多项式特征)。
模型训练:使用线性回归模型(如最小二乘法)拟合数据。
评估指标:通过均方误差(MSE)、R²值等评估模型性能。
部署:将模型集成到业务系统中,实时预测。
3. 什么是正则化?#(对过拟合数据中的极值参数进行限制,提供泛化能力)
目的:防止模型过拟合,提高泛化能力。(训练数据中的极值数据权重占比导致过拟合)
泛化:预测未来数据的表现较好
过拟合:在训练数据中表现较好,在预测未来数据的表现不好
欠拟合:在训练数据中表现不好,原因是多维复杂数据,用了单一的算法模型。(解决办法:换用更高维的算法模型)
方法:
L1正则化(LASSO):在损失函数中添加权重的绝对值之和,可产生稀疏权重(部分特征权重为0)。
L2正则化(Ridge):添加权重的平方和,使权重趋向较小值,避免模型过于复杂。
4. 什么是梯度下降?(学习过程,使用优化算法不停的迭代)
原理:一种优化算法,通过迭代调整模型参数(如线性回归的权重),最小化损失函数。每一步沿损失函数的负梯度方向更新参数。
迭代的学习方法--》找到损失函数的最小值--》给我们求解的损失函数一个初始数值--》
--》计算损失函数的梯度--》向负梯度方向更新--》迭代,直到达到终止条件
公式:
$$\theta_j := \theta_j - \alpha \frac{\partial J(\theta)}{\partial \theta_j}$$
(\alpha是学习率,J(\theta)是损失函数)
5. 随机梯度下降(SGD)和批量梯度下降(BGD)的区别
特性批量梯度下降(BGD)随机梯度下降(SGD)
数据使用 每次迭代使用全部训练数据 每次迭代随机使用一个样本
计算效率 低(大数据集计算慢) 高(适合大规模数据)
收敛速度 慢(但稳定,接近全局最优) 快(但可能震荡,陷入局部最优)
适用场景 小规模数据集 大规模数据集、在线学习
朴素贝叶斯
1. 贝叶斯理论(是使用似然[可能性]函数和先验经验,推断后验概率的过程。)
简单来说就是根据以往的经验,推断预测未来事件的概率。
核心公式(贝叶斯定理):
P(Y|X) = \frac{P(X|Y) \cdot P(Y)}{P(X)}
P(Y|X):后验概率(已知特征X时类别Y的概率)。
P(X|Y):似然概率(已知类别Y时特征X的概率)。
P(Y):先验概率(类别Y的分布)。
P(X):证据概率(通常忽略,仅用于归一化)。
2. 文本分类的原理和过程
步骤:
特征提取:将文本转换为词袋模型(Bag-of-Words)或TF-IDF向量。
计算先验概率:统计每个类别的文档比例(如垃圾邮件占比)。
计算似然概率:统计每个词在类别中的出现频率(如“免费”在垃圾邮件中出现的概率)。
分类决策:对输入文本计算属于每个类别的后验概率,选择概率最大的类别。
逻辑回归
1. 最大似然估计(MLE)
原理:通过最大化观测数据的联合概率密度,估计模型参数。
通俗来讲就是根据模型产生的数据结果来推断参数
例如:假设样本独立,最大化 P(y_1, y_2, ..., y_n | x_1, x_2, ..., x_n; \theta)。
2. 逻辑斯蒂回归的原理
核心思想:将线性回归的输出映射到[0,1]区间,表示概率。
通俗来讲就是将分类数据的线性计算结果映射到一个概率空间
步骤:
线性组合:z = w^T x + b。
Sigmoid函数:p = \frac{1}{1 + e^{-z}},表示样本属于正类的概率。
损失函数:交叉熵损失 J(w, b) = -\frac{1}{N} \sum [y \log p + (1-y) \log (1-p)]。
优化:通过梯度下降最小化损失函数。
总结对比表
算法输入输出类型核心方法典型应用
线性回归 连续输入 → 连续输出 最小化均方误差 房价预测、销量预测
朴素贝叶斯 离散/连续输入 → 类别 贝叶斯定理 + 特征独立假设 文本分类、垃圾邮件识别
逻辑回归 连续输入 → 类别概率 Sigmoid函数 + 交叉熵损失 二分类、多分类(如广告点击率)
通过以上内容,可以系统性地理解这些算法的核心思想、差异及实际应用场景。