模型工程 | Michael Lu’s Blog

type

status

date

slug

summary

监督学习

意味着在正确答案的指导下进行学习，这和你在考试前通过习题和答案来对照学习是一样的。为了让机器和你一样，也能学习问答之间的关系，我们需要使用函数 Y = F(X) 来表示它们之间的映射关系。X 是问题的描述，比如“世界上最高的山是哪座山？”Y 是问题的答案，即“珠穆朗玛峰”。

所以只要得到 Y = F(X) 的具体表达式，就能够算出所有问题的答案

只不过在真实世界中，你无法获取全部的已知条件，甚至不知道方程的具体形式，几乎无法获得解析解。因此，你只能使用统计的方式，来拟合 X 和 Y 之间的关系，得到函数 F 的近似解 F’。拟合的过程分为两步。首先建立模型，选择一个适合的 F’ 的表达式（比如 F(X) = AX + B）来对你的场景建模。然后，我们需要将已知数据作为条件，来求解参数 F’ 中的未知参数（也就是 A 和 B）。

沿用之前点击率预测的例子。预测用户“是否点击”是一个经典的监督学习问题。其中的 X 包括用户年龄和商品价格等各类特征，标签 Y 则表示 “是否点击”，一般用 0 来代表未点击，1 代表点击。现在，你已经清楚数据的情况了，如果需要你设计一个模型来预测点击率，你会怎么做呢？

第一件事是建立数学模型，也就是设计方程，第二件事是求解方程未知数。

类似于这样

损失函数是模型给出的“预测”和标准“答案”之间的差距，损失越小则说明模型效果越好。所以“解方程”的过程就是要“试”出损失最小的“解”。

需要一个策略来提高“试”的效率，比如使用梯度下降法，它是一种投石问路、步步逼近的策略。用梯度下降来求解的整个过程是这样的。

首先，我们从需要拟合的已知数据中取一小批数据（X，Y），并将它们带入损失函数。然后，随机给损失函数赋予一个解 W。接下来，计算梯度，梯度会指向这批数据上将损失函数减小的最小解的方向。之后，沿着这个方向迈出一步，也就是调整你的模型参数 W。最后，我们再取一批数据，基于更新后的解重复这个过程，直到用完所有已知数据。最终，你将得到一个针对你的已知数据拟合后的点击率模型。这个模型可以用来预测未知数据的点击率。

理解梯度：

比如这个：

1.初始化模型参数 W。

2. 对数据进行多个 epoch 的迭代。

3.在每个 epoch 中，将数据分成小批量。

4.对每个小批量：

进行前向传播计算预测值

计算损失

计算梯度

更新模型参数

重复这个过程直到达到预定的 epoch 数。

最后，我们得到了一个经过训练的模型（即学习到的权重 W），可以用于对新数据进行预测。

权重（W）是模型中的关键参数，它决定了输入特征对输出的影响程度。让我们深入理解权重的作用：

定义：

在线性模型中，权重表示为一个向量 W = [w1, w2, ..., wn]，其中 n 是特征数量。

功能：

每个权重 wi 对应一个输入特征 xi，决定了该特征对预测结果的贡献程度。

预测过程：

对于输入 X = [x1, x2, ..., xn]，预测值 y 的计算如下：

y = w1*x1 + w2*x2 + ... + wn*xn

权重的意义：

正权重：对应特征与输出正相关

负权重：对应特征与输出负相关

权重绝对值大：对应特征影响较大

权重接近零：对应特征影响较小

学习过程：

梯度下降法通过调整权重来最小化预测误差：

W_new = W_old - learning_rate * gradient

对比学习

原理：

相似样本的特征表示应该更接近不同样本的特征表示应该更远离

想象你在玩一个"找不同"的游戏：

1. 游戏规则：

你有一张原始照片（称为"锚点图片"）

你还有这张照片的稍微修改版（比如亮度调整，称为"正样本"）

然后你有很多完全不同的照片（称为"负样本"）

游戏目标：

训练一个AI，让它能够识别出哪张是原图的修改版，哪些是不相关的图片

训练过程：

for 每轮游戏:

显示锚点图片

显示一堆图片（包括正样本和负样本）

AI尝试指出哪张是正样本

如果AI猜对了:

给予奖励

否则:

进行惩罚

AI根据结果调整自己的判断标准

AI的学习策略：

寻找原图和修改版之间的共同点

同时学会忽略那些在不相关图片中也存在的特征

5. 实际应用：

图像识别：学会关注物体的本质特征，而不是背景或光照

语言理解：学会理解句子的含义，而不只是单词的表面形式

推荐系统：学会用户的真实兴趣，而不是表面的点击行为

6. 为什么叫"对比"学习：

AI通过不断对比相似和不相似的东西来学习

就像人类通过比较不同事物来理解世界一样

强化学习

通过与环境交互来学习的方法，可以类比为"从经验中学习”