type
status
date
slug
summary
tags
category
icon
password
1. 监督学习是在正确答案的指导下进行学习。这和你在考试前通过习题和答案来对照学习是一样的。
2. 对比学习的目标是通过样本之间的相似度,来学习它们之间的距离,进而表示它们的关系。
3. 强化学习的核心思想,是利用感知和行动的闭环进行学习。
监督学习
意味着在正确答案的指导下进行学习,这和你在考试前通过习题和答案来对照学习是一样的。为了让机器和你一样,也能学习问答之间的关系,我们需要使用函数 Y = F(X) 来表示它们之间的映射关系。X 是问题的描述,比如“世界上最高的山是哪座山?”Y 是问题的答案,即“珠穆朗玛峰”。
所以只要得到 Y = F(X) 的具体表达式,就能够算出所有问题的答案
只不过在真实世界中,你无法获取全部的已知条件,甚至不知道方程的具体形式,几乎无法获得解析解。因此,你只能使用统计的方式,来拟合 X 和 Y 之间的关系,得到函数 F 的近似解 F’。拟合的过程分为两步。首先建立模型,选择一个适合的 F’ 的表达式(比如 F(X) = AX + B)来对你的场景建模。然后,我们需要将已知数据作为条件,来求解参数 F’ 中的未知参数(也就是 A 和 B)。
沿用之前点击率预测的例子。预测用户“是否点击”是一个经典的监督学习问题。其中的 X 包括用户年龄和商品价格等各类特征,标签 Y 则表示 “是否点击”,一般用 0 来代表未点击,1 代表点击。现在,你已经清楚数据的情况了,如果需要你设计一个模型来预测点击率,你会怎么做呢?
第一件事是建立数学模型,也就是设计方程,第二件事是求解方程未知数。
类似于这样
损失函数 是模型给出的“预测”和标准“答案”之间的差距,损失越小则说明模型效果越好。所以“解方程”的过程就是要“试”出损失最小的“解”。
需要一个策略来提高“试”的效率,比如使用梯度下降法,它是一种投石问路、步步逼近的策略。用梯度下降来求解的整个过程是这样的。
首先,我们从需要拟合的已知数据中取一小批数据(X,Y),并将它们带入损失函数。然后,随机给损失函数赋予一个解 W。接下来,计算梯度,梯度会指向这批数据上将损失函数减小的最小解的方向。之后,沿着这个方向迈出一步,也就是调整你的模型参数 W。最后,我们再取一批数据,基于更新后的解重复这个过程,直到用完所有已知数据。最终,你将得到一个针对你的已知数据拟合后的点击率模型。这个模型可以用来预测未知数据的点击率。
理解梯度:
比如这个:
1.初始化模型参数 W。
2. 对数据进行多个 epoch 的迭代。
3.在每个 epoch 中,将数据分成小批量。
4.对每个小批量:
- 进行前向传播计算预测值
- 计算损失
- 计算梯度
- 更新模型参数
- 重复这个过程直到达到预定的 epoch 数。
最后,我们得到了一个经过训练的模型(即学习到的权重 W),可以用于对新数据进行预测。
权重(W)是模型中的关键参数,它决定了输入特征对输出的影响程度。让我们深入理解权重的作用:
- 定义:
在线性模型中,权重表示为一个向量 W = [w1, w2, ..., wn],其中 n 是特征数量。
- 功能:
每个权重 wi 对应一个输入特征 xi,决定了该特征对预测结果的贡献程度。
- 预测过程:
对于输入 X = [x1, x2, ..., xn],预测值 y 的计算如下:
y = w1*x1 + w2*x2 + ... + wn*xn
- 权重的意义:
- 正权重:对应特征与输出正相关
- 负权重:对应特征与输出负相关
- 权重绝对值大:对应特征影响较大
- 权重接近零:对应特征影响较小
- 学习过程:
梯度下降法通过调整权重来最小化预测误差:
W_new = W_old - learning_rate * gradient
对比学习
原理:
相似样本的特征表示应该更接近
不同样本的特征表示应该更远离
想象你在玩一个"找不同"的游戏:
1. 游戏规则:
- 你有一张原始照片(称为"锚点图片")
- 你还有这张照片的稍微修改版(比如亮度调整,称为"正样本")
- 然后你有很多完全不同的照片(称为"负样本")
- 游戏目标:
- 训练一个AI,让它能够识别出哪张是原图的修改版,哪些是不相关的图片
- 训练过程:
for 每轮游戏:
显示锚点图片
显示一堆图片(包括正样本和负样本)
AI尝试指出哪张是正样本
如果AI猜对了:
给予奖励
否则:
进行惩罚
AI根据结果调整自己的判断标准
- AI的学习策略:
- 寻找原图和修改版之间的共同点
- 同时学会忽略那些在不相关图片中也存在的特征
5. 实际应用:
- 图像识别:学会关注物体的本质特征,而不是背景或光照
- 语言理解:学会理解句子的含义,而不只是单词的表面形式
- 推荐系统:学会用户的真实兴趣,而不是表面的点击行为
6. 为什么叫"对比"学习:
- AI通过不断对比相似和不相似的东西来学习
- 就像人类通过比较不同事物来理解世界一样
强化学习
通过与环境交互来学习的方法,可以类比为"从经验中学习”