type
status
date
slug
summary
tags
category
icon
password
airc是aigc的基础,要先学习。
谷歌的搜索引擎、抖音的推荐系统,还有阿里妈妈的计算广告系统,这类系统的统称是“内容推荐系统(AIRC)”
AIRC 系统可以分成三大部分的工作,分别是策略建模、数据工程和模型工程。
策略建模
指标建模
指标建模,我们先要确定“北极星指标”,它是业务追求的终极目标,虽然它可能根据实际情况的变化而变化。但相对而言,在一段时间内,它是最稳定、明确的指标
比如电商的:
“从海量商品中选出此人最可能成交的商品”
一个问题是:
本质就是对商品排序,排序前就是要的内容。
期望收益 = 点击率 * 加购率 * 付款率 * 客单价这样你已经找到了第一个问题的答案,那就是将用户对每个商品的期望收益进行排序,将排名靠前的商品,展示给用户
第二个问题是:对海量商品进行实时排序
因为物料总量多,所以得通过召回+排序来处理
所谓召回就是用时间复杂度较低的算法排除掉大量错误答案。
比如搜索排序:
利用倒排索引;
- 正排索引:从文档到词语的索引,记录每个文档包含哪些词语。
- 倒排索引:从词语到文档的索引,记录每个词语出现在哪些文档中
假设有三个文档:
- 文档1:我爱编程
- 文档2:编程使人快乐
- 文档3:快乐的人爱学习
构建倒排索引:
- 我:文档1
- 爱:文档1、文档3
- 编程:文档1、文档2
- 使:文档2
- 人:文档2、文档3
- 快乐:文档2、文档3
- 学习:文档3
使用倒排索引:
当用户搜索“编程”时,搜索引擎通过倒排索引立即知道需要检索文档1和文档2,而无需遍历所有文档。
举例说明:
- 总文档数: 假设搜索引擎有1亿篇文档。
- 用户查询: “机器学习算法”
- 倒排索引拉取: 倒排索引显示,有50万篇文档包含“机器学习算法”。
- 降低排序规模: 搜索引擎只需对这50万篇相关文档进行排序,而不是对1亿篇文档全部排序。
- 加快搜索速度: 处理的数据量从1亿降至50万,搜索速度显著提高,用户更快得到结果
控制与博弈
风控
内容安全系统和反作弊系统
内容安全:高召回,宁可错杀不漏过
反作弊:动作频次
q1:构建一个程序,支持根据文档中出现的内容,搜索本地所有文本文档,你觉得应该分为哪几个步骤
1.将所有要搜索的文本文件放在指定的目录下。扫描指定目录下所有文本文档
2.对文件进行预处理,干掉分词,停用词
3.构建倒排索引。比如那个哈希表记录,key是词,value是包含这个词的文档
4.实现搜索
大概是通过这些步骤了。
多路召回:
- “召回”指的是从庞大的数据集合中筛选出与用户查询或兴趣相关的候选内容的过程。
- 作用:召回阶段的目标是快速从海量数据中挑选出可能相关的内容,供后续的排序和推荐
并行使用多种召回策略,能够全面覆盖用户需求,提高召回率,增强结果多样性
场景描述:
用户在短视频平台上观看了一些烹饪视频,平台希望向他推荐更多感兴趣的内容。
1. 召回策略
策略一:基于内容的推荐
- 原理:推荐与烹饪相关的视频,如美食制作、美食探店等。
- 优点:直接满足用户当前的兴趣。
- 缺点:可能导致推荐内容单一。
策略二:基于用户行为的协同过滤
- 原理:分析与该用户有相似观看行为的其他用户喜欢的视频,推荐这些视频。
- 优点:可能发现用户潜在的兴趣点。
- 缺点:受群体行为影响,推荐结果可能不够精准。
策略三:热门话题推荐
- 原理:推荐当前平台上热门的话题或挑战视频。
- 优点:增加用户参与度,提升平台活跃度。
- 缺点:与用户个人兴趣匹配度不一定高。
策略四:新创作者内容
- 原理:推荐新晋创作者的优质内容,鼓励内容多样性。
- 优点:丰富平台内容,支持新创作者。
- 缺点:内容质量可能参差不齐。
策略五:多样性探索
- 原理:有意地推荐与用户历史观看不同类型的内容,如旅游、美妆、音乐等。
- 优点:帮助用户发现新的兴趣,防止信息茧房。
- 缺点:如果不感兴趣,可能降低用户体验。
2. 合并与排序
- 合并候选集:将不同策略召回的视频集合并。
- 排序处理:根据用户兴趣匹配度、视频质量、创作者影响力等因素排序。
3. 最终结果
- 为用户呈现一个既符合其兴趣又有一定多样性的推荐视频列表。