这三个环节形成漏斗 , 越往后的环节 需要参与排序的内容数量越少 , 精准度越高 。 过程中难免产生不一致问题 。 具体来说 , 前面召回的物料并不是后续粗排和精排真正需要的 。
在这里 , 微博采用“知识蒸馏”来解决链路一致性问题 。 如图所示 , 我们让精排模型作为“老师” , 召回或者粗排模型作为“学生” , 让精排指导召回模型的训练 , 这样召回模型就能学会精排模型的排序偏好 , 召回模型能和精排模型保持大体上一致 , 也就是说 , 召回模型召回的物料 , 基本上能满足后续排序的期望 。
知识蒸馏增强推荐链路一致性 , 我们做过相应的实验 , 效果还不错 。
在微博推荐系统中 , 强化学习增加推荐多目标个性化融合很关键 。
做人工智能 , 很重要的一个工作 , 就是找到一个可量化的优化目标 , 也就是loss函数 。 对于推荐系统来说 , 点击率是大家很容易想到的优化目标 。 在具体的业务中 , 点击率很重要 , 但仅仅是点击率是不够的 。 微博有个很有特色的指标是 , 互动率 。 也就是用户转、评、赞这条微博的概率 。 当然还有用户时长目标 。 这一点也很重要 。 几乎所有的互联网产品都在竞争用户时长
所以 , 一个成熟的推荐系统需要解决一个多目标问题
那么问题来了 , 这么多目标怎么融合?我们一般会采用加法融合、乘法融合 , 或者既有加法 , 也有乘法 。 当然我们肯定不是简单的相加或者相乘 。 这些融合是有参数的 。
接下来的问题就是怎么调参了 。 最简单粗暴的方法是指定参数 , 比如都是1 。 还有一些做法就是 , 固定其他参数 , 一次只调一个参数 , 达到最优后 , 再用同样的方法调整另外的参数
这样的方法虽然简单 , 但问题是效率低 , 需要做大量的实验 , 全凭人工经验 , 所以 , 有人调侃算法工程师为调参工程师 。
微博的最新做法就是用强化学习来调参 。 具体来说的话 , 首先把推荐的流量用正交的方法分成很多小流量 , 然后每组实验带来的收益作为强化学习的reward , 来训练强化学习模型 。 这样经过多轮多次小流量实验 , agent基本上能学到一个比较好的参数 。
当然这种做法也有不足之处 , 最大的问题是 , 互联网产品讲究小步快跑 , 没有那么多时间和资源给我们大量的实验 , 因此强化学习的样本不会太多 。
【微博|人工智能技术创新,赋能微博内容理解与分发】所以 , 我们面对的很大的挑战就是怎么用有限的资源 , 有限的时间来高效的学习一个更好的参数 。 这个问题希望有机会和大家进一步探讨 。
- 足球|“C罗碰到球了吗”上热搜 网友造新词“上帝之发”!本人微博发声
- 钛媒体|观察周刊|加强5G、人工智能、工业互联网等数字基础设施建设
- 人工智能时代,和AI谈恋爱会更幸福吗?
- 微博|千元左右的智能手表!OPPO Watch SE发布新配色
- MySQL|元宇宙六大核心技术如何落地?人工智能技术呈现高密集度发展
- 足球|王冰冰更新微博:已经搞懂越位、点球、任意球和角球了
- 小米|未发先火 小米13冲上微博热搜榜:雷军称“前所未有的惊艳”
- 成都|让人工智能更聪明,成都拟借游戏驱动AI新一轮技术变革
- 启晟汇分析人工智能的发展方向与前景
- 微博|月活5.8亿,微博电商在拼命挣扎