微博|人工智能技术创新,赋能微博内容理解与分发( 三 )


有了标签体系后 , 打标签具体是怎么做的呢?简单的说 , 我们采用 FastText+Bert 结合的方案 。
大家都知道FastText和Bert各自有各自优势 , 也有他们的缺点 , FastText速度快但是效果不够好 , Bert效果好但是速度慢 。
我们针对高质量的博文直接使用 Bert , 其他的博文先经过 FastText , 标签得分足够高 , 则认为结果已经比较好了 , 不再使用 Bert进行处理;若得分不够高 , 则使用 Bert 再预测一次 。 这样 , 可以利用FastText速度快和 , 又利用了Bert效果好的优点 , 兼顾速度和效果 。
除此以外 , 我们还会对微博的吸引力 , 实效性 , 质量得分 , 是否是广告 , 以及情感也会做进一步的分析和建模等等
另外一项很重要的文本理解的工作是话题模型 。 用户在发微博的时候 , 很多人喜欢用双#号括起一句话来作为这条微博的主题 , 我们内部把这个叫做“话题” 。
尽管很多用户在发微博的时候 , 会主动加上某个话题 , 但是更多微博内容其实是没有“话题”信息的 。 所以我们希望通过技术手段 , 来自动给那些不带“话题”的微博自动加上一个“话题“ 。 这就是话题模型 。
那怎么做的呢?我们在这里就用到了”对比学习“ , “对比学习”是最近几年兴起的自监督学习方法 , 也就是说不需要人工标注样本 , 算法模型通过自动构造训练样本来学习 。
简单的说 , 我们把带话题的微博拆分为微博正文和微博话题 , 把这两个放一起 , 作为正例 , 随机选取其它不同话题的微博正文作为负例 , 然后使用Bert分别对正文和话题进行语义编码 , 在编码后的投影空间将正例距离拉近 , 负例距离推远 , 这样我们就训练好一个模型 。
当训练好模型后 , 在推理的时候 , 对于不带“话题”的微博内容 , 输入文本信息到Bert , 模型对微博内容进行编码 , 然后去匹配最相似的话题内容 , 这样就可以给这条新微博 , 加上了一个相对比较精准的话题 。
除了文本理解 , 微博在图片理解方面所做的比较重要一项的是明星识别 。“明星-粉丝”关系是微博生态的重要组成部分 , 所以识别图片中出现的是哪位明星 , 在微博应用场景下就很有实用价值 。
微博先人工标注一批明星的图片数据 , 构建一个包含数百位微博流量明星的知识库 , 输入一张图片后 , 首先进行人脸检测 , 之后使用比较成熟的人脸识别技术对明星进行识别 , 人脸检测和人脸识别技术相对比较成熟 , 所以相应的识别准确率比较高 , 性能也很不错 。
对图像理解另外一个很重要的应用是智能裁剪 。 现在大家都是用手机刷微博 , 很多微博都带多张图片的 , 因为手机的展示界面空间有限 , 往往会对图片进行一些裁剪 , 然后再展示给用户 。
我们早期的图片裁剪方法比较简单 , 只是裁剪出图片的中心区域 , 很多时候 , 这种简单策略效果不太好 , 像左边这几张图 , 如果只裁剪出图片的中心区域 , 常常会将人脸等重要区域给剪掉 , 给用户的观感很不好 。
针对这个问题 , 我们开发了智能裁剪技术 , 通过人工智能识别出图片中的重要区域 , 例如人脸区域 , 这样在裁剪图片的时候 , 尽量保留这些比较重要的区域 。 这项功能上线后 , 一些运营的关键指标取得了很大提升 。
微博的文本理解、图像理解 , 这些都是内容理解中最基础的工作 , 内容理解还有一项非常重要的工作就是-多模态预训练模型 , 这能促进微博内容深度融合 。
微博内容中包含了越来越多的图像和视频内容 。 要想搞明白一个微博到底在说什么 , 仅仅理解文本内容 , 或者仅仅理解图片内容是不够的 , 我们需要采用多模态理解技术 , 融合文本、图像、视频等多种媒体信息 。 这里微博采用的是“对比学习”技术 。