微博|人工智能技术创新，赋能微博内容理解与分发( 三 ) 推荐系统|算法

有了标签体系后，打标签具体是怎么做的呢？简单的说，我们采用 FastText+Bert 结合的方案。
大家都知道FastText和Bert各自有各自优势，也有他们的缺点， FastText速度快但是效果不够好， Bert效果好但是速度慢。
我们针对高质量的博文直接使用 Bert ，其他的博文先经过 FastText ，标签得分足够高，则认为结果已经比较好了，不再使用 Bert进行处理；若得分不够高，则使用 Bert 再预测一次。这样，可以利用FastText速度快和，又利用了Bert效果好的优点，兼顾速度和效果。
除此以外，我们还会对微博的吸引力，实效性，质量得分，是否是广告，以及情感也会做进一步的分析和建模等等
另外一项很重要的文本理解的工作是话题模型。用户在发微博的时候，很多人喜欢用双#号括起一句话来作为这条微博的主题，我们内部把这个叫做“话题” 。
尽管很多用户在发微博的时候，会主动加上某个话题，但是更多微博内容其实是没有“话题”信息的。所以我们希望通过技术手段，来自动给那些不带“话题”的微博自动加上一个“话题“ 。这就是话题模型。
那怎么做的呢？我们在这里就用到了”对比学习“ ， “对比学习”是最近几年兴起的自监督学习方法，也就是说不需要人工标注样本，算法模型通过自动构造训练样本来学习。
简单的说，我们把带话题的微博拆分为微博正文和微博话题，把这两个放一起，作为正例，随机选取其它不同话题的微博正文作为负例，然后使用Bert分别对正文和话题进行语义编码，在编码后的投影空间将正例距离拉近，负例距离推远，这样我们就训练好一个模型。
当训练好模型后，在推理的时候，对于不带“话题”的微博内容，输入文本信息到Bert ，模型对微博内容进行编码，然后去匹配最相似的话题内容，这样就可以给这条新微博，加上了一个相对比较精准的话题。
除了文本理解，微博在图片理解方面所做的比较重要一项的是明星识别。“明星-粉丝”关系是微博生态的重要组成部分，所以识别图片中出现的是哪位明星，在微博应用场景下就很有实用价值。
微博先人工标注一批明星的图片数据，构建一个包含数百位微博流量明星的知识库，输入一张图片后，首先进行人脸检测，之后使用比较成熟的人脸识别技术对明星进行识别，人脸检测和人脸识别技术相对比较成熟，所以相应的识别准确率比较高，性能也很不错。
对图像理解另外一个很重要的应用是智能裁剪。现在大家都是用手机刷微博，很多微博都带多张图片的，因为手机的展示界面空间有限，往往会对图片进行一些裁剪，然后再展示给用户。
我们早期的图片裁剪方法比较简单，只是裁剪出图片的中心区域，很多时候，这种简单策略效果不太好，像左边这几张图，如果只裁剪出图片的中心区域，常常会将人脸等重要区域给剪掉，给用户的观感很不好。
针对这个问题，我们开发了智能裁剪技术，通过人工智能识别出图片中的重要区域，例如人脸区域，这样在裁剪图片的时候，尽量保留这些比较重要的区域。这项功能上线后，一些运营的关键指标取得了很大提升。
微博的文本理解、图像理解，这些都是内容理解中最基础的工作，内容理解还有一项非常重要的工作就是-多模态预训练模型，这能促进微博内容深度融合。
微博内容中包含了越来越多的图像和视频内容。要想搞明白一个微博到底在说什么，仅仅理解文本内容，或者仅仅理解图片内容是不够的，我们需要采用多模态理解技术，融合文本、图像、视频等多种媒体信息。这里微博采用的是“对比学习”技术。