3个杠杆,让内容营销价值放大N倍( 三 )


TF–IDF的算法就是把每一个词的词频 , 乘以IDF的值 , 得出一个分数 。 总分数越高的关键词 , 排名越靠前 。 举个例子:「小红书成为品牌方口碑营销根据地」 , 我们把他改成「小红书品牌营销成为了品牌方营销的根据地」 。 看起来差不多 , 但第一个句子品牌、口碑、营销各出现一次 , 第二个句子品牌、营销出现了2次 。 如果在简单的搜索引擎中 , 「品牌营销」的搜索结果 , 将会优先出现第2个句子而非第1个句子 。
这里还需要提一下 , 在实际的应用中 , BM25模型会更多 , 和TF-IDF的差异在于有很多因子可以调节:文章的长短递减参数(文章越长、词频叠加分数递减)、各种经验参数的平滑等等 , 因此千万不要死杠数值 , 而是要理解逻辑和积累经验 。
3个杠杆,让内容营销价值放大N倍】2.TextRank算法 。 想象一下这样的一个段落:「1月20日下午 , 赵老师与加玮在数字营销方面展开了讨论 , 赵老师面色红润 , 讨论得十分开心 。 这次关于数字营销的讨论结束后 , 赵老师还给群友发了红包 。 」如果按照TF–IDF来计算 , 这段里面提取的重点词是赵老师(出现了3次) , 其次是讨论(出现3次) 。