大段文本用什么计算其相似度比较好?

【大段文本用什么计算其相似度比较好?】

大段文本用什么计算其相似度比较好?

文章插图
计算大段文字相似度的好方法是什么?计算大段文字相似度的好方法是什么?导读:如题,目前,有大量的网页抓取文本数据,数据库中约有500万条新闻数据 。找到了一些重复项 。目前有什么好的方法复制它们吗?解决方法:ltpgt