什么什么事什么作用?
举个例子 假设你要在百度上搜索「什么是 X 原理」,其中「X 原理」就是关键词;而「什么是」和「X 原理」之间相互的作用,就是搜索引擎算法中的“语义相关”。 以百度的搜索结果为例(因为不是原创图片,所以打了马赛克),搜索结果中,前几条都是符合“X 原理”这个内容的,而且读起来似乎也挺通顺的,那就是“语义相关”得分的表现。
接下来,再来看看“语义相关”的另一个重要指标——n-gram 语料库。这是从 2014 年起开始使用的搜索新算法,其中 n 的取值是文档中词语出现的最大个数。例如一个句子中有 3 个词语是被检索词,那么这个词的出现次数也就是3,如果是5个,那么这个词出现次数就是5了……依此类推。 当用户输入一个查询语句时,系统会先切分这个语句,得到多个单词或短语,然后找出所有以这些切分词语为部分的记录。比如下图是一个搜索结果列表,可以看到每条结果的标题都包含有查询字符串,当查询字符串中某个词语出现频率高,并且与其他词语配合得体的话,那么这个页面就会在检索结果里排名靠前。
当然,要计算一个网页与查询之间的相关性,需要考虑的问题还有很多,上面只是对“语义相关”比较浅显的解释。现在比较有代表性的搜索引擎除了百度之外,还有谷歌(Google)和爱奇艺(iQiyi)等,它们计算的“相关性”标准可能各有不同,但“语义相关”应该是其中一个重要的评判标准。