同义词

词干提取是通过简化他们的词根形式来扩大搜索的范围,同义词通过相关的观念和概念来扩大搜索范围。也许没有文档匹配查询 “英国女王“ ,但是包含 “英国君主” 的文档可能会被认为是很好的匹配。

用户搜索 “美国” 并且期望找到包含 美利坚合众国美国美洲 、或者 美国各州 的文档。然而,他们不希望搜索到关于 国事 或者 政府机构 的结果。

这个例子提供了宝贵的经验,它向我们阐述了,区分不同的概念对于人类是多么简单而对于纯粹的机器是多么棘手的事情。通常我们会对语言中的每一个词去尝试提供同义词以确保任何一个文档都是可发现的,以保证不管文档之间有多么微小的关联性都能够被检索出来。

这样做是不对的。就像我们更喜欢不用或少用词根而不是过分使用词根一样,同义词也应该只在必要的时候使用。这是因为用户可以理解他们的搜索结果受限于他们的搜索词,如果搜索结果看上去几乎是随机时,他们就会变得无法理解(注:大规模使用同义词会导致查询结果趋向于让人觉得是随机的)。

同义词可以用来合并几乎相同含义的词,如 跳越 或者 单脚跳行 ,和 小册子传单 或者 资料手册 。或者,它们可以用来让一个词变得更通用。例如, 可以作为 猫头鹰鸽子 的通用代名词,还有, 成人 可以被用于 男人 或者 女人

同义词似乎是一个简单的概念,但是正确的使用它们却是非常困难的。在这一章,我们会介绍使用同义词的技巧和讨论它的局限性和陷阱。

TIP:同义词扩大了一个匹配文件的范围。正如 词干提取 或者 部分匹配,同义词的字段不应该被单独使用,而应该与一个针对主字段的查询操作一起使用,这个主字段应该包含纯净格式的原始文本。在使用同义词时,参阅 most-fields 的解释来维护相关性。