开始处理各种语言
Elasticsearch 为很多世界流行语言提供良好的、简单的、开箱即用的语言分析器集合:
阿拉伯语、亚美尼亚语、巴斯克语、巴西语、保加利亚语、加泰罗尼亚语、中文、捷克语、丹麦、荷兰语、英语、芬兰语、法语、加里西亚语、德语、希腊语、北印度语、匈牙利语、印度尼西亚、爱尔兰语、意大利语、日语、韩国语、库尔德语、挪威语、波斯语、葡萄牙语、罗马尼亚语、俄语、西班牙语、瑞典语、土耳其语和泰语。
这些分析器承担以下四种角色:
- 文本拆分为单词:
The quick brown foxes
-> [ The
, quick
, brown
, foxes
]
- 大写转小写:
The
-> the
- 移除常用的 停用词:
[ The
, quick
, brown
, foxes
] -> [ quick
, brown
, foxes
]
- 将变型词(例如复数词,过去式)转化为词根:
foxes
-> fox
为了更好的搜索性,每个语言的分析器提供了该语言词汇的具体转换规则:
英语
分析器移除了所有格's
John's
-> john
法语
分析器移除了 元音省略 例如l'
和qu'
和 变音符号 例如¨
或^
:
l'église
-> eglis
德语
分析器规范化了(((“german analyzer”)))切词, 将切词中的ä
和ae
替换为a
, 或将ß
替换为ss
:
äußerst
-> ausserst