对术语“pony”和“ponies”运行的波特程序将返回词干“pony”作为词干,然后可以使用该词干对术语进行分组以进行进一步分析。您还可以对句子运行 porter 词干分析。例如,“船事故”、“船事故”、“船事故”等共用词干“船事故”。
这可能是一种粗略
Porter Steaming 还能够更温和 电话号码资源 文本,而其他 Steamer 可能对我们的工作过于激进。例如,兰卡斯特蒸船将“lady”缩写为“female”,而波特蒸船则将其保留为“female”。
局限性:词干提取的目
的是找到术语和短语的共同词根,并且不会产生任何 外包能让公司做什么? 术语正确形式的指示。波特词干方法对英语应用一组固定的规则,通过删除尾随的“s”、“e”、“ance”、“ing”和类似的词尾来尝试找到词干。
为了让它发挥作用
您需要拥有所有正确的规则(和例外)才能在所有情况下获得正确的词干。对于以 S 结尾但不是复数的单词(例如“billiards”或“brussels”),这可能尤其困难。此外,该方法无助于映射诸如“启动崩溃”、“崩溃启动”、“启动事故”等相关术语,这将导致“启动崩溃”、“崩溃启动”和“启动轴”。
局限性 方法:限制的作用
类似于词干提取。然而,词形还原不是使用设定的规 人工智慧文本 则通过删除到达单元格的字母来修改单词,而是尝试将术语返回到其最简单的字典形式,例如 WordNet 和单词的规范“引理”。思考限制的一个粗略方法就是简化一个词。
这是一个可供查看的 API
优点:这种方法通常比茎法效果更好。诸如“ship”、“sent”和“ship”之类的术语以这种方式映射到“ship”,而“shaping”或“shaper”等尽管词干相同但含义不同的术语则被保留。
您可以从短语创建一个“引理”数组,将其与解决词序问题的其他短语进行比较。事实证明,这是一种比词干提取更可靠的变体分组方法。 局限性:与许多方法一样,上下文可能很难映射到相关术语。语言调整可以为上下文提供更精细的过滤器,但这样做通常依赖于识别单词形式(名词、形容词等)以正确映射到根术语。