假设所有单词都是形容词形式

Rate this post

鉴于用户生成内容的不一致，（描述产品）或名词形式（产品本身）是错误的。这种不一致会产生疯狂的结果。例如，“条纹袜子”可能旨在作为带有彩色条纹的袜子的标签，例如“条纹袜子”，或者它可能是“条纹袜子”或一些其他打底裤，只有在比较其他产品和标签的上下文时才会发现。

此外它不会在所有相

关单词之间建立联系，而只会在文本派生电报数据建立联系，因此您仍在寻找邮递员、快递员、托运人等之间的规范。杰卡德指数方法：杰卡德指数是通过并集交集来衡量的相似系数。现在，先别得意忘形，它实际上非常简单。

想象一下你有两堆弹珠

每堆有 3 个弹珠：第一堆是红色、绿色和蓝色，第二堆是红色、绿色和黄色。这两个堆栈的“交集”将是红色和绿色，因为两个堆栈都有这两种颜色。 “联合”将是红色、绿色、蓝色和黄色，因为这是所有颜色的完整列表。

Jaccard 指数将为 2（红色和绿色）除以 4（红色、进行研究并起草新鲜内容绿色、蓝色和黄色）。因此，这两堆的 Jaccard 指数将为 0.5。 Jaccard 指数越高，两个集合越相似。那么这和标签有什么关系呢？好吧，假设我们有两个标签：“海洋”和“海洋”。

我们可以获得所有带有“

ocean”和“ocean”标签的产品的列表。最后，我们得到这两个集合的Jaccard指数。分数越高，它们就越相关。也许我们发现70%带有“sea”标签的产品也带有“sea”标签。现在我们知道两者有很好的关系。

然而，当我们进行相同的测

量来比较“地下室”或“平开窗”时，我们发现它们的杰人工智慧文本卡德指数仅为 0.02。虽然它们的字符非常相似，但它们的含义却完全不同。我们可以排除将这两个术语映射在一起的情况。优点：使用 Jaccard 索引的主要优点是它允许我们找到高度相关的标签，这些标签可能不具有完全相同的共同文本特征，并且更有可能具有过度相似或重复的结果集。

虽然到目前为止我们考虑

的大多数指标都可以帮助我们找到“好”或“坏”标签，但 Jaccard 索引可以帮助我们找到“相关”标签，而无需进行任何复杂的机器学习。局限性：虽然 Jaccard 索引方法确实有用，但它也有其自身的问题。

我们遇到的最大问题是标签几乎总是一起使用但不可互换。例如，考虑标签“Bab Ruth”和她的昵称“Sultan of Swat”。后者标签仅出现在也带有“Bab Ruth”标签（因为这是她的昵称之一）的产品上，因此它们具有相当高的提花指数。

此外它不会在所有相

想象一下你有两堆弹珠

我们可以获得所有带有“

然而，当我们进行相同的测

虽然到目前为止我们考虑

相關文章