首頁 » 假设所有单词都是形容词形式

假设所有单词都是形容词形式

鉴于用户生成内容的不一致,(描述产品)或名词形式(产品本身)是错误的。这种不一致会产生疯狂的结果。例如,“条纹袜子”可能旨在作为带有彩色条纹的袜子的标签,例如“条纹袜子”,或者它可能是“条纹袜子”或一些其他打底裤,只有在比较其他产品和标签的上下文时才会发现。

此外它不会在所有相

关单词之间建立联系,而只会在文本派生 电报数据 建立联系,因此您仍在寻找邮递员、快递员、托运人等之间的规范。 杰卡德指数 方法:杰卡德指数是通过并集交集来衡量的相似系数。现在,先别得意忘形,它实际上非常简单。

想象一下你有两堆弹珠

每堆有 3 个弹珠:第一堆是红色、绿色和蓝色,第二堆是红色、绿色和黄色。这两个堆栈的“交集”将是红色和绿色,因为两个堆栈都有这两种颜色。 “联合”将是红色、绿色、蓝色和黄色,因为这是所有颜色的完整列表。

Jaccard 指数将为 2(红色和绿色)除以 4(红色、 进行研究并起草新鲜内容 绿色、蓝色和黄色)。因此,这两堆的 Jaccard 指数将为 0.5。 Jaccard 指数越高,两个集合越相似。 那么这和标签有什么关系呢?好吧,假设我们有两个标签:“海洋”和“海洋”。

我们可以获得所有带有“

ocean”和“ocean”标签的产品的列表。最后,我们得到这两个集合的Jaccard指数。分数越高,它们就越相关。也许我们发现70%带有“sea”标签的产品也带有“sea”标签。现在我们知道两者有很好的关系。

然而,当我们进行相同的测

量来比较“地下室”或“平开窗”时,我们发现它们的杰 人工智慧文本  卡德指数仅为 0.02。虽然它们的字符非常相似,但它们的含义却完全不同。我们可以排除将这两个术语映射在一起的情况。 优点:使用 Jaccard 索引的主要优点是它允许我们找到高度相关的标签,这些标签可能不具有完全相同的共同文本特征,并且更有可能具有过度相似或重复的结果集。

虽然到目前为止我们考虑

的大多数指标都可以帮助我们找到“好”或“坏”标签,但 Jaccard 索引可以帮助我们找到“相关”标签,而无需进行任何复杂的机器学习。 局限性:虽然 Jaccard 索引方法确实有用,但它也有其自身的问题。

我们遇到的最大问题是标签几乎总是一起使用但不可互换。例如,考虑标签“Bab Ruth”和她的昵称“Sultan of Swat”。后者标签仅出现在也带有“Bab Ruth”标签(因为这是她的昵称之一)的产品上,因此它们具有相当高的提花指数。

 

返回頂端