只有少数相似之处的更流行的术语上

Rate this post

因此，我们必须将该方法的应用限制在。维基百科歧义，可以通过匹配的维基百科文章的存在来证明。局限性：尽管维基百科可以有效地为模糊性提供一致的正式标签，但有时它可能比用户感到舒适的更加乏味。

它可以根据其他信号

（例如每次点击费用或流量方法）运行。例如，“浮桥船手机数据 ”变成“浮桥（船）”，或者“百合”变成“百合”。所有迹象都表明前一种情况最受欢迎，但维基百科的模糊性清楚地表明后者是正确的用法。维基百科还包含非常广泛的术语条目，例如每个数字、年份、字母等，因此简单地应用任何维基百科文章都是允许标签的规则将继续导致标签扩散问题。

使用词向量进行 K 均值聚类方法：

最后，我们尝试使用词嵌入和 k 均值聚类将标签转换为更有意义的标签子集。通常，此过程涉及将标签转换为标记（单个单词），然后通过词性（名词、动词、形容词）对其进行细化，最后对标记进行语言化（“blueshirt”变为“blueshirt”）。

从那里，我们基于嵌入每

个生成的标记数组的向量，将所有标记转换为循序渐进：成功重新发布网站的 9 个阶段自定义 Word2Vec 嵌入模型。我们创建了数据集中每个标签的标签数组和向量数组，然后将 k-means 运行为占标签总数 10% 的质心数量值。

首先我们测试了 30,000 个标签并得到了合理的结果。k-means 完成后，我们拉出所有质心并从自定义 Word2Vec 模型中获得它们最近的亲戚，然后我们将主数据集中的标签分配给它们的质心类别。上面的分类列就是Kmeans选择的质心。

请注意他如何处理“海边”与

“海岸”以及“海滩”与“海岸”的并置。优点：这种方法人工智慧文本似乎可以很好地找到标签及其类别之间的关联，这些关联比基于字符的关联更有意义。 “蓝色衬衫”可以与“衣服”组合。如果没有向量空间中发现的语义关系，这显然是不可能的。

限制：最终，我们面临的

主要限制是尝试在全部 200 万个标签上运行 k-means，最终得到 200,000 个类别（质心）。 Sklearn for Python 允许多个并发作业，但仅限于初始化质心，在本例中为 11 – 这意味着即使您在 60 核处理器上运行，并发作业的数量仍然受到初始化数量的限制，在本例中再次为 11。

它可以根据其他信号

使用词向量进行 K 均值聚类方法：

从那里，我们基于嵌入每

请注意他如何处理“海边”与

限制：最终，我们面临的

相關文章