建议的解决方案 在验证标签传播时,我们需要解决一些基本(表面)问题。我们需要有效地评估数据库中的每个标签,并将它们分组以进行进一步处理。首先,我们确定标签的质量(,拼写是否正确,是否商业化,是否用于许多产品),其次,我们确定是否存在另一个具有更高质量的类似标签。
识别好的标签:我们将好的
标签定义为有意义的,并且很容易在搜索结果中作 海外数据 页面。它还包括“主”标签的标识来表示相似术语的组。 识别坏标签:我们希望隔离由于拼写错误、重复、格式错误、太多歧义或低质量页面而不应出现在我们的数据库中的标签。
将坏标签与好标签结合起来:
我们假设许多最初的“坏标签”可能有一系列变体,例如复数/单数、技术/俚语、连字符/非连字符、词形变化和其他词干。也可能有两个短语指代同一事物,例如“约克城船”与“约克城号航空母舰”。
我们需要识别每个“坏”标签
的这些关系。 对于启发这篇文章的项目,我们的示例 最受欢迎的外包工作类型 标签数据库包含超过 2,000,000 个“独特”标签,这使得手动完成这几乎是不可能的壮举。尽管理论上我们可以利用机械 Turk 或类似平台来执行“手动”审查,但这种方法的初步测试被证明是不成功的。
我们需要一个编程方法(实际上是几种方法),稍后在添加新标签时可以重现该方法。 方法 为了识别好标签,标记坏标签,将坏标签链接到好标签,我们使用了十几种方法,包括:拼写纠正、出价值、标签搜索量、唯一访问者、标签计数、波特词干、限制、杰卡德指数、平面距离、杰卡德指数。
维基百科消歧,以及使用
K-Means 词向量进行聚类。每种方法都帮助我们确定 人工智慧文本 标签是否有价值,如果没有,则帮助我们识别有价值的替代标签。 拼写纠正 方法:用户生成内容的明显问题之一是拼写错误。我们经常会发现拼写错误,其中字母“L”的分号被移动,或者单词的开头或结尾有非预期的字母。
幸运的是,Linux 有一个优秀的内置拼写检查器,称为 Spell,我们可以用它来解决大量问题。 优点:这提供了快速、早期的胜利,因为当它们包含字典中未包含的单词或根本无法理解的字符(例如单词中间的分号)时,很容易识别出错误的标签。
此外,如果正确的单词
或短语出现在标签列表中,我们可以信任正确的短语作为可能的好标签,并将拼写错误的术语与好标签相关联。因此,这种方法可以帮助我们过滤掉坏标签(拼写错误的术语)并找到好的标签(拼写正确的术语)。
局限性:此方法的最大局限性是拼写正确的单词或短语不一定对用户或搜索引擎有用。例如,数据库中的许多标签是多个标签的串联,其中用户用空格分隔其提交的标签,而不是用逗号分隔它们。因此,标签可能包含拼写正确的术语,但在搜索价值方面仍然毫无价值。
此外,词汇也存在相当大的限制,尤其是域名、品牌名称和互联网俚语。为了适应这一点,我们添加了一个个人词典,其中包括 Quantcast 排名前 10,000 个域名的列表、数千个品牌和俚语词典。尽管这很有帮助,但仍然有一些错误的建议需要处理。
例如,尽管“完美”是对
猫图像的流行文化参考,但我们认为“完美”与“完美”是正确的。我们还注意到,一些用户将此表达称为“purrfect”、“purrrfect”、“purrrfect”、“purrfeck”等。
一般来说,这应该是一个非常安全的术语列表。 优点:当与客户一起进行实验工作时,能够向他们展示几乎可以保证改进的场景总是好的。由于我们能够通过将已接收流量的标签标记为良好(在大多数情况下)来保存它们,因此我们可以确保客户更有可能从我们所做的更改中受益,并且任何流量损失的风险都最小。