同义词挖掘的一些常用方法及同义词替换程序

先谈谈同义词挖掘的一些常用方法在用户使用搜索引擎的过程中，由于地区差异、文化水平等差异，用户所输入的query很多时候和资料中的描述不一致。这种情况下，为了能够召回更多的文档向用户展示，搜索引擎需要对用户的输入做同义词、纠错、归一化等操作。在进行这些操作的过程中，同义词的挖掘是一个基础工作。下面简单介绍一下几个简单实用的算法。从百度词典、金山词霸的词条中抓取数据，根据原词的描述和解释提

04月07日, 2024

佚名

先谈谈同义词挖掘的一些常用方法

在用户使用搜索引擎的过程中，由于地区差异、文化水平等差异，用户所输入的query很多时候和资料中的描述不一致。这种情况下，为了能够召回更多的文档向用户展示，搜索引擎需要对用户的输入做同义词、纠错、归一化等操作。在进行这些操作的过程中，同义词的挖掘是一个基础工作。下面简单介绍一下几个简单实用的算法。

从百度词典、金山词霸的词条中抓取数据，根据原词的描述和解释提取同义词。这种算法简单有效，但是挖掘出来的同义词通常比较书面语。

从百度百科、搜搜百科等百科网站抓取词条，在词条中，有“又叫”“别名”等特征词，从这些特征词之后可以提取该词条的其他说法。百科挖掘出的词条通常质量比较高。

元搜索数据中，原始Query和其召回的文档存在一定的关系，有些是元搜索引擎做了同义替换或者非必留召回的结果。在这些结果和原始query做term对齐，从中可以挖掘出来其中隐含的同义词，为了提高召回的同义词的准确率，可以做一些处理：

1. 带有相同字的term

2. 飘红的term

3. 简写到全称

4. 上下位位置信息

在所有的文档中，如果两个term经常在相同的上下文下出现，那么这两个词是同义词的可能性较大。基于这个假设，

1. 对文档进行分词，统计每个term的上下文，根据一定的策略对上下文进行剪枝。

2. 把剪枝之后的上下文作为每个term的特征向量，求term之间两两的夹角余弦。

3. 提取余弦值比较高的作为候选同义词。

这种算法挖掘出的同义词会出现一些相关词但不是同义词的词对，因此这部分同义词通常需要一个人工审核的步骤。

在一个完备的检索系统中，会记录点击日志和用户的session日志。此外，还有不同的anchor指向同一个url。通过这些数据进行语料对齐，可以挖掘出来很多同义词：

1. Query<>Query对齐：点击了相同URL的Query

2. Query<>Title对齐：某个Query点击了某个URL

3. Query<>Query对齐：同一个session内的Query，可能是用户的自纠错或者自修改

4. Title<>Title对齐：被同一个Query点击的URL

5. Anchor<>Title对齐：指向了某个URL的Anchor

6. Anchor<>Anchor：指向了同一个URL的Anchor

自然语言数据预处理中经常会涉及到同义词替换，比如计算两个句子的相似度中，把一个词的两个同义词利用同义词替换技术转换为同一个词，那么就提高了相似度计算的可靠性。学习自然语言处理的同学肯定都会做到数据预处理的工作，下面

上一篇: 中共中央国务院关于深化投融资体制改革的意见下一篇:抖音电脑版直播间有购物车吗_抖音电脑版购物车在哪里

同义词挖掘的一些常用方法及同义词替换程序

查询优化器基础知识—SQL语句处理过程

基于TLBO算法的不确定性条件下复杂产品协同设计的可靠性拓扑优化

mindspore.nn.Optimizer

世界银行发表专题报告与全球共享中国优化营商环境改革经验

SEO 测试：一个简单（但完整）的指南

充电

在线手把手教你无水印下载b站视频

如何理解建设现代化经济体系的内涵及其重要意义？

关闭优化电池充电后还是只能充到百分之八十

MPC中关于优化函数的解法总结（一）

美国一懒马下雪天不进屋爱躺着睡觉常被误以为已死

男子野外探险，发现了奇怪金属，专家推测可能来自外星

非洲寿命最长的树木，一次可储100吨水，穷人还能当房子住！

大败局！万人“围攻”ofo总部，独角兽一地鸡毛！

万达继续大甩卖：27亿出清保险，15月减债2158亿，负债还有多少？

这些国家的国庆节竟然是这样庆祝的；只能说有才了