021-736039320

我们只用绿色的食品原料

火狐体育官网零食加工厂,只为您的健康着想

本文摘要:荐读 | 如何有效的举行公司名称匹配 本文出自 Tencent CDC 原文地址 https://cdc.tencent.com/2020/08/30/如何有效的举行公司名称匹配/ 来历:转自dataxon公家号 1. 配景及主要问题 项目需要把两个独立的系统通过公司名称的匹配来实现数据买通,个中一个系统的公司数有40万+,另一个系统中需要匹配的公司数3600+,假如直接通过SQL LIKE形式的方式来关联两个系统,发明只有1100多家公司名称可以匹配,假如剩余2500家阁

火狐体育app

荐读 | 如何有效的举行公司名称匹配 本文出自 Tencent CDC 原文地址 https://cdc.tencent.com/2020/08/30/如何有效的举行公司名称匹配/ 来历:转自dataxon公家号 1. 配景及主要问题 项目需要把两个独立的系统通过公司名称的匹配来实现数据买通,个中一个系统的公司数有40万+,另一个系统中需要匹配的公司数3600+,假如直接通过SQL LIKE形式的方式来关联两个系统,发明只有1100多家公司名称可以匹配,假如剩余2500家阁下的公司需要纯人工方式手动匹配,不仅事情量大并且效率低。通过度析bad case发明公司名称难匹配的主要问题有以下两点: 1.1 公司简称形式多样 公司简称往往是人们按照习惯约定而成的,没有尺度的形式。好比 深圳市计较机系统有限公司 的简称是 ,这种用公司全称的某一部门作为简称很容易通过字符串包罗的方式来匹配。

可是许多公司的简称是其它形式,好比 中国银行股份有限公司 的简称是 中行 , 中国石油化工有限公司 的简称是 中石化 ,这种取公司全称中差别部门拼接而来的简称很难直接通过字符串恍惚匹配取得较好的效果。另外有些公司的简称可能存在多种,好比 中国东方航空有限公司 有人简称 东航 ,也有人简称 东方航空。

1.2 简称字数少时错误率高 好比 深圳市阅文教育咨询有限公司 的简称是 阅文 ,可是当拿 阅文 去系统做LIKE形式的匹配时会发明总共有35家带有 阅文 子串的公司全称,部门如下: 北京大 阅文化流传有限公司 成都悦 阅文化流传有限公司 杭州怡 阅文化传媒有限公司 北京鼎 阅文学信息技能有限公司 深圳华 阅文化传媒有限公司 上海亲 阅文化科技成长有限公司 展开全文 北京大 阅文化流传有限公司 成都悦 阅文化流传有限公司 杭州怡 阅文化传媒有限公司 北京鼎 阅文学信息技能有限公司 深圳华 阅文化传媒有限公司 上海亲 阅文化科技成长有限公司 这些匹配的公司全称往往所包罗的匹配子串在语义上是割裂的,可是直接的包罗匹配无法举行语义上的支解,导致匹配的错误率跟着简称字数的减少而升高。2.方案设计 基于以上问题,在处置惩罚公司名称匹配时将事情主要分为了两大部门: 数据清洗,主要通过度词将公司全称拆解并对可能的简称形式举行组合; 恍惚匹配,主要是基于最短编辑间隔算法计较推测的简称和需要匹配的简称的匹配分数,然后通过筛选最高匹配分数来找到最佳的匹配成果。

数据清洗,主要通过度词将公司全称拆解并对可能的简称形式举行组合; 恍惚匹配,主要是基于最短编辑间隔算法计较推测的简称和需要匹配的简称的匹配分数,然后通过筛选最高匹配分数来找到最佳的匹配成果。以下为各部门事情的具体先容: 2.1 形式化暗示公司全称 公司名称一般由地域( Region)、关键词( X)、行业( Industry)和公司后缀( Org_Suffix)四部门构成。好比 深圳市万网博通科技有限公司 ,地域为 深圳市 、 万网博通 是关键词、 科技 是行业词, 有限公司是 公司后缀,这样我们就可以用 RXIO暗示此公司的名称布局。

其他布局的公司名称也可以用雷同的方式暗示,好比: 2.2 构造可能的简称形式 有了公司全称的形式化暗示后,下一步是推测其可能的简称布局。好比 中国移动有限责任公司 的简称是 中移动 就可以暗示为 RXO => R[1-1]X,个中R[1-1]代表取第一个地域分词的第一个字; 又好比 中国联通有限责任公司 的简称是 中国联通 可以暗示为 RXO => RX, 这样我们就获得了 RXO 这种形式公司全称可能的简称形式有 R[1]X 和 RX 两种形式。

依此类推,通过对部门公司全称对应的简称形式的统计,我们就可以获得一份法则用来暗示差别形式化布局的公司全称可能对应的简称形式: 同时也可以不停向内里添加新的法则,当把 2.1步骤得到所有公司全称形式化暗示的数据应用这些法则后,就可以获得一份每个公司全称对应的可能的简称形式,如图所示: 2.3 最短编辑间隔匹配 有了公司全称的所有可能简称组合后,就可以通过字符串相似度算法来计较他们的匹配度,假如匹配分数到达必然的阈值就可以认为是匹配的。常用的字符串相似度算法有最短编辑间隔算法和余弦相似度算法,这里的匹配使用了最短编辑间隔的算法实现。关于最短编辑算法的先容如下: Minimum Edit Distance(最短编辑间隔)算法 任给两个字符串X 和Y,使用以下三种操作将字符串X变到字符串Y : 插入(Insert)操作,价格为1; 删除操作(delete),价格为1; 替换操作(substitute),价格为2,这里是Levenshtein Edit Distance,其他算法中替换操作的价格和其他两类操作一样(为1); 好比 ”intention” 酿成 “execution” 执行了三次替换,一次删除,一次插入,因此这两个单词的最短编辑间隔是8(图示如下)。

更多参考: https://web.stanford.edu/class/cs124/lec/med.pdf 详细的编程实现可参考: https://www.geeksforgeeks.org/edit-distance-dp-5/ Minimum Edit Distance(最短编辑间隔)算法 任给两个字符串X 和Y,使用以下三种操作将字符串X变到字符串Y : 插入(Insert)操作,价格为1; 删除操作(delete),价格为1; 替换操作(substitute),价格为2,这里是Levenshtein Edit Distance,其他算法中替换操作的价格和其他两类操作一样(为1); 插入(Insert)操作,价格为1; 删除操作(delete),价格为1; 替换操作(substitute),价格为2,这里是Levenshtein Edit Distance,其他算法中替换操作的价格和其他两类操作一样(为1); 好比 ”intention” 酿成 “execution” 执行了三次替换,一次删除,一次插入,因此这两个单词的最短编辑间隔是8(图示如下)。更多参考: https://web.stanford.edu/class/cs124/lec/med.pdf 详细的编程实现可参考: https://www.geeksforgeeks.org/edit-distance-dp-5/ 算出最短编辑间隔后,可以按照他们字符串的长度计较其相似度,公式如下: 相关代码如下: 有了相似度计较公式,就可以对一家公司名所有可能的简称形式别离与待匹配公司名计较相似度,然后取分数最高者作为两家公司最终的匹配分数,效果如图: 3. 问题与改良3.1 最短编辑间隔匹配的问题 在check匹配分数时会发明有些公司的匹配成果明明差池,可是他们的匹配分数很高的现象。好比 深圳市麟云科技有限公司 的简称推测是 麟云科技 时与 云遥科技 的相似度最高,匹配得分是92分。

火狐体育全站app

而 云遥网络科技(上海)有限公司 的简称 云遥网络 与 云遥科技 的了解度匹配得分只有83分。很明明纯真的使用最短编辑间隔来计较公司名称的相似度忽略的 公司名称各部门权重的差别,导致 科技 比 云遥 关键字的匹配一样或更重要。

3.2 改良最短编辑间隔匹配 针对纯真使用最短编辑算法匹配无法反映语意上的相似性,在匹配时引入了对公司名称各部门权重的计较。同样的编辑间隔,假如权重越高的词匹配则匹配度越高。好比 云遥网络科技(上海)有限公司 和 深圳市麟云科技有限公司 在分词时已经标注了关键词、行业词和地名词,假如所示: 在匹配时先别离计较每个部门的匹配分数,然后根据 8:1:1 的权重分派计较最终的加权匹配分数,这样就批改了直接匹配时的不足,让关键词部门匹配分数越高的公司最终的匹配分数越高: 3.3 晋升效果 比拟本来SQL LIKE形式只匹配了1100+家公司,这种方案在此基础上新增了匹配分数为 100 分的456家,匹配分数在 90 分以上的789家,匹配分数在 80 分以上的1810家。4. 不足与偏向 此种方案主要是在字符串恍惚匹配的基础上做了语义化的拆分和加权匹配,它的效果依赖于前期分词和形式化分类的优劣,假如不能正确的根据语义把公司名称拆分并归类到差别的分类中,后面的加权匹配效果就会大打折扣。

跟着人工智能的成长,基于深度进修的语义匹配已成为NLP范畴基础技能,也可以参考这方面的技能。5. 总结与沉淀 本文需要解决的是公司简称和全称之间的匹配问题,传统的字符串恍惚匹配在匹配字符数量相差很大的环境下凡是得分很低(简称长度凡是在2~6个字符,全称则凡是是10个字符以上)。

针对此问题本文总结了一些方式和方法来提高匹配率,主要包括如下四个步骤: 形式化暗示公司全称。对公司全称举行分词并按照各部门的词性形式化的暗示公司名称布局( RXIO)。推测可能的简称形式。

按照既定的法则剖析出全称可能的简称形式,作为待匹配项。所有待匹配项和简称举行加权恍惚匹配。匹配时按照最短编辑间隔计较 XIRO 各部门的匹配分数,再根据每个部门的权重计较最终的加权匹配分数,减少非关键词部门对匹配分数的影响。

选择所有匹配中的最高分作为此全称和简称匹配的最终得分。所以在碰到传统单独字符串恍惚匹配无法有效解决匹配问题时,实验通过度词与自界说法则组合,再联合字符串恍惚匹配和加权系数,可能取得较好的效果。

参考资料 [1] jieba: https://github.com/fxsjy/jieba 返回,检察更多。


本文关键词:荐读,荐读,如何,有效,火狐体育app,的,举行,公司,名称,匹配

本文来源:火狐体育官网-www.xhml999.com