? ?項(xiàng)目中,客戶突然提出需要根據(jù)一份企業(yè)名單查找對應(yīng)的內(nèi)部系統(tǒng)用戶信息,然后根據(jù)直接的企業(yè)社會統(tǒng)一信用號和企業(yè)名稱進(jìn)行匹配,發(fā)現(xiàn)匹配率只有2.86%,低得可憐。所以根據(jù)客戶的要求,需要將匹配率提高到70-80%左右,于是開始了折騰之路。
? ? 上網(wǎng)一查,各種相似度的算法供選擇,簡直是眼花繚亂,感嘆現(xiàn)在python發(fā)展的強(qiáng)大,需要做什么研究都能快速運(yùn)用上各種算法庫,找到的算法有:
1、歐幾里得距離(Eucledian Distance)
歐氏距離是最常用的距離計算公式,衡量的是多維空間中各個點(diǎn)之間的絕對距離。
2、曼哈頓距離(Manhattan Distance)
曼哈頓距離依賴坐標(biāo)系統(tǒng)的轉(zhuǎn)度,而非系統(tǒng)在坐標(biāo)軸上的平移或映射,他是使用在幾何度量空間的幾何學(xué)用語,用以標(biāo)明兩個點(diǎn)在標(biāo)準(zhǔn)坐標(biāo)系上的絕對軸距總和。
3.切比雪夫距離
在數(shù)學(xué)中,切比雪夫距離(Chebyshev distance)或是L∞度量,是向量空間中的一種度量,二個點(diǎn)之間的距離定義是其各坐標(biāo)數(shù)值差絕對值的最大值。以數(shù)學(xué)的觀點(diǎn)來看,切比雪夫距離是由一致范數(shù)(uniform norm)(或稱為上確界范數(shù))所衍生的度量,也是超凸度量(injective metric space)的一種。?
4、明可夫斯基距離(Minkowski distance)
明氏距離是歐氏距離的推廣。閔氏距離不是一種距離,而是一組距離的定義。閔氏距離的定義:兩個n維變量a(x11,x12,…,x1n)與b(x21,x22,…,x2n)間的閔可夫斯基距離定義為:
其中p是一個變參數(shù)。
當(dāng)p=1時,就是曼哈頓距離
當(dāng)p=2時,就是歐氏距離
當(dāng)p→∞時,就是切比雪夫距離
根據(jù)變參數(shù)的不同,閔氏距離可以表示一類的距離。
5、詞袋模型 6、TF-IDF 7、余弦相似度8、Python自帶比較相似度函數(shù)difflib.SequenceMatcher 9、word2vec 10、JS距離 11、simtext?等等... ...
然后最后我們采用的是?Levenshtein,Levenshtein Distance是一個度量兩個字符序列之間差異的字符串度量標(biāo)準(zhǔn),兩個單詞之間的Levenshtein Distance是將一個單詞轉(zhuǎn)換為另一個單詞所需的單字符編輯(插入、刪除或替換)的最小數(shù)量。Levenshtein Distance是1965年由蘇聯(lián)數(shù)學(xué)家Vladimir Levenshtein發(fā)明的。Levenshtein Distance也被稱為編輯距離(Edit Distance)。
?安裝對應(yīng)的庫
# conda install python-Levenshtein
# pip install python-Levenshtein
計算字符串的相似度
漢明距離,要求str1和str2必須長度一致。是描述兩個等長字串之間對應(yīng)位置上不同字符的個數(shù)。
編輯距離,也稱為Levenshtein距離,描述由一個字串轉(zhuǎn)化成另一個字串最少的操作次數(shù),在其中的操作包括插入、刪除、替換。
萊文斯坦比,計算公式 r = (sum - ldist) / sum, 其中sum是指str1 和 str2 字串的長度總和,ldist是類編輯距離
注意:這里的類編輯距離不是2中所說的編輯距離,2中三種操作中每個操作+1,而在此處,刪除、插入依然+1,但是替換+2
這樣設(shè)計的目的:ratio(‘a(chǎn)’, ‘c’),sum=2,按2中計算為(2-1)/2 = 0.5,’a’,'c’沒有重合,顯然不合算,但是替換操作+2,就可以解決這個問題。
?
在實(shí)際操作中,我們應(yīng)用了萊文斯坦比來給不同的企業(yè)名稱打分
第一步:剔除高頻詞,由于通過企業(yè)名稱精確匹配發(fā)現(xiàn)很難匹配到對應(yīng)的用戶名稱,那么很有可能這份企業(yè)名單中的企業(yè)名稱不是那么符合規(guī)范也可能更改了其他后綴、前綴,所以通過剔除高頻詞之后,再進(jìn)行模糊匹配。
#region 第一步
excelname = '*******.xlsx'
LoadPath = excelname #加載excel路徑(這里為相對路徑,excel表與該程序在同一文件夾下就能識別,所以只用excel文件名即可)
#excel表格初始化
book=load_workbook(LoadPath, data_only=True)#加載已有Excel文檔
sheet_current_week_result=book['sheet1']#加載需要的工作簿(這里為excel表中的sheet工作簿)
# 剔除企業(yè)高頻詞
w = 1
w = w + 1
while w <= sheet_current_week_result.max_row:
strreplace = sheet_current_week_result['A'+str(w)].value
for qy_gpc in ['有限公司','**省','科技','供應(yīng)站','分公司','有限責(zé)任','有限','貿(mào)易','湖南','公司']:
strreplace = strreplace.replace(qy_gpc,'')
sheet_current_week_result['E'+str(w)].value = strreplace
print(w)
w = w + 1
book.save(LoadPath)
#endregion
第二步:模糊匹配,根據(jù)剔除后的企業(yè)名稱與內(nèi)部系統(tǒng)的用戶名進(jìn)行模糊匹配,可能得到一個企業(yè)名稱對應(yīng)多個用戶名的情況,這樣才需要我們的第三步,用戶名稱相似度排名打分,當(dāng)然第二步中我們可能獲取到完全匹配的名稱,我們需要另外存放起來。
#region 第二步
df = pd.read_excel('***.xlsx', sheet_name='sheet1')
df.index = range(1,len(df)+1)
df = df[:len(df)+1]
df = df.values.tolist()
all_zbdc = []
zbdc_tup = []
for row in df: # 2. 將剔除后的企業(yè)名稱、匹配后用戶名稱完全相等的記錄找出來,得到表AllMate
qy_nm,qy_area,qy_code,qy_bs_scope,qy_tc_gpc,qy_mate_nm = row
zbdc = row[0]
res_zbdc = []
flag = True
if qy_nm == qy_mate_nm:
res_row = [qy_nm,qy_area,qy_code,qy_bs_scope,qy_tc_gpc,qy_mate_nm,100,1,Levenshtein.ratio(qy_nm, qy_tc_gpc) * 100]
print(res_row)
all_zbdc.append(res_row)
flag = False
if flag:
zbdc_tup.append([qy_nm,qy_area,qy_code,qy_bs_scope,qy_tc_gpc,qy_mate_nm])
df = pd.DataFrame(all_zbdc)
df.to_excel('AllMate.xlsx', sheet_name='mate', index=False)
#endregion
第三步:相似度排名打分文章來源:http://www.zghlxwxcb.cn/news/detail-650871.html
#region 第三步
print(len(zbdc_tup))
res = []
for row in zbdc_tup:
qy_nm,qy_area,qy_code,qy_bs_scope,qy_tc_gpc,qy_mate_nm = row
res_zbdc = []
strreplace = qy_mate_nm
for qy_mate_gpc in ['有限公司','**省','科技','供應(yīng)站','分公司','有限責(zé)任','有限','貿(mào)易','**','公司']:
strreplace = strreplace.replace(qy_mate_gpc,'')
d_n = intersection(strreplace, qy_tc_gpc)
sim = max(Levenshtein.ratio(strreplace, d_n),Levenshtein.ratio(qy_tc_gpc, d_n))
res_row = [qy_nm,qy_area,qy_code,qy_bs_scope,qy_tc_gpc,qy_mate_nm,strreplace,sim * 100]
res_zbdc.append(res_row)
res.append(get_top3(res_zbdc))
df = pd.concat(res)
df.to_excel('SimilarMate.xlsx', sheet_name='mate', index=False)
#endregion
涉及到的自定義函數(shù):文章來源地址http://www.zghlxwxcb.cn/news/detail-650871.html
def intersection(string1, string2):
return [cha for cha in string2 if cha in string1]
def get_top3(datas:list):
df = pd.DataFrame(datas,columns=["企業(yè)名稱","區(qū)塊","統(tǒng)一社會信用代碼","經(jīng)營范圍","企業(yè)匹配結(jié)果名稱","企業(yè)匹配結(jié)果名稱剔除高頻","名稱相似度"])
df = df.sort_values("名稱相似度",ascending=False)
df.index = range(1,len(df)+1)
df = df[:3]
df['相似度排名'] = df.index
all_sim = []
for i in range(len(df)):
row = df.iloc[i].to_list()
all_sim.append(Levenshtein.ratio(row[0], row[3]) * 100)
df['全名相似度'] = all_sim
print(df)
return df
到了這里,關(guān)于python實(shí)現(xiàn)文本相似度排名計算的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!