国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<center id="bbwio"></center>

分詞算法----正向和逆向最大匹配算法(含Python代碼實(shí)現(xiàn))

2年前作者：Gaolw1102分類：Toy博客閱讀(26)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了分詞算法----正向和逆向最大匹配算法(含Python代碼實(shí)現(xiàn))。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

分詞算法(Segmentation Method)

在文本處理流程中，對(duì)語(yǔ)句進(jìn)行分詞（Segmentation）操作對(duì)于計(jì)算機(jī)認(rèn)識(shí)并理解人類語(yǔ)言是基礎(chǔ)且重要的。

對(duì)于中文來(lái)講，不同于英文直接采用空格符進(jìn)行分隔，并且中文詞語(yǔ)內(nèi)涵豐厚，語(yǔ)義豐富，所以只有采用合適的分詞算法，才能準(zhǔn)確迅速地向計(jì)算機(jī)表達(dá)原有的意思，提高工作效率。

最大匹配算法(Maximum Matching)

最大匹配算法是基于詞表進(jìn)行分詞操作的，主要包括正向正向最大匹配算法、逆向最大匹配算法、雙向最大匹配算法等。其主要原理都是切分出單字串(詞語(yǔ))，然后和詞庫(kù)進(jìn)行比對(duì)，如果對(duì)比成功就記錄下來(lái)，從整句切除下來(lái)，否則減少一個(gè)單字，繼續(xù)比較，直到字符串全部切除完畢，即分詞成功，數(shù)組中的所有詞語(yǔ)即是分詞結(jié)果。

以下詳細(xì)介紹算法的主要思想及具體代碼實(shí)現(xiàn)。

需要的前提

進(jìn)行匹配算法的執(zhí)行前，一定自己要設(shè)定一個(gè)字典庫(kù)，通常作為測(cè)試即可。
這里我自己使用
字典庫(kù)

ch_dict = [‘我們’,‘經(jīng)?！?‘有’,‘有意見(jiàn)’,‘意見(jiàn)’,‘分歧’]

測(cè)試語(yǔ)句

sentence = ‘我們經(jīng)常有意見(jiàn)分歧’

最大匹配值

max_match_len = 5

正向最大匹配算法(Forwards Maximum Match，F(xiàn)MM)

算法主要思想

從字符串的正方向出發(fā)，先截取前5個(gè)字符，與詞典庫(kù)中的詞語(yǔ)進(jìn)行對(duì)比。若比對(duì)不成功，則截取前4個(gè)字符進(jìn)行對(duì)比，依次類推，直到僅剩第一個(gè)字符，自動(dòng)進(jìn)行截取，此次截取結(jié)束；若對(duì)比成功，則將該詞語(yǔ)記錄下來(lái)，并從句子中截取下來(lái)。直至句子全部被拆分為詞語(yǔ)，以數(shù)組進(jìn)行存儲(chǔ)。

算法思想示意圖

正向最大匹配算法,自然語(yǔ)言處理(NLP),# 分詞,算法,python,開發(fā)語(yǔ)言
具體代碼實(shí)現(xiàn)

'''
(分詞算法)正向最大匹配算法
'''
if __name__ == '__main__':

    ch_dict = ['我們','經(jīng)常','有','有意見(jiàn)','意見(jiàn)','分歧']       #中文的詞典庫(kù)，用于匹配句子中的詞語(yǔ)
    sentence = '我們經(jīng)常有意見(jiàn)分歧'          #例句，需要進(jìn)行分詞
    segment_list = []                      #存放分詞后的分詞詞組

    #例句不為空時(shí)，循環(huán)地進(jìn)行分詞操作
    while len(sentence) >= 1:
        # 最大匹配單詞的長(zhǎng)度為5，當(dāng)然實(shí)際意義從3開始即可，因?yàn)樵~典最大單詞長(zhǎng)度為3
        max_match_len = 5
        #當(dāng)匹配單詞長(zhǎng)度大于1時(shí)，循環(huán)判斷分詞
        while max_match_len > 1:

            #判斷前 max_match_len 個(gè)字符是否存在于字典
            if sentence[0:max_match_len] in ch_dict:
                segment_list.append(sentence[0:max_match_len])              #追加到分詞詞組中
                sentence = sentence[max_match_len:len(sentence)]            #將符合的詞語(yǔ)從原例句中截取
                break                   #退出循環(huán)，重新從max_match_len最長(zhǎng)匹配數(shù)開始匹配截取

            max_match_len -= 1          #max_match_len累減，開始匹配4個(gè)字符，3個(gè)字符，，，

        #只剩下一個(gè)漢字時(shí)，說(shuō)明當(dāng)前不再存在任何符合的詞語(yǔ)，直接截取一個(gè)漢字作為詞組
        if max_match_len == 1:
            segment_list.append(sentence[0:1])          #追加單個(gè)漢字詞語(yǔ)
            sentence = sentence[1:len(sentence)]        #截取例句

	#輸出存放分詞的列表
    print(segment_list)
    #輸出進(jìn)行分詞后的例句
    print('/'.join(segment_list))               #我們/經(jīng)常/有意見(jiàn)/分歧

運(yùn)行結(jié)果

['我們', '經(jīng)常', '有意見(jiàn)', '分歧']
我們/經(jīng)常/有意見(jiàn)/分歧

Process finished with exit code 0

逆向最大匹配算法(Reverse Maximum Match，RMM)

算法主要思想

剛好與正向最大匹配算法相反，該算法旨在從句子末尾對(duì)句子進(jìn)行分詞操作，基本原理同正向最大匹配算法。

算法思想示意圖

正向最大匹配算法,自然語(yǔ)言處理(NLP),# 分詞,算法,python,開發(fā)語(yǔ)言

具體代碼實(shí)現(xiàn)

'''
(分詞算法)后向最大匹配算法
'''

if __name__ == '__main__':

    ch_dict = ['我們','經(jīng)常','有','有意見(jiàn)','意見(jiàn)','分歧']       #中文的詞典庫(kù)，用于匹配句子中的詞語(yǔ)
    sentence = '我們經(jīng)常有意見(jiàn)分歧'          #例句，需要進(jìn)行分詞
    segment_list = []                      #存放分詞后的分詞詞組

    #例句不為空時(shí)，循環(huán)地進(jìn)行分詞操作
    while len(sentence) >= 1:
        # 最大匹配單詞的長(zhǎng)度為5，當(dāng)然實(shí)際意義從3開始即可，因?yàn)樵~典最大單詞長(zhǎng)度為3
        max_match_len = 5
        #當(dāng)匹配單詞長(zhǎng)度大于1時(shí)，循環(huán)判斷分詞
        while max_match_len > 1:

            #判斷前 max_match_len 個(gè)字符是否存在于字典
            if sentence[-max_match_len:] in ch_dict:
                segment_list.append(sentence[-max_match_len:])              #追加到分詞詞組中
                sentence = sentence[:-max_match_len]            #將符合的詞語(yǔ)從原例句中截取
                break                   #退出循環(huán)，重新從max_match_len最長(zhǎng)匹配數(shù)開始匹配截取

            max_match_len -= 1          #max_match_len累減，開始匹配4個(gè)字符，3個(gè)字符，，，

        #只剩下一個(gè)漢字時(shí)，說(shuō)明當(dāng)前不再存在任何符合的詞語(yǔ)，直接截取一個(gè)漢字作為詞組
        if max_match_len == 1:
            segment_list.append(sentence[-1:])          #追加單個(gè)漢字詞語(yǔ)
            sentence = sentence[:-1]                    #截取例句

    # 輸出進(jìn)行分詞后的例句
    print('/'.join(segment_list))               #分歧/有意見(jiàn)/經(jīng)常/我們

    #對(duì)分詞列表進(jìn)行倒序
    segment_list = segment_list[::-1]
    #再次輸出進(jìn)行分詞后的例句
    print('/'.join(segment_list))               # 我們/經(jīng)常/有意見(jiàn)/分歧

運(yùn)行結(jié)果

分歧/有意見(jiàn)/經(jīng)常/我們
我們/經(jīng)常/有意見(jiàn)/分歧

Process finished with exit code 0

雙向最大匹配算法

算法的主要思想

雙向最大匹配算法是同時(shí)采用正向最大匹配算法和逆向最大匹配算法，根據(jù)對(duì)比不同的執(zhí)行結(jié)果，選擇最優(yōu)解。

有以下幾種選擇方案：

如果分詞數(shù)量結(jié)果不同：選擇數(shù)量較少的那個(gè)。

如果分詞數(shù)量結(jié)果相同。
A. 分詞結(jié)果相同，返回任意一個(gè)。
B. 分詞結(jié)果不同，返回單個(gè)字?jǐn)?shù)較少的一個(gè)。
C. 若單個(gè)字?jǐn)?shù)也相同，任意返回一個(gè)。

小結(jié)

最大匹配算法在簡(jiǎn)單場(chǎng)景往往能夠發(fā)揮出較好的分詞效果，但其算法的時(shí)間復(fù)雜度較高，理解中文歧義問(wèn)題不夠準(zhǔn)確，故存在一定的局限性，僅作為低級(jí)的分詞算法使用。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-843265.html

到了這里，關(guān)于分詞算法----正向和逆向最大匹配算法(含Python代碼實(shí)現(xiàn))的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

機(jī)械臂正向與逆向運(yùn)動(dòng)學(xué)求解
????????機(jī)械臂的正運(yùn)動(dòng)學(xué)求解即建立DH參數(shù)表，然后計(jì)算出各變換矩陣以及最終的變換矩陣。逆運(yùn)動(dòng)學(xué)求解，即求出機(jī)械臂各關(guān)節(jié)θ角與px,py,pz的關(guān)系，建立θ角與末端姿態(tài)之間的數(shù)學(xué)模型，在這里以IRB6700為例，對(duì)IRB6700進(jìn)行正逆運(yùn)動(dòng)學(xué)求解和驗(yàn)證。目錄正運(yùn)動(dòng)學(xué)求解逆
2023年04月10日
瀏覽(42)
C++程序正向編譯逆向反編譯（一）
? ? ? ? 逆向工程師必須先是一個(gè)正向開發(fā)工程師，如果沒(méi)有C++/MFC的開發(fā)經(jīng)驗(yàn)，就不會(huì)懂得如何逆向分析C++/MFC的程序，本文完成一個(gè)helloworld的C++正逆向過(guò)程。 ? ? 編譯環(huán)境：visual studio 2022 編譯完畢后生成exe程序，導(dǎo)入Ghidra，分析完畢后，在symbol tree窗口，輸入main查找到主
2024年01月17日
瀏覽(22)
Python實(shí)現(xiàn)螺絲與螺母匹配分治算法示例
如何使用Python實(shí)現(xiàn)螺絲與螺母匹配的分治算法示例?？焖倥判蛩枷霂椭鉀Q這一問(wèn)題。詳細(xì)代碼和解釋。
2024年02月11日
瀏覽(47)
【計(jì)算機(jī)視覺(jué)、關(guān)鍵點(diǎn)檢測(cè)、特征提取和匹配】基于SIFT、PCA-SIFT和GLOH算法在不同圖像之間建立特征對(duì)應(yīng)關(guān)系，并實(shí)現(xiàn)點(diǎn)匹配算法和圖像匹配（Matlab代碼實(shí)現(xiàn)）
???????? 歡迎來(lái)到本博客 ???????? ??博主優(yōu)勢(shì)： ?????? 博客內(nèi)容盡量做到思維縝密，邏輯清晰，為了方便讀者。 ?? 座右銘：行百里者，半于九十。 ?????? 本文目錄如下： ?????? 目錄 ??1 概述 ??2 運(yùn)行結(jié)果 ??3?參考文獻(xiàn) ??4 Matlab代碼、數(shù)據(jù)、文章
2024年03月14日
瀏覽(25)
滴水逆向三期筆記與作業(yè)——02C語(yǔ)言——05 正向基礎(chǔ)/05 循環(huán)語(yǔ)句
原理：arr[5]是ebp的位置，而arr[6]是ebp+0x4的位置，即函數(shù)的返回地址，賦值給arr[6]相當(dāng)于是修改了eip寄存器。反匯編：i等于7時(shí)，修改了rbp+0x1c-0x20即rbp-0x4位置的值，將其置為0，而該位置為i的值，所以每一輪for過(guò)后將i重新置0，就造成了不停的循環(huán)。聲明一個(gè)變量就是告訴計(jì)
2024年02月15日
瀏覽(24)
C語(yǔ)言數(shù)據(jù)結(jié)構(gòu)+KMP算法next數(shù)組優(yōu)化計(jì)算方法+優(yōu)化后子串匹配代碼實(shí)現(xiàn)
通過(guò)我之前那篇KMP算法的講解,我們可以快速手算KMP算法的next數(shù)組,但是之前計(jì)算的next數(shù)組在一些情況下會(huì)有缺陷,比如模式串’aaaab’和主串’aaabaaaab’進(jìn)行匹配令模式串指針為j 當(dāng)?shù)谝粋€(gè)元素不匹配時(shí),下一次匹配還是要從模式串的第一個(gè)元素與主串匹配,其實(shí)我們可以直接寫
2024年02月06日
瀏覽(97)
OpenCV Python – 使用SIFT算法實(shí)現(xiàn)兩張圖片的特征匹配
1.要實(shí)現(xiàn)在大圖中找到任意旋轉(zhuǎn)、縮放等情況下的小圖位置，可以使用特征匹配算法，如 SIFT (尺度不變特征變換) 或 SURF (加速穩(wěn)健特征)。這些算法可以在不同尺度和旋轉(zhuǎn)情況下尋找匹配的特征點(diǎn) 2.我們使用了 SIFT 算法檢測(cè)和匹配特征點(diǎn)，然后使用 RANSAC 算法計(jì)算透視變換矩陣
2024年02月06日
瀏覽(22)
【華為OD】C卷真題100分：最大矩陣和 python代碼實(shí)現(xiàn)[思路+代碼]
C++、Java、JS、C代碼：【華為OD】C卷真題100分：最大矩陣和 C/C++代碼實(shí)現(xiàn)[思路+代碼]-CSDN博客【華為OD】C卷真題100分：最大矩陣和 Java代碼實(shí)現(xiàn)[思路+代碼]-CSDN博客【華為OD】C卷真題100分：最大矩陣和 JavaScript代碼實(shí)現(xiàn)[思路+代碼]-CSDN博客【華為OD】C卷真題100分：最大矩陣和
2024年04月16日
瀏覽(13)
機(jī)器人——正向運(yùn)動(dòng)學(xué)（Forward Kinematics）與逆向運(yùn)動(dòng)學(xué)（Inverse Kinematics）
正向運(yùn)動(dòng)學(xué)和反向運(yùn)動(dòng)學(xué)分別是什么意思正向運(yùn)動(dòng)學(xué)是指從機(jī)器人的關(guān)節(jié)運(yùn)動(dòng)推導(dǎo)出末端執(zhí)行器的運(yùn)動(dòng)的過(guò)程，也就是從機(jī)器人的關(guān)節(jié)坐標(biāo)計(jì)算出末端執(zhí)行器的位置和姿態(tài)信息的過(guò)程。反向運(yùn)動(dòng)學(xué)則是指從末端執(zhí)行器的位置和姿態(tài)信息推導(dǎo)出機(jī)器人的關(guān)節(jié)坐標(biāo)的過(guò)程。簡(jiǎn)單來(lái)
2024年02月16日
瀏覽(25)
使用Python實(shí)現(xiàn)高效數(shù)據(jù)下采樣：詳解最大三角形三桶（LTTB）算法
引言在我們接觸大規(guī)模的數(shù)據(jù)集時(shí)，數(shù)據(jù)的數(shù)量往往會(huì)讓人望而卻步。數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等領(lǐng)域的專業(yè)人員需要對(duì)這些數(shù)據(jù)進(jìn)行處理，以便更好地理解數(shù)據(jù)，以及利用數(shù)據(jù)進(jìn)行預(yù)測(cè)。然而，處理大規(guī)模數(shù)據(jù)的計(jì)算成本往往非常高，這時(shí)候，就需要引入下采樣（Downsampling）的
2024年02月14日
瀏覽(29)

<li id="288m7"><label id="288m7"></label></li>