国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

結(jié)巴分詞-強大的中文分詞器實踐(java版)

這篇具有很好參考價值的文章主要介紹了結(jié)巴分詞-強大的中文分詞器實踐(java版)。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

簡介

原生jieba分詞是強大的Python組件,可以用來進行關(guān)鍵詞提取,標注以及定位。

java版支持三種模式

  • 精確模式:試圖將句子最精確地切開,適合文本分析;
  • 全模式:把句子中所有的可以成詞的詞語都掃描出來, 速度非???,但是不能解決歧義;
  • 搜索引擎模式:在精確模式的基礎(chǔ)上,對長詞再次切分,提高召回率,適合用于搜索引擎分詞

使用

導(dǎo)入maven依賴

項目地址:https://github.com/huaban/jieba-analysis

com.huaban
jieba-analysis
1.0.2

三種模式使用

準備一段文本 奧利給 我是照明燈具 普通型 安全出口標志燈 DC36V 6W 壁式,看三種模式抽取出的關(guān)鍵詞區(qū)別

  • 代碼
    結(jié)巴分詞-強大的中文分詞器實踐(java版)
    結(jié)巴分詞-強大的中文分詞器實踐(java版)
  • 效果
    精確模式:["奧利","給","我","是","照明燈","具","普通型","安全","出口","標志燈","DC36V6W","壁式"]
    INDEX模式:["奧利","給","我","是","照明","明燈","照明燈","具","普通","普通型","安全","出口","標志","標志燈","dc36v6w","壁式"]
    SEARCH模式:["奧利","給","我","是","照明燈","具","普通型","安全","出口","標志燈","dc36v6w","壁式"]
    可以看出serch模式和精確模式區(qū)別不大

自定義詞典

jieba 分詞內(nèi)置了常用詞典,在源代碼目錄下有個dic.txt文件
結(jié)巴分詞-強大的中文分詞器實踐(java版)

當內(nèi)置詞典不滿足我們的業(yè)務(wù)場景時,可以自定義詞典
詞典格式和 dict.txt 一樣,一個詞占一行;每一行分三部分:詞語、詞頻(可省略)、詞性(可省略),用空格隔開,順序不可顛倒

舉個栗子,把文本中的奧利給 和 我是照明燈 定義成關(guān)鍵詞,就得這樣定義
奧利給 50
我是照明燈具 50

  • 新建自定義詞典文件:
    在resource 目錄下新建jiebaCon目錄,并新建自定詞典文件
    結(jié)巴分詞-強大的中文分詞器實踐(java版)
  • 加載用戶詞典文件
    結(jié)巴分詞-強大的中文分詞器實踐(java版)
  • 效果
    結(jié)巴分詞-強大的中文分詞器實踐(java版)

動態(tài)加載用戶詞典

思路:從外部讀取詞典數(shù)據(jù),生成臨時文件供jieba分詞組件使用

  • 代碼
    結(jié)巴分詞-強大的中文分詞器實踐(java版)
  • 效果
    結(jié)巴分詞-強大的中文分詞器實踐(java版)

實例代碼

關(guān)注公眾號,回復(fù)jieba 即可獲取源碼
結(jié)巴分詞-強大的中文分詞器實踐(java版)文章來源地址http://www.zghlxwxcb.cn/news/detail-599275.html

到了這里,關(guān)于結(jié)巴分詞-強大的中文分詞器實踐(java版)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • Elasticsearch_分詞器、搜索文檔以及原生JAVA操作

    Elasticsearch_分詞器、搜索文檔以及原生JAVA操作

    ES文檔的數(shù)據(jù)拆分成一個個有完整含義的,并將與文檔對應(yīng),這樣就可以通過查詢文檔。要想正確的分詞,需要選擇合適的分詞器。 standard analyzer:Elasticsearch的默認分詞器,根據(jù)空格和標點符號對應(yīng)英文進行分詞,會進行單詞的大小寫轉(zhuǎn)換。 默認分詞器是

    2024年02月03日
    瀏覽(22)
  • elasticsearch安裝中文分詞IK啟動異常:java.nio.file.AccessDeniedException

    啟動錯誤信息如下: 問題原因:plugins中添加的ik目錄沒有權(quán)限; 解決方案:進入elasticsearch容器對應(yīng)plugins目錄下,進行 chmod 777 ik 授權(quán)即可。

    2024年02月03日
    瀏覽(23)
  • 華為OD機試 - 中文分詞模擬器(Java & JS & Python & C)

    題目描述 給定一個連續(xù)不包含空格的字符串,該字符串僅包含英文小寫字母及英文標點符號(逗號、分號、句號),同時給定詞庫,對該字符串進行精確分詞。 說明: 精確分詞:字符串分詞后,不會出現(xiàn)重疊。即\\\"ilovechina\\\",不同詞庫可分割為\\\"i,love,china\\\",\\\"ilove,china\\\",不能分

    2024年02月01日
    瀏覽(27)
  • 華為OD機試 - 中文分詞模擬器(Java & JS & Python & C & C++)

    哈嘍,本題庫完全免費,收費是為了防止被爬,大家訂閱專欄后可以私信聯(lián)系退款。感謝支持 給定一個連續(xù)不包含空格的字符串,該字符串僅包含英文小寫字母及英文標點符號(逗號、分號、句號),同時給定詞庫,對該字符串進行精確分詞。 說明: 精確分詞:字符串分詞

    2024年04月10日
    瀏覽(24)
  • ElasticSearch 中的中文分詞器以及索引基本操作詳解,Java高并發(fā)編程詳解深入理解pdf

    ElasticSearch 中的中文分詞器以及索引基本操作詳解,Java高并發(fā)編程詳解深入理解pdf

    PUT book/_settings { “number_of_replicas”: 2 } 修改成功后,如下: 更新分片數(shù)也是一樣。 2.3 修改索引的讀寫權(quán)限 索引創(chuàng)建成功后,可以向索引中寫入文檔: PUT book/_doc/1 { “title”:“三國演義” } 寫入成功后,可以在 head 插件中查看: 默認情況下,索引是具備讀寫權(quán)限的,當然這

    2024年04月09日
    瀏覽(24)
  • elasticsearch 安裝 IK 中文分詞器插件提示找不到文件的異常(Exception in thread “main“ java.nio.file.NoSuchFileException)

    elasticsearch 安裝 IK 中文分詞器插件提示找不到文件的異常(Exception in thread “main“ java.nio.file.NoSuchFileException)

    錯誤截圖 在命令行窗口,執(zhí)行如下命令安裝 IK 中文分詞器 失敗。 錯誤日志 1、自己到github下載對應(yīng)版本的ik中文分詞器 上面命令中兩個插件版本號應(yīng)該和 Elasticsearch 的版本保持一致,我現(xiàn)在用的是 7.14.1 版本。 首先版本和命令是對得上的。 命令行窗口通過命令下載失敗的話

    2024年04月11日
    瀏覽(28)
  • Java調(diào)用Midjourney進行AI畫圖原生版抓包實現(xiàn)支持中文

    Java調(diào)用Midjourney進行AI畫圖原生版抓包實現(xiàn)支持中文

    Midjourney是一個目前優(yōu)秀的AI畫圖工具,不掛梯無法直接訪問 本代碼主要用于搭建鏡像站使用 本代碼不適合新手,建議使用過okhttp、且具有二開能力的同學(xué)使用~ 通過調(diào)用發(fā)送信息接口發(fā)送請求,通過輪詢房間消息接口判斷是否作圖完成 發(fā)送的時候帶上我們存儲好的cookie信息

    2024年02月09日
    瀏覽(14)
  • 詳細介紹NLP中文分詞原理及分詞工具

    詳細介紹NLP中文分詞原理及分詞工具

    正向最大匹配算法FMM 從左到右掃描文本,得到詞的最大匹配。 案例分析: 用正向最大匹配法對“秦皇島今天晴空萬里”進行中文分詞,見下表。 詞典 :“秦皇島”“島”“今天”“天晴”“晴空萬里”“萬里”…… 根據(jù)當前詞典,單詞掃描的最大長度 max=4 正向最大匹配函

    2023年04月17日
    瀏覽(25)
  • 本地elasticsearch中文分詞器 ik分詞器安裝及使用

    本地elasticsearch中文分詞器 ik分詞器安裝及使用

    ElasticSearch 內(nèi)置了分詞器,如標準分詞器、簡單分詞器、空白詞器等。但這些分詞器對我們最常使用的中文并不友好,不能按我們的語言習(xí)慣進行分詞。 ik分詞器就是一個標準的中文分詞器。它可以根據(jù)定義的字典對域進行分詞,并且支持用戶配置自己的字典,所以它除了可

    2024年02月05日
    瀏覽(34)
  • 物聯(lián)網(wǎng)協(xié)議之COAP簡介及Java實踐

    物聯(lián)網(wǎng)協(xié)議之COAP簡介及Java實踐

    目錄 前言 一、COAP簡介 1、關(guān)于COAP ?2、COAP特點 3、基于COAP的NB-IoT接入流程 二、CoAP協(xié)議JAVA實踐 1、californium介紹 2、Java集成? 3、Maven 資源引入 4、定義Server端 5、Client調(diào)用 6、運行測試 總結(jié) ? ? ? ? 今天平安夜,祝大家圣誕快樂,平平安安。最近幾年,隨著物聯(lián)網(wǎng)的興起,很

    2024年02月04日
    瀏覽(15)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包