国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

springboot+Elasticsearch實(shí)現(xiàn)word,pdf,txt內(nèi)容抽取并高亮分詞全文檢索

這篇具有很好參考價值的文章主要介紹了springboot+Elasticsearch實(shí)現(xiàn)word,pdf,txt內(nèi)容抽取并高亮分詞全文檢索。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報違法"按鈕提交疑問。

文章目錄

需求

一、環(huán)境

二、功能實(shí)現(xiàn)

1.搭建環(huán)境

2.文件內(nèi)容識別

三.代碼


需求

? ? ? ? 產(chǎn)品希望我們這邊能夠?qū)崿F(xiàn)用戶上傳PDF,WORD,TXT之內(nèi)得文本內(nèi)容,然后用戶可以根據(jù)附件名稱或文件內(nèi)容模糊查詢文件信息,并可以在線查看文件內(nèi)容


一、環(huán)境

? ? ? ? 項目開發(fā)環(huán)境:

????????????????后臺管理系統(tǒng)springboot+mybatis_plus+mysql+es

? ? ? ? ????????搜索引擎:elasticsearch7.9.3 +kibana圖形化界面


二、功能實(shí)現(xiàn)

1.搭建環(huán)境

? ? ? ? es+kibana的搭建這里就不介紹了,網(wǎng)上多的是

? ? ? ? 后臺程序搭建也不介紹,這里有一點(diǎn)很重要,Java使用的連接es的包的版本一定要和es的版本對應(yīng)上,不然你會有各種問題

2.文件內(nèi)容識別

? ? ? ?第一步: 要用es實(shí)現(xiàn)文本附件內(nèi)容的識別,需要先給es安裝一個插件:Ingest Attachment Processor Plugin(這知識一個內(nèi)容識別的插件,還有其它的例如OCR之類的其它插件,有興趣的可以去搜一下了解一下)

??Ingest Attachment Processor Plugin是一個文本抽取插件,本質(zhì)上是利用了Elasticsearchingest node功能,提供了關(guān)鍵的預(yù)處理器attachment。在安裝目錄下運(yùn)行以下命令即可安裝。

到es的安裝文件bin目錄下執(zhí)行

elasticsearch-plugin install ingest-attachment

? ? ? ? 因為我們這里es是使用docker安裝的,所以需要進(jìn)入到es的docker鏡像里面的bin目錄下安裝插件

[root@iZuf63d0pqnjrga4pi18udZ plugins]# docker exec -it es bash
[root@elasticsearch elasticsearch]# ls
LICENSE.txt  NOTICE.txt  README.asciidoc  bin  config  data  jdk  lib  logs  modules  plugins
[root@elasticsearch elasticsearch]# cd bin/
[root@elasticsearch bin]# ls
elasticsearch          elasticsearch-certutil  elasticsearch-croneval  elasticsearch-env-from-file  elasticsearch-migrate  elasticsearch-plugin         elasticsearch-setup-passwords  elasticsearch-sql-cli            elasticsearch-syskeygen  x-pack-env           x-pack-watcher-env
elasticsearch-certgen  elasticsearch-cli       elasticsearch-env       elasticsearch-keystore       elasticsearch-node     elasticsearch-saml-metadata  elasticsearch-shard            elasticsearch-sql-cli-7.9.3.jar  elasticsearch-users      x-pack-security-env
[root@elasticsearch bin]# elasticsearch-plugin install ingest-attachment
-> Installing ingest-attachment
-> Downloading ingest-attachment from elastic
[=================================================] 100%?? 
@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
@     WARNING: plugin requires additional permissions     @
@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
* java.lang.RuntimePermission accessClassInPackage.sun.java2d.cmm.kcms
* java.lang.RuntimePermission accessDeclaredMembers
* java.lang.RuntimePermission getClassLoader
* java.lang.reflect.ReflectPermission suppressAccessChecks
* java.security.SecurityPermission createAccessControlContext
* java.security.SecurityPermission insertProvider
* java.security.SecurityPermission putProviderProperty.BC
See http://docs.oracle.com/javase/8/docs/technotes/guides/security/permissions.html
for descriptions of what these permissions allow and the associated risks.

Continue with installation? [y/N]y
-> Installed ingest-attachment

顯示installed 就表示安裝完成了,然后重啟es,不然第二步要報錯

? ? ? ? ?第二步:創(chuàng)建一個文本抽取的管道

? ? ? ? 主要是用于將上傳的附件轉(zhuǎn)換成文本內(nèi)容,支持(word,PDF,txt,excel沒試,應(yīng)該也支持)

springboot+Elasticsearch實(shí)現(xiàn)word,pdf,txt內(nèi)容抽取并高亮分詞全文檢索

{
    "description": "Extract attachment information",
    "processors": [
        {
            "attachment": {
                "field": "content",
                "ignore_missing": true
            }
        },
        {
            "remove": {
                "field": "content"
            }
        }
    ]
}

? ? ? ? 第三步:定義我們內(nèi)容存儲的索引

springboot+Elasticsearch實(shí)現(xiàn)word,pdf,txt內(nèi)容抽取并高亮分詞全文檢索

{
  "mappings": {
    "properties": {
      "id":{
        "type": "keyword"
      },
      "fileName":{
        "type": "text",
        "analyzer": "my_ana"
      },
      "contentType":{
        "type": "text",
         "analyzer": "my_ana"
      },
       "fileUrl":{
        "type": "text"
      },
      "attachment": {
        "properties": {
          "content":{
            "type": "text",
            "analyzer": "my_ana"
          }
        }
      }
    }
  },
  "settings": {
    "analysis": {
      "filter": {
        "jieba_stop": {
          "type":        "stop",
          "stopwords_path": "stopword/stopwords.txt"
        },
        "jieba_synonym": {
          "type":        "synonym",
          "synonyms_path": "synonym/synonyms.txt"
        }
      },
      "analyzer": {
        "my_ana": {
          "tokenizer": "jieba_index",
          "filter": [
            "lowercase",
            "jieba_stop",
            "jieba_synonym"
          ]
        }
      }
    }
  }
}

?mapping:定義的是存儲的字段格式

setting:索引的配置信息,這邊定義了一個分詞(使用的是jieba的分詞)

注意:內(nèi)容檢索的是attachment.content字段,一定要使用分詞,不使用分詞的話,檢索會檢索不出來內(nèi)容

? ? ? ? 第四步:測試

springboot+Elasticsearch實(shí)現(xiàn)word,pdf,txt內(nèi)容抽取并高亮分詞全文檢索

{
    "id":"1",
	"name":"進(jìn)口紅酒",
	"filetype":"pdf",
    "contenttype":"文章",
	"content":""
}

測試內(nèi)容需要將附件轉(zhuǎn)換成base64格式

在線轉(zhuǎn)換文件的地址:任意文件轉(zhuǎn)base64-直接拖進(jìn)來

? ? ? ? 查詢剛剛上傳的文件:

springboot+Elasticsearch實(shí)現(xiàn)word,pdf,txt內(nèi)容抽取并高亮分詞全文檢索


{
    "took": 861,
    "timed_out": false,
    "_shards": {
        "total": 1,
        "successful": 1,
        "skipped": 0,
        "failed": 0
    },
    "hits": {
        "total": {
            "value": 5,
            "relation": "eq"
        },
        "max_score": 1.0,
        "hits": [
            {
                "_index": "fileinfo",
                "_type": "_doc",
                "_id": "lkPEgYIBz3NlBKQzXYX9",
                "_score": 1.0,
                "_source": {
                    "fileName": "測試_20220809164145A002.docx",
                    "updateTime": 1660034506000,
                    "attachment": {
                        "date": "2022-08-09T01:38:00Z",
                        "content_type": "application/vnd.openxmlformats-officedocument.wordprocessingml.document",
                        "author": "DELL",
                        "language": "lt",
                        "content": "什么是PolarDB\n更新時間:2022-06-06 17:36\n我的收藏\nPolarDB是阿里巴巴自研的新一代云原生關(guān)系型數(shù)據(jù)庫,在存儲計算分離架構(gòu)下,利用了軟硬件結(jié)合的優(yōu)勢,為用戶提供具備極致彈性、高性能、海量存儲、安全可靠的數(shù)據(jù)庫服務(wù)。PolarDB?100%兼容MySQL 5.6/5.7/8.0,PostgreSQL 11,高度兼容Oracle。\nPolarDB采用存儲和計算分離的架構(gòu),所有計算節(jié)點(diǎn)共享一份數(shù)據(jù),提供分鐘級的配置升降級、秒級的故障恢復(fù)、全局?jǐn)?shù)據(jù)一致性和免費(fèi)的數(shù)據(jù)備份容災(zāi)服務(wù)。PolarDB既融合了商業(yè)數(shù)據(jù)庫穩(wěn)定可靠、高性能、可擴(kuò)展的特征,又具有開源云數(shù)據(jù)庫簡單開放、自我迭代的優(yōu)勢,例如PolarDB MySQL引擎作為超級MySQL,性能最高可達(dá)開源MySQL的6倍(在1024并發(fā)sysbench_insert場景下,PolarDB MySQL引擎與開啟主備半同步Semi-Sync的開源MySQL的性能對比),而成本只有商用數(shù)據(jù)庫的1/10,每小時最低只需1.3元即可體驗完整的產(chǎn)品功能。PolarDB MySQL引擎100%兼容原生MySQL和RDS MySQL,您可以在不修改應(yīng)用程序任何代碼和配置的情況下,將MySQL數(shù)據(jù)庫遷移至PolarDB MySQL引擎。\n· 計算與存儲分離,共享分布式存儲。\n采用計算與存儲分離的設(shè)計理念,滿足業(yè)務(wù)彈性擴(kuò)展的需求。各計算節(jié)點(diǎn)通過分布式文件系統(tǒng)(PolarFileSystem)共享底層的存儲(PolarStore),極大降低了用戶的存儲成本。\n· 一寫多讀,讀寫分離。\nPolarDB集群版采用多節(jié)點(diǎn)集群的架構(gòu),集群中有一個主節(jié)點(diǎn)(可讀可寫)和至少一個只讀節(jié)點(diǎn)。當(dāng)應(yīng)用程序使用集群地址時,PolarDB通過內(nèi)部的代理層(PolarProxy)對外提供服務(wù),應(yīng)用程序的請求都先經(jīng)過代理,然后才訪問到數(shù)據(jù)庫節(jié)點(diǎn)。代理層不僅可以做安全認(rèn)證和保護(hù),還可以解析SQL,把寫操作發(fā)送到主節(jié)點(diǎn),把讀操作均衡地分發(fā)到多個只讀節(jié)點(diǎn),實(shí)現(xiàn)自動的讀寫分離。對于應(yīng)用程序來說,就像使用一個單點(diǎn)的數(shù)據(jù)庫一樣簡單。\n產(chǎn)品優(yōu)勢\n您可以像使用MySQL、PostgreSQL、Oracle一樣使用PolarDB。此外,PolarDB還有傳統(tǒng)數(shù)據(jù)庫不具備的優(yōu)勢:\n· 大容量\n最高100 TB,您不再需要因為單機(jī)容量的天花板而去購買多個實(shí)例做分片,由此簡化應(yīng)用開發(fā),降低運(yùn)維負(fù)擔(dān)。\n· 低成本\n· 共享存儲:計算與存儲分離,每增加一個只讀節(jié)點(diǎn)只收取計算資源的費(fèi)用,而傳統(tǒng)的只讀節(jié)點(diǎn)同時包含計算和存儲資源,每增加一個只讀節(jié)點(diǎn)需要支付相應(yīng)的存儲費(fèi)用。\n· 彈性存儲:存儲空間無需配置,根據(jù)數(shù)據(jù)量自動伸縮,您只需為實(shí)際使用的數(shù)據(jù)量按小時付費(fèi)。\n· 存儲包:PolarDB推出了預(yù)付費(fèi)形式的存儲包。當(dāng)您的數(shù)據(jù)量較大時,推薦您使用存儲包,相比按小時付費(fèi),預(yù)付費(fèi)購買存儲包有折扣,購買的容量越大,折扣力度越大。\n· 計算包:PolarDB首創(chuàng)計算包,用于抵扣計算節(jié)點(diǎn)的費(fèi)用,計算包兼顧了包年包月付費(fèi)方式的經(jīng)濟(jì)性和按量付費(fèi)方式的靈活性。您還可以將計算包與自動擴(kuò)縮容配合使用,在業(yè)務(wù)峰值前后實(shí)現(xiàn)自動彈性升降配,輕松應(yīng)對業(yè)務(wù)量波動。\n· 高性能\n大幅提升OLTP性能,支持超過50萬次/秒的讀請求以及超過15萬次/秒的寫請求。\n· 分鐘級擴(kuò)縮容\n存儲與計算分離的架構(gòu),配合容器虛擬化技術(shù)和共享存儲,增減節(jié)點(diǎn)只需5分鐘。存儲容量自動在線擴(kuò)容,無需中斷業(yè)務(wù)。\n· 讀一致性\n集群地址利用LSN(Log Sequence Number)確保讀取數(shù)據(jù)時的全局一致性,避免因為主備延遲引起的不一致。\n· 毫秒級延遲(物理復(fù)制)\n利用基于Redo的物理復(fù)制代替基于Binlog的邏輯復(fù)制,提升主備復(fù)制的效率和穩(wěn)定性。即使對大表進(jìn)行加索引、加字段等DDL操作,也不會造成數(shù)據(jù)庫的延遲。\n· 秒級快速備份\n不論多大的數(shù)據(jù)量,全庫備份只需30秒,而且備份過程不會對數(shù)據(jù)庫加鎖,對應(yīng)用程序幾乎無影響,全天24小時均可進(jìn)行備份。\nPolarDB定價\n詳情請參見計費(fèi)項概覽和購買PolarDB集群。\n如何使用PolarDB\n您可以通過以下方式管理PolarDB集群,包括創(chuàng)建集群、創(chuàng)建數(shù)據(jù)庫、創(chuàng)建賬號等。\n· 控制臺:提供圖形化的Web界面,操作方便。\n· CLI:控制臺上所有的操作都可以通過CLI實(shí)現(xiàn)。\n· SDK:控制臺上所有的操作都可以通過SDK實(shí)現(xiàn)。\n· API:控制臺上所有的操作都可以通過API實(shí)現(xiàn)。\n創(chuàng)建PolarDB集群后,您可以通過以下方式連接PolarDB集群:\n· DMS:您可以通過DMS連接PolarDB集群,在Web界面進(jìn)行數(shù)據(jù)庫開發(fā)工作。\n· 客戶端:您可以使用通用的數(shù)據(jù)庫客戶端工具連接PolarDB集群。例如,MySQL-Front、pgAdmin等。\n相關(guān)概念\n了解以下概念,將幫助您更好地選購和使用PolarDB:\n· 集群:PolarDB集群版采用集群架構(gòu),一個集群版集群中可包含一個主節(jié)點(diǎn)和最多15個只讀節(jié)點(diǎn)。\n· 地域:地域是指物理的數(shù)據(jù)中心。一般情況下,PolarDB集群應(yīng)該和ECS實(shí)例位于同一地域,以實(shí)現(xiàn)最高的訪問性能。\n· 可用區(qū):可用區(qū)是指在某個地域內(nèi)擁有獨(dú)立電力和網(wǎng)絡(luò)的物理區(qū)域。同一地域的不同可用區(qū)之間沒有實(shí)質(zhì)性區(qū)別。\n· 規(guī)格:每個節(jié)點(diǎn)的資源配置,例如2核8 GB。\n相關(guān)服務(wù)\n· ECS:ECS是云服務(wù)器,通過內(nèi)網(wǎng)訪問同一地域的PolarDB集群時,可實(shí)現(xiàn)PolarDB集群的最佳性能。ECS搭配PolarDB集群是典型的業(yè)務(wù)訪問架構(gòu)。\n· Redis:Redis提供持久化的內(nèi)存數(shù)據(jù)庫服務(wù)。當(dāng)業(yè)務(wù)訪問量較大時,ECS 、PolarDB和Redis的組合可以支持更多的讀請求,同時減少響應(yīng)時間。\n· MongoDB:提供穩(wěn)定可靠、彈性伸縮、完全兼容MongoDB協(xié)議的數(shù)據(jù)庫服務(wù)。數(shù)據(jù)結(jié)構(gòu)多樣時,可以選擇將結(jié)構(gòu)化數(shù)據(jù)存儲在PolarDB,將非結(jié)構(gòu)化數(shù)據(jù)存儲在MongoDB,滿足業(yè)務(wù)的多樣化存儲需求。\n· DTS:您可以使用數(shù)據(jù)傳輸服務(wù)DTS將本地數(shù)據(jù)庫遷移到云上的PolarDB。\n· OSS:對象存儲服務(wù)OSS是阿里云提供的海量、安全、低成本、高可靠的云存儲服務(wù)。",
                        "content_length": 2572
                    },
                    "createTime": 1660034506000,
                    "fileUrl": "http://localhost:8092/fileInfo/profile/upload/fileInfo/2022/08/09/測試_20220809164145A002.docx",
                    "id": 1306333192,
                    "contentType": "文章",
                    "fileType": "docx"
                }
            },
            {
                "_index": "fileinfo",
                "_type": "_doc",
                "_id": "mUPHgYIBz3NlBKQzwIVW",
                "_score": 1.0,
                "_source": {
                    "fileName": "測試_20220809164527A001.docx",
                    "updateTime": 1660034728000,
                    "attachment": {
                        "date": "2022-08-09T01:38:00Z",
                        "content_type": "application/vnd.openxmlformats-officedocument.wordprocessingml.document",
                        "author": "DELL",
                        "language": "lt",
                        "content": "什么是PolarDB\n更新時間:2022-06-06 17:36\n我的收藏\nPolarDB是阿里巴巴自研的新一代云原生關(guān)系型數(shù)據(jù)庫,在存儲計算分離架構(gòu)下,利用了軟硬件結(jié)合的優(yōu)勢,為用戶提供具備極致彈性、高性能、海量存儲、安全可靠的數(shù)據(jù)庫服務(wù)。PolarDB?100%兼容MySQL 5.6/5.7/8.0,PostgreSQL 11,高度兼容Oracle。\nPolarDB采用存儲和計算分離的架構(gòu),所有計算節(jié)點(diǎn)共享一份數(shù)據(jù),提供分鐘級的配置升降級、秒級的故障恢復(fù)、全局?jǐn)?shù)據(jù)一致性和免費(fèi)的數(shù)據(jù)備份容災(zāi)服務(wù)。PolarDB既融合了商業(yè)數(shù)據(jù)庫穩(wěn)定可靠、高性能、可擴(kuò)展的特征,又具有開源云數(shù)據(jù)庫簡單開放、自我迭代的優(yōu)勢,例如PolarDB MySQL引擎作為超級MySQL,性能最高可達(dá)開源MySQL的6倍(在1024并發(fā)sysbench_insert場景下,PolarDB MySQL引擎與開啟主備半同步Semi-Sync的開源MySQL的性能對比),而成本只有商用數(shù)據(jù)庫的1/10,每小時最低只需1.3元即可體驗完整的產(chǎn)品功能。PolarDB MySQL引擎100%兼容原生MySQL和RDS MySQL,您可以在不修改應(yīng)用程序任何代碼和配置的情況下,將MySQL數(shù)據(jù)庫遷移至PolarDB MySQL引擎。\n· 計算與存儲分離,共享分布式存儲。\n采用計算與存儲分離的設(shè)計理念,滿足業(yè)務(wù)彈性擴(kuò)展的需求。各計算節(jié)點(diǎn)通過分布式文件系統(tǒng)(PolarFileSystem)共享底層的存儲(PolarStore),極大降低了用戶的存儲成本。\n· 一寫多讀,讀寫分離。\nPolarDB集群版采用多節(jié)點(diǎn)集群的架構(gòu),集群中有一個主節(jié)點(diǎn)(可讀可寫)和至少一個只讀節(jié)點(diǎn)。當(dāng)應(yīng)用程序使用集群地址時,PolarDB通過內(nèi)部的代理層(PolarProxy)對外提供服務(wù),應(yīng)用程序的請求都先經(jīng)過代理,然后才訪問到數(shù)據(jù)庫節(jié)點(diǎn)。代理層不僅可以做安全認(rèn)證和保護(hù),還可以解析SQL,把寫操作發(fā)送到主節(jié)點(diǎn),把讀操作均衡地分發(fā)到多個只讀節(jié)點(diǎn),實(shí)現(xiàn)自動的讀寫分離。對于應(yīng)用程序來說,就像使用一個單點(diǎn)的數(shù)據(jù)庫一樣簡單。\n產(chǎn)品優(yōu)勢\n您可以像使用MySQL、PostgreSQL、Oracle一樣使用PolarDB。此外,PolarDB還有傳統(tǒng)數(shù)據(jù)庫不具備的優(yōu)勢:\n· 大容量\n最高100 TB,您不再需要因為單機(jī)容量的天花板而去購買多個實(shí)例做分片,由此簡化應(yīng)用開發(fā),降低運(yùn)維負(fù)擔(dān)。\n· 低成本\n· 共享存儲:計算與存儲分離,每增加一個只讀節(jié)點(diǎn)只收取計算資源的費(fèi)用,而傳統(tǒng)的只讀節(jié)點(diǎn)同時包含計算和存儲資源,每增加一個只讀節(jié)點(diǎn)需要支付相應(yīng)的存儲費(fèi)用。\n· 彈性存儲:存儲空間無需配置,根據(jù)數(shù)據(jù)量自動伸縮,您只需為實(shí)際使用的數(shù)據(jù)量按小時付費(fèi)。\n· 存儲包:PolarDB推出了預(yù)付費(fèi)形式的存儲包。當(dāng)您的數(shù)據(jù)量較大時,推薦您使用存儲包,相比按小時付費(fèi),預(yù)付費(fèi)購買存儲包有折扣,購買的容量越大,折扣力度越大。\n· 計算包:PolarDB首創(chuàng)計算包,用于抵扣計算節(jié)點(diǎn)的費(fèi)用,計算包兼顧了包年包月付費(fèi)方式的經(jīng)濟(jì)性和按量付費(fèi)方式的靈活性。您還可以將計算包與自動擴(kuò)縮容配合使用,在業(yè)務(wù)峰值前后實(shí)現(xiàn)自動彈性升降配,輕松應(yīng)對業(yè)務(wù)量波動。\n· 高性能\n大幅提升OLTP性能,支持超過50萬次/秒的讀請求以及超過15萬次/秒的寫請求。\n· 分鐘級擴(kuò)縮容\n存儲與計算分離的架構(gòu),配合容器虛擬化技術(shù)和共享存儲,增減節(jié)點(diǎn)只需5分鐘。存儲容量自動在線擴(kuò)容,無需中斷業(yè)務(wù)。\n· 讀一致性\n集群地址利用LSN(Log Sequence Number)確保讀取數(shù)據(jù)時的全局一致性,避免因為主備延遲引起的不一致。\n· 毫秒級延遲(物理復(fù)制)\n利用基于Redo的物理復(fù)制代替基于Binlog的邏輯復(fù)制,提升主備復(fù)制的效率和穩(wěn)定性。即使對大表進(jìn)行加索引、加字段等DDL操作,也不會造成數(shù)據(jù)庫的延遲。\n· 秒級快速備份\n不論多大的數(shù)據(jù)量,全庫備份只需30秒,而且備份過程不會對數(shù)據(jù)庫加鎖,對應(yīng)用程序幾乎無影響,全天24小時均可進(jìn)行備份。\nPolarDB定價\n詳情請參見計費(fèi)項概覽和購買PolarDB集群。\n如何使用PolarDB\n您可以通過以下方式管理PolarDB集群,包括創(chuàng)建集群、創(chuàng)建數(shù)據(jù)庫、創(chuàng)建賬號等。\n· 控制臺:提供圖形化的Web界面,操作方便。\n· CLI:控制臺上所有的操作都可以通過CLI實(shí)現(xiàn)。\n· SDK:控制臺上所有的操作都可以通過SDK實(shí)現(xiàn)。\n· API:控制臺上所有的操作都可以通過API實(shí)現(xiàn)。\n創(chuàng)建PolarDB集群后,您可以通過以下方式連接PolarDB集群:\n· DMS:您可以通過DMS連接PolarDB集群,在Web界面進(jìn)行數(shù)據(jù)庫開發(fā)工作。\n· 客戶端:您可以使用通用的數(shù)據(jù)庫客戶端工具連接PolarDB集群。例如,MySQL-Front、pgAdmin等。\n相關(guān)概念\n了解以下概念,將幫助您更好地選購和使用PolarDB:\n· 集群:PolarDB集群版采用集群架構(gòu),一個集群版集群中可包含一個主節(jié)點(diǎn)和最多15個只讀節(jié)點(diǎn)。\n· 地域:地域是指物理的數(shù)據(jù)中心。一般情況下,PolarDB集群應(yīng)該和ECS實(shí)例位于同一地域,以實(shí)現(xiàn)最高的訪問性能。\n· 可用區(qū):可用區(qū)是指在某個地域內(nèi)擁有獨(dú)立電力和網(wǎng)絡(luò)的物理區(qū)域。同一地域的不同可用區(qū)之間沒有實(shí)質(zhì)性區(qū)別。\n· 規(guī)格:每個節(jié)點(diǎn)的資源配置,例如2核8 GB。\n相關(guān)服務(wù)\n· ECS:ECS是云服務(wù)器,通過內(nèi)網(wǎng)訪問同一地域的PolarDB集群時,可實(shí)現(xiàn)PolarDB集群的最佳性能。ECS搭配PolarDB集群是典型的業(yè)務(wù)訪問架構(gòu)。\n· Redis:Redis提供持久化的內(nèi)存數(shù)據(jù)庫服務(wù)。當(dāng)業(yè)務(wù)訪問量較大時,ECS 、PolarDB和Redis的組合可以支持更多的讀請求,同時減少響應(yīng)時間。\n· MongoDB:提供穩(wěn)定可靠、彈性伸縮、完全兼容MongoDB協(xié)議的數(shù)據(jù)庫服務(wù)。數(shù)據(jù)結(jié)構(gòu)多樣時,可以選擇將結(jié)構(gòu)化數(shù)據(jù)存儲在PolarDB,將非結(jié)構(gòu)化數(shù)據(jù)存儲在MongoDB,滿足業(yè)務(wù)的多樣化存儲需求。\n· DTS:您可以使用數(shù)據(jù)傳輸服務(wù)DTS將本地數(shù)據(jù)庫遷移到云上的PolarDB。\n· OSS:對象存儲服務(wù)OSS是阿里云提供的海量、安全、低成本、高可靠的云存儲服務(wù)。",
                        "content_length": 2572
                    },
                    "createTime": 1660034728000,
                    "fileUrl": "http://localhost:8092/fileInfo/profile/upload/fileInfo/2022/08/09/測試_20220809164527A001.docx",
                    "id": 1306333193,
                    "contentType": "文章",
                    "fileType": "docx"
                }
            },
            {
                "_index": "fileinfo",
                "_type": "_doc",
                "_id": "JDqshoIBbkTNu1UgkzFK",
                "_score": 1.0,
                "_source": {
                    "fileName": "txt測試_20220810153351A001.txt",
                    "updateTime": 1660116831000,
                    "attachment": {
                        "content_type": "text/plain; charset=UTF-8",
                        "language": "lt",
                        "content": "產(chǎn)品優(yōu)勢\r\n您可以像使用MySQL、PostgreSQL、Oracle一樣使用PolarDB。此外,PolarDB還有傳統(tǒng)數(shù)據(jù)庫不具備的優(yōu)勢:\r\n?\t大容量\r\n最高100 TB,您不再需要因為單機(jī)容量的天花板而去購買多個實(shí)例做分片,由此簡化應(yīng)用開發(fā),降低運(yùn)維負(fù)擔(dān)。\r\n?\t低成本\r\no\t共享存儲:計算與存儲分離,每增加一個只讀節(jié)點(diǎn)只收取計算資源的費(fèi)用,而傳統(tǒng)的只讀節(jié)點(diǎn)同時包含計算和存儲資源,每增加一個只讀節(jié)點(diǎn)需要支付相應(yīng)的存儲費(fèi)用。\r\no\t彈性存儲:存儲空間無需配置,根據(jù)數(shù)據(jù)量自動伸縮,您只需為實(shí)際使用的數(shù)據(jù)量按小時付費(fèi)。\r\no\t存儲包:PolarDB推出了預(yù)付費(fèi)形式的存儲包。當(dāng)您的數(shù)據(jù)量較大時,推薦您使用存儲包,相比按小時付費(fèi),預(yù)付費(fèi)購買存儲包有折扣,購買的容量越大,折扣力度越大。\r\no\t計算包:PolarDB首創(chuàng)計算包,用于抵扣計算節(jié)點(diǎn)的費(fèi)用,計算包兼顧了包年包月付費(fèi)方式的經(jīng)濟(jì)性和按量付費(fèi)方式的靈活性。您還可以將計算包與自動擴(kuò)縮容配合使用,在業(yè)務(wù)峰值前后實(shí)現(xiàn)自動彈性升降配,輕松應(yīng)對業(yè)務(wù)量波動。\r\n?\t高性能\r\n大幅提升OLTP性能,支持超過50萬次/秒的讀請求以及超過15萬次/秒的寫請求。\r\n?\t分鐘級擴(kuò)縮容\r\n存儲與計算分離的架構(gòu),配合容器虛擬化技術(shù)和共享存儲,增減節(jié)點(diǎn)只需5分鐘。存儲容量自動在線擴(kuò)容,無需中斷業(yè)務(wù)。\r\n?\t讀一致性\r\n集群地址利用LSN(Log Sequence Number)確保讀取數(shù)據(jù)時的全局一致性,避免因為主備延遲引起的不一致。\r\n?\t毫秒級延遲(物理復(fù)制)\r\n利用基于Redo的物理復(fù)制代替基于Binlog的邏輯復(fù)制,提升主備復(fù)制的效率和穩(wěn)定性。即使對大表進(jìn)行加索引、加字段等DDL操作,也不會造成數(shù)據(jù)庫的延遲。\r\n?\t秒級快速備份\r\n不論多大的數(shù)據(jù)量,全庫備份只需30秒,而且備份過程不會對數(shù)據(jù)庫加鎖,對應(yīng)用程序幾乎無影響,全天24小時均可進(jìn)行備份。",
                        "content_length": 804
                    },
                    "createTime": 1660116831000,
                    "fileUrl": "http://localhost:8092/fileInfo/profile/upload/fileInfo/2022/08/10/txt測試_20220810153351A001.txt",
                    "id": 1306333194,
                    "contentType": "告示",
                    "fileType": "txt"
                }
            }
        ]
    }
}

?我們調(diào)用上傳的接口,可以看到文本內(nèi)容已經(jīng)抽取到es里面了,后面就可以直接分詞檢索內(nèi)容,高亮顯示了


三.代碼

? ? ? ? 介紹下代碼實(shí)現(xiàn)邏輯:文件上傳,數(shù)據(jù)庫存儲附件信息和附件上傳地址;調(diào)用es實(shí)現(xiàn)文本內(nèi)容抽取,將抽取的內(nèi)容放到對應(yīng)索引下;提供小程序全文檢索的api實(shí)現(xiàn)根據(jù)文件名稱關(guān)鍵詞聯(lián)想,文件名稱內(nèi)容全文檢索模糊匹配,并高亮顯示分詞匹配字段;直接貼代碼

yml配置文件:

# 數(shù)據(jù)源配置
spring:
    # 服務(wù)模塊
    devtools:
        restart:
            # 熱部署開關(guān)
            enabled: true
    # 搜索引擎
    elasticsearch:
        rest:
            url: 127.0.0.1
            uris: 127.0.0.1:9200
            connection-timeout: 1000
            read-timeout: 3000
            username: elastic
            password: 123456

elsticsearchConfig(連接配置)

package com.yj.rselasticsearch.domain.config;

import org.apache.http.HttpHost;
import org.apache.http.auth.AuthScope;
import org.apache.http.auth.UsernamePasswordCredentials;
import org.apache.http.impl.client.BasicCredentialsProvider;
import org.elasticsearch.client.RestClient;
import org.elasticsearch.client.RestHighLevelClient;
import org.springframework.beans.factory.annotation.Value;
import org.springframework.context.annotation.Bean;
import org.springframework.context.annotation.Configuration;

import java.time.Duration;

@Configuration
public class ElasticsearchConfig {
    @Value("${spring.elasticsearch.rest.url}")
    private String edUrl;
    @Value("${spring.elasticsearch.rest.username}")
    private String userName;
    @Value("${spring.elasticsearch.rest.password}")
    private String password;

    @Bean
    public RestHighLevelClient restHighLevelClient() {
        //設(shè)置連接的用戶名密碼
        final BasicCredentialsProvider credentialsProvider = new BasicCredentialsProvider();
        credentialsProvider.setCredentials(AuthScope.ANY, new UsernamePasswordCredentials(userName, password));
        RestHighLevelClient client =  new RestHighLevelClient(RestClient.builder(
                        new HttpHost(edUrl, 9200,"http"))
                .setHttpClientConfigCallback(httpClientBuilder -> {
                    httpClientBuilder.disableAuthCaching();
                    //保持連接池處于鏈接狀態(tài),該bug曾導(dǎo)致es一段時間沒使用,第一次連接訪問超時
                    httpClientBuilder.setKeepAliveStrategy(((response, context) -> Duration.ofMinutes(5).toMillis()));
                    return httpClientBuilder.setDefaultCredentialsProvider(credentialsProvider);
                })
        );
        return client;
    }
}

文件上傳保存文件信息并抽取內(nèi)容到es

實(shí)體對象FileInfo

package com.yj.common.core.domain.entity;

import com.baomidou.mybatisplus.annotation.TableField;
import com.yj.common.core.domain.BaseEntity;
import lombok.Data;
import lombok.EqualsAndHashCode;
import lombok.Getter;
import lombok.Setter;
import org.springframework.data.elasticsearch.annotations.Document;
import org.springframework.data.elasticsearch.annotations.Field;
import org.springframework.data.elasticsearch.annotations.FieldType;

import java.util.Date;

@Setter
@Getter
@Document(indexName = "fileinfo",createIndex = false)
public class FileInfo {
    /**
    * 主鍵
    */
    @Field(name = "id", type = FieldType.Integer)
    private Integer id;

    /**
    * 文件名稱
    */
    @Field(name = "fileName", type = FieldType.Text,analyzer = "jieba_index",searchAnalyzer = "jieba_index")
    private String fileName;

    /**
    * 文件類型
    */
    @Field(name = "fileType",  type = FieldType.Keyword)
    private String fileType;

    /**
    * 內(nèi)容類型
    */
    @Field(name = "contentType", type = FieldType.Text)
    private String contentType;

    /**
     * 附件內(nèi)容
     */
    @Field(name = "attachment.content", type = FieldType.Text,analyzer = "jieba_index",searchAnalyzer = "jieba_index")
    @TableField(exist = false)
    private String content;

    /**
    * 文件地址
    */
    @Field(name = "fileUrl", type = FieldType.Text)
    private String fileUrl;

    /**
     * 創(chuàng)建時間
     */
    private Date createTime;

    /**
     * 更新時間
     */
    private Date updateTime;
}

controller類

package com.yj.rselasticsearch.controller;

import com.yj.common.core.controller.BaseController;
import com.yj.common.core.domain.AjaxResult;
import com.yj.common.core.domain.entity.FileInfo;
import com.yj.rselasticsearch.service.FileInfoService;
import org.springframework.web.bind.annotation.*;
import org.springframework.web.multipart.MultipartFile;

import javax.annotation.Resource;

/**
 * (file_info)表控制層
 *
 * @author xxxxx
 */
@RestController
@RequestMapping("/fileInfo")
public class FileInfoController extends BaseController {
    /**
     * 服務(wù)對象
     */
    @Resource
    private FileInfoService fileInfoService;


    @PutMapping("uploadFile")
    public AjaxResult uploadFile(String contentType, MultipartFile file) {
        return fileInfoService.uploadFileInfo(contentType,file);
    }


}

serviceImpl實(shí)現(xiàn)類

package com.yj.rselasticsearch.service.impl;

import com.alibaba.fastjson.JSON;
import com.baomidou.mybatisplus.core.conditions.query.LambdaQueryWrapper;
import com.yj.common.config.RuoYiConfig;
import com.yj.common.core.domain.AjaxResult;
import com.yj.common.utils.FastUtils;
import com.yj.common.utils.StringUtils;
import com.yj.common.utils.file.FileUploadUtils;
import com.yj.common.utils.file.FileUtils;
import com.yj.framework.config.ServerConfig;
import lombok.extern.slf4j.Slf4j;
import org.elasticsearch.action.index.IndexRequest;
import org.elasticsearch.action.index.IndexResponse;
import org.elasticsearch.client.RequestOptions;
import org.elasticsearch.client.RestHighLevelClient;
import org.elasticsearch.common.xcontent.XContentType;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.beans.factory.annotation.Qualifier;
import org.springframework.data.elasticsearch.core.ElasticsearchRestTemplate;
import org.springframework.stereotype.Service;
import javax.annotation.Resource;
import com.yj.common.core.domain.entity.FileInfo;
import com.yj.rselasticsearch.mapper.FileInfoMapper;
import com.yj.rselasticsearch.service.FileInfoService;
import org.springframework.web.multipart.MultipartFile;

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.util.Base64;

@Service
@Slf4j
public class FileInfoServiceImpl implements FileInfoService{
    @Resource
    private ServerConfig serverConfig;

    @Autowired
    @Qualifier("restHighLevelClient")
    private RestHighLevelClient client;

    @Resource
    private FileInfoMapper fileInfoMapper;

    /**
     * 上傳文件并進(jìn)行文件內(nèi)容識別上傳到es
     * @param contentType
     * @param file
     * @return
     */
    @Override
    public AjaxResult uploadFileInfo(String contentType, MultipartFile file) {
        if (FastUtils.checkNullOrEmpty(contentType,file)){
            return AjaxResult.error("請求參數(shù)不能為空");
        }
        try {
            // 上傳文件路徑
            String filePath = RuoYiConfig.getUploadPath() + "/fileInfo";
            FileInfo fileInfo = new FileInfo();
            // 上傳并返回新文件名稱
            String fileName = FileUploadUtils.upload(filePath, file);
            String prefix = fileName.substring(fileName.lastIndexOf(".")+1);
            File files = File.createTempFile(fileName, prefix);
            file.transferTo(files);
            String url = serverConfig.getUrl() + "/fileInfo" + fileName;
            fileInfo.setFileName(FileUtils.getName(fileName));
            fileInfo.setFileType(prefix);
            fileInfo.setFileUrl(url);
            fileInfo.setContentType(contentType);
            int result = fileInfoMapper.insertSelective(fileInfo);
            if (result > 0) {
                fileInfo = fileInfoMapper.selectOne(new LambdaQueryWrapper<FileInfo>().eq(FileInfo::getFileUrl,fileInfo.getFileUrl()));
                byte[] bytes = getContent(files);
                String base64 = Base64.getEncoder().encodeToString(bytes);
                fileInfo.setContent(base64);
                IndexRequest indexRequest = new IndexRequest("fileinfo");
                //上傳同時,使用attachment pipline進(jìn)行提取文件
                indexRequest.source(JSON.toJSONString(fileInfo), XContentType.JSON);
                indexRequest.setPipeline("attachment");
                IndexResponse indexResponse = client.index(indexRequest, RequestOptions.DEFAULT);
                log.info("indexResponse:" + indexResponse);
            }
            AjaxResult ajax = AjaxResult.success(fileInfo);
            return ajax;
        } catch (Exception e) {
            return AjaxResult.error(e.getMessage());
        }
    }


     /**
     * 文件轉(zhuǎn)base64
     *
     * @param file
     * @return
     * @throws IOException
     */
    private byte[] getContent(File file) throws IOException {

        long fileSize = file.length();
        if (fileSize > Integer.MAX_VALUE) {
            log.info("file too big...");
            return null;
        }
        FileInputStream fi = new FileInputStream(file);
        byte[] buffer = new byte[(int) fileSize];
        int offset = 0;
        int numRead = 0;
        while (offset < buffer.length
                && (numRead = fi.read(buffer, offset, buffer.length - offset)) >= 0) {
            offset += numRead;
        }
        // 確保所有數(shù)據(jù)均被讀取
        if (offset != buffer.length) {
            throw new ServiceException("Could not completely read file "
                    + file.getName());
        }
        fi.close();
        return buffer;
    }
}

高亮分詞檢索

參數(shù)請求WarningInfoDto

package com.yj.rselasticsearch.domain.dto;

import com.yj.common.core.domain.entity.WarningInfo;
import io.swagger.annotations.ApiModel;
import io.swagger.annotations.ApiModelProperty;
import lombok.Data;

import java.util.List;

/**
 * 前端請求數(shù)據(jù)傳輸
 * WarningInfo
 * @author luoY
 */
@Data
@ApiModel(value ="WarningInfoDto",description = "告警信息")
public class WarningInfoDto{
    /**
     * 頁數(shù)
     */
    @ApiModelProperty("頁數(shù)")
    private Integer pageIndex;

    /**
     * 每頁數(shù)量
     */
    @ApiModelProperty("每頁數(shù)量")
    private Integer pageSize;

    /**
     * 查詢關(guān)鍵詞
     */
    @ApiModelProperty("查詢關(guān)鍵詞")
    private String keyword;

    /**
     * 內(nèi)容類型
     */
    private List<String> contentType;

    /**
     * 用戶手機(jī)號
     */
    private String phone;
}

controller類

package com.yj.rselasticsearch.controller;

import com.baomidou.mybatisplus.core.metadata.IPage;
import com.yj.common.core.controller.BaseController;
import com.yj.common.core.domain.AjaxResult;
import com.yj.common.core.domain.entity.FileInfo;
import com.yj.common.core.domain.entity.WarningInfo;
import com.yj.rselasticsearch.service.ElasticsearchService;
import com.yj.rselasticsearch.service.WarningInfoService;
import io.swagger.annotations.Api;
import io.swagger.annotations.ApiImplicitParam;
import io.swagger.annotations.ApiImplicitParams;
import io.swagger.annotations.ApiOperation;
import org.springframework.web.bind.annotation.*;
import com.yj.rselasticsearch.domain.dto.WarningInfoDto;

import javax.annotation.Resource;
import javax.servlet.http.HttpServletRequest;
import java.util.List;

/**
 * es搜索引擎
 *
 * @author luoy
 */
@Api("搜索引擎")
@RestController
@RequestMapping("es")
public class ElasticsearchController extends BaseController {
    @Resource
    private ElasticsearchService elasticsearchService;

    /**
     * 告警信息關(guān)鍵詞聯(lián)想
     *
     * @param warningInfoDto
     * @return
     */
    @ApiOperation("關(guān)鍵詞聯(lián)想")
    @ApiImplicitParams({
            @ApiImplicitParam(name = "contenttype", value = "文檔類型", required = true, dataType = "String", dataTypeClass = String.class),
            @ApiImplicitParam(name = "keyword", value = "關(guān)鍵詞", required = true, dataType = "String", dataTypeClass = String.class)
    })
    @PostMapping("getAssociationalWordDoc")
    public AjaxResult getAssociationalWordDoc(@RequestBody WarningInfoDto warningInfoDto, HttpServletRequest request) {
        List<String> words = elasticsearchService.getAssociationalWordOther(warningInfoDto,request);
        return AjaxResult.success(words);
    }


    /**
     * 告警信息高亮分詞分頁查詢
     *
     * @param warningInfoDto
     * @return
     */
    @ApiOperation("高亮分詞分頁查詢")
    @ApiImplicitParams({
            @ApiImplicitParam(name = "keyword", value = "關(guān)鍵詞", required = true, dataType = "String", dataTypeClass = String.class),
            @ApiImplicitParam(name = "pageIndex", value = "頁碼", required = true, dataType = "Integer", dataTypeClass = Integer.class),
            @ApiImplicitParam(name = "pageSize", value = "頁數(shù)", required = true, dataType = "Integer", dataTypeClass = Integer.class),
            @ApiImplicitParam(name = "contenttype", value = "文檔類型", required = true, dataType = "String", dataTypeClass = String.class)
    })
    @PostMapping("queryHighLightWordDoc")
    public AjaxResult queryHighLightWordDoc(@RequestBody WarningInfoDto warningInfoDto,HttpServletRequest request) {
        IPage<FileInfo> warningInfoListPage = elasticsearchService.queryHighLightWordOther(warningInfoDto,request);
        return AjaxResult.success(warningInfoListPage);
    }
}

serviceImpl實(shí)現(xiàn)類

package com.yj.rselasticsearch.service.impl;

import com.alibaba.fastjson.JSON;
import com.baomidou.mybatisplus.core.conditions.query.LambdaQueryWrapper;
import com.baomidou.mybatisplus.core.metadata.IPage;
import com.baomidou.mybatisplus.extension.plugins.pagination.Page;
import com.yj.common.constant.DataConstants;
import com.yj.common.constant.HttpStatus;
import com.yj.common.core.domain.entity.FileInfo;
import com.yj.common.core.domain.entity.WarningInfo;
import com.yj.common.core.domain.entity.WhiteList;
import com.yj.common.core.redis.RedisCache;
import com.yj.common.exception.ServiceException;
import com.yj.common.utils.FastUtils;
import com.yj.rselasticsearch.domain.dto.RetrievalRecordDto;
import com.yj.rselasticsearch.domain.dto.WarningInfoDto;
import com.yj.rselasticsearch.domain.vo.MemberVo;
import com.yj.rselasticsearch.service.*;
import lombok.extern.slf4j.Slf4j;
import org.elasticsearch.action.bulk.BulkRequest;
import org.elasticsearch.action.bulk.BulkResponse;
import org.elasticsearch.action.index.IndexRequest;
import org.elasticsearch.client.RequestOptions;
import org.elasticsearch.client.RestHighLevelClient;
import org.elasticsearch.common.xcontent.XContentType;
import org.elasticsearch.index.query.BoolQueryBuilder;
import org.elasticsearch.index.query.Operator;
import org.elasticsearch.index.query.QueryBuilders;
import org.elasticsearch.search.fetch.subphase.highlight.HighlightBuilder;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.beans.factory.annotation.Qualifier;
import org.springframework.data.domain.PageRequest;
import org.springframework.data.domain.Pageable;
import org.springframework.data.elasticsearch.core.ElasticsearchRestTemplate;
import org.springframework.data.elasticsearch.core.SearchHits;
import org.springframework.data.elasticsearch.core.query.*;
import org.springframework.stereotype.Service;

import javax.annotation.Resource;
import javax.servlet.http.HttpServletRequest;
import java.util.*;
import java.util.stream.Collectors;

@Service
@Slf4j
public class ElasticsearchServiceImpl implements ElasticsearchService {

    @Resource
    private WhiteListService whiteListService;

    @Autowired
    @Qualifier("restHighLevelClient")
    private RestHighLevelClient client;

    @Autowired
    private RedisCache redisCache;

    @Resource
    private TokenService tokenService;


    /**
     * 文檔信息關(guān)鍵詞聯(lián)想(根據(jù)輸入框的詞語聯(lián)想文件名稱)
     *
     * @param warningInfoDto
     * @return
     */
    @Override
    public List<String> getAssociationalWordOther(WarningInfoDto warningInfoDto, HttpServletRequest request) {
        //需要查詢的字段
        BoolQueryBuilder boolQueryBuilder = QueryBuilders.boolQuery()
                .should(QueryBuilders.matchBoolPrefixQuery("fileName", warningInfoDto.getKeyword()));
        //contentType標(biāo)簽內(nèi)容過濾
        boolQueryBuilder.must(QueryBuilders.termsQuery("contentType", warningInfoDto.getContentType()));
        //構(gòu)建高亮查詢
        NativeSearchQuery searchQuery = new NativeSearchQueryBuilder()
                .withQuery(boolQueryBuilder)
                .withHighlightFields(
                        new HighlightBuilder.Field("fileName")
                )
                .withHighlightBuilder(new HighlightBuilder().preTags("<span style='color:red'>").postTags("</span>"))
                .build();
        //查詢
        SearchHits<FileInfo> search = null;
        try {
            search = elasticsearchRestTemplate.search(searchQuery, FileInfo.class);
        } catch (Exception ex) {
            ex.printStackTrace();
            throw new ServiceException(String.format("操作錯誤,請聯(lián)系管理員!%s", ex.getMessage()));
        }
        //設(shè)置一個最后需要返回的實(shí)體類集合
        List<String> resultList = new LinkedList<>();
        //遍歷返回的內(nèi)容進(jìn)行處理
        for (org.springframework.data.elasticsearch.core.SearchHit<FileInfo> searchHit : search.getSearchHits()) {
            //高亮的內(nèi)容
            Map<String, List<String>> highlightFields = searchHit.getHighlightFields();
            //將高亮的內(nèi)容填充到content中
            searchHit.getContent().setFileName(highlightFields.get("fileName") == null ? searchHit.getContent().getFileName() : highlightFields.get("fileName").get(0));
            if (highlightFields.get("fileName") != null) {
                resultList.add(searchHit.getContent().getFileName());
            }
        }
        //list去重
        List<String> newResult = null;
        if (!FastUtils.checkNullOrEmpty(resultList)) {
            if (resultList.size() > 9) {
                newResult = resultList.stream().distinct().collect(Collectors.toList()).subList(0, 9);
            } else {
                newResult = resultList.stream().distinct().collect(Collectors.toList());
            }
        }
        return newResult;
    }

    /**
     * 高亮分詞搜索其它類型文檔
     *
     * @param warningInfoDto
     * @param request
     * @return
     */
    @Override
    public IPage<FileInfo> queryHighLightWordOther(WarningInfoDto warningInfoDto, HttpServletRequest request) {
        //分頁
        Pageable pageable = PageRequest.of(warningInfoDto.getPageIndex() - 1, warningInfoDto.getPageSize());
         //需要查詢的字段,根據(jù)輸入的內(nèi)容分詞全文檢索fileName和content字段
        BoolQueryBuilder boolQueryBuilder = QueryBuilders.boolQuery()
                .should(QueryBuilders.matchBoolPrefixQuery("fileName", warningInfoDto.getKeyword()))
                .should(QueryBuilders.matchBoolPrefixQuery("attachment.content", warningInfoDto.getKeyword()));
        //contentType標(biāo)簽內(nèi)容過濾
        boolQueryBuilder.must(QueryBuilders.termsQuery("contentType", warningInfoDto.getContentType()));
        //構(gòu)建高亮查詢
        NativeSearchQuery searchQuery = new NativeSearchQueryBuilder()
                .withQuery(boolQueryBuilder)
                .withHighlightFields(
                        new HighlightBuilder.Field("fileName"), new HighlightBuilder.Field("attachment.content")
                )
                .withHighlightBuilder(new HighlightBuilder().preTags("<span style='color:red'>").postTags("</span>"))
                .build();
        //查詢
        SearchHits<FileInfo> search = null;
        try {
            search = elasticsearchRestTemplate.search(searchQuery, FileInfo.class);
        } catch (Exception ex) {
            ex.printStackTrace();
            throw new ServiceException(String.format("操作錯誤,請聯(lián)系管理員!%s", ex.getMessage()));
        }
        //設(shè)置一個最后需要返回的實(shí)體類集合
        List<FileInfo> resultList = new LinkedList<>();
        //遍歷返回的內(nèi)容進(jìn)行處理
        for (org.springframework.data.elasticsearch.core.SearchHit<FileInfo> searchHit : search.getSearchHits()) {
            //高亮的內(nèi)容
            Map<String, List<String>> highlightFields = searchHit.getHighlightFields();
            //將高亮的內(nèi)容填充到content中
            searchHit.getContent().setFileName(highlightFields.get("fileName") == null ? searchHit.getContent().getFileName() : highlightFields.get("fileName").get(0));
            searchHit.getContent().setContent(highlightFields.get("content") == null ? searchHit.getContent().getContent() : highlightFields.get("content").get(0));
            resultList.add(searchHit.getContent());
        }
        //手動分頁返回信息
        IPage<FileInfo> warningInfoIPage = new Page<>();
        warningInfoIPage.setTotal(search.getTotalHits());
        warningInfoIPage.setRecords(resultList);
        warningInfoIPage.setCurrent(warningInfoDto.getPageIndex());
        warningInfoIPage.setSize(warningInfoDto.getPageSize());
        warningInfoIPage.setPages(warningInfoIPage.getTotal() % warningInfoDto.getPageSize());
        return warningInfoIPage;
    }
}

代碼測試:

springboot+Elasticsearch實(shí)現(xiàn)word,pdf,txt內(nèi)容抽取并高亮分詞全文檢索

--請求jason
{
    "keyword":"全庫備份",
    "contentType":["告示"],
    "pageIndex":1,
    "pageSize":10
}


--響應(yīng)
{
    "msg": "操作成功",
    "code": 200,
    "data": {
        "records": [
            {
                "id": 1306333194,
                "fileName": "txt測試_20220810153351A001.txt",
                "fileType": "txt",
                "contentType": "告示",
                "content": "?\t秒級快速<span style='color:red'>備份</span>\r\n不論多大的數(shù)據(jù)量,<span style='color:red'>全庫</span><span style='color:red'>備份</span>只需30秒,而且<span style='color:red'>備份過程</span>不會對數(shù)據(jù)庫加鎖,對應(yīng)用程序幾乎無影響,全天24小時均可進(jìn)行<span style='color:red'>備份</span>。",
                "fileUrl": "http://localhost:8092/fileInfo/profile/upload/fileInfo/2022/08/10/txt測試_20220810153351A001.txt",
                "createTime": "2022-08-10T15:33:51.000+08:00",
                "updateTime": "2022-08-10T15:33:51.000+08:00"
            }
        ],
        "total": 1,
        "size": 10,
        "current": 1,
        "orders": [],
        "optimizeCountSql": true,
        "searchCount": true,
        "countId": null,
        "maxLimit": null,
        "pages": 1
    }
}

?返回的內(nèi)容將分詞檢索到匹配的內(nèi)容,并將匹配的詞高亮顯示文章來源地址http://www.zghlxwxcb.cn/news/detail-406015.html

到了這里,關(guān)于springboot+Elasticsearch實(shí)現(xiàn)word,pdf,txt內(nèi)容抽取并高亮分詞全文檢索的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【vue2】純前端實(shí)現(xiàn)本地的pdf/word/epub文件預(yù)覽(包括pdf選中文字,epub高亮等)

    需求是預(yù)覽本地的pdf/word/epub格式的文件,但是搜索后發(fā)現(xiàn)沒有可以直接使用的,格式不同,顯示的方式和效果也都略有不同。 最后還是 分別實(shí)現(xiàn)預(yù)覽 的功能。 如果只需要預(yù)覽pdf/word等格式的話,可以使用的方案:vue-office,支持多種文件(docx、excel、pdf)預(yù)覽的vue組件庫,支持

    2024年02月11日
    瀏覽(32)
  • 文檔在線預(yù)覽(四)將word、txt、ppt、excel、圖片轉(zhuǎn)成pdf來實(shí)現(xiàn)在線預(yù)覽

    文檔在線預(yù)覽(四)將word、txt、ppt、excel、圖片轉(zhuǎn)成pdf來實(shí)現(xiàn)在線預(yù)覽

    @ 目錄 事前準(zhǔn)備 1、需要的maven依賴 添加spire依賴(商用,有免費(fèi)版,但是存在頁數(shù)和字?jǐn)?shù)限制,不采用spire方式可不添加) 2、后面用到的工具類代碼: 一、word文件轉(zhuǎn)pdf文件(支持doc、docx) 1、使用aspose方式 2、使用poi方式 3、使用spire方式 二、txt文件轉(zhuǎn)pdf文件 三、PPT文件轉(zhuǎn)

    2024年02月08日
    瀏覽(109)
  • vue實(shí)戰(zhàn)--vue+elementUI實(shí)現(xiàn)多文件上傳+預(yù)覽(word/PDF/圖片/docx/doc/xlxs/txt)

    vue實(shí)戰(zhàn)--vue+elementUI實(shí)現(xiàn)多文件上傳+預(yù)覽(word/PDF/圖片/docx/doc/xlxs/txt)

    ????最近在做vue2.0+element UI的項目中遇到了一個需求:需求是多個文件上傳的同時實(shí)現(xiàn)文件的在線預(yù)覽功能。需求圖如下: ????看到這個需求的時候,小栗腦袋一炸。并不知道該如何下手,之前的實(shí)踐項目中也并沒有遇到相似的功能。因此也廢了一番功夫想要實(shí)現(xiàn)這樣一個

    2024年01月23日
    瀏覽(36)
  • PDF或圖片文檔內(nèi)容識別、關(guān)系抽取

    PDF或圖片文檔內(nèi)容識別、關(guān)系抽取

    ? ? ? ? 自動識別法院和公積金中心的文書(調(diào)解書、判決書、裁定書、通知書)掃描件(PDF或圖片),獲取特定結(jié)構(gòu)的數(shù)據(jù),自動對比。抽取結(jié)構(gòu)如: 執(zhí)行 搭建label studio標(biāo)記,標(biāo)記完成后導(dǎo)出JSON。 Label Studio JSON轉(zhuǎn)Doccano JSON 構(gòu)造數(shù)據(jù)集 工具,命名為utils.py ? 訓(xùn)練 ?模型部

    2024年02月08日
    瀏覽(36)
  • 【Elasticsearch】SpringBoot整合ES實(shí)現(xiàn)搜索功能 | 高亮顯示

    【Elasticsearch】SpringBoot整合ES實(shí)現(xiàn)搜索功能 | 高亮顯示

    先看代碼: controller: serviceImpl: 小結(jié) : 1、添加ES場景啟動器 2、yaml配置ES 3、準(zhǔn)備需要用到的變量 注:還有一個注入的RestHighLevelClient 結(jié)構(gòu)如下: 具體調(diào)用的方法以及設(shè)置頁碼等參看代碼。 加斷點(diǎn)查看對應(yīng)searchResponse數(shù)據(jù)結(jié)構(gòu): HighlightFields的數(shù)據(jù)結(jié)構(gòu): 對照kinaba結(jié)果: 3、根

    2024年02月11日
    瀏覽(26)
  • SpringBoot 整合ElasticSearch實(shí)現(xiàn)模糊查詢,批量CRUD,排序,分頁,高亮

    SpringBoot 整合ElasticSearch實(shí)現(xiàn)模糊查詢,批量CRUD,排序,分頁,高亮

    準(zhǔn)備一個空的SpringBoot項目 寫入依賴 注意你的SpringBoot和你的es版本,一定要對應(yīng),如果不知道的可以查看這篇文章:https://blog.csdn.net/u014641168/article/details/130386872 我的版本是2.2.6,所以用的ES版本是 6.8.12,安裝es請看這篇文章:https://blog.csdn.net/u014641168/article/details/130622430 查看

    2024年02月08日
    瀏覽(41)
  • Python打開文件并進(jìn)行處理,txt、excel、pdf、word!

    Python打開文件并進(jìn)行處理,txt、excel、pdf、word!

    在辦公處理中,我們常常要打開一些文件,面臨大量的數(shù)據(jù)時,傳統(tǒng)的人工方法耗時耗力。在python中,有一系列包裝好的庫,讓我們能夠很方便的操作各種類型的文件。當(dāng)然,python的內(nèi)置函數(shù)也能夠很好的打開一些文件。本文主要探討python打開各類文件的方式。本文介紹的主

    2023年04月08日
    瀏覽(88)
  • Python - 讀取pdf、word、excel、ppt、csv、txt文件提取所有文本

    本文對使用python讀取pdf、word、excel、ppt、csv、txt等常用文件,并提取所有文本的方法進(jìn)行分享和使用總結(jié)。 可以讀取不同文件的庫和方法當(dāng)然不止下面分享的這些,本文的代碼主要目標(biāo)都是:方便提取文件中所有文本的實(shí)現(xiàn)方式。 這些庫的更多使用方法,請到官方文檔中查

    2024年02月13日
    瀏覽(641)
  • 【學(xué)習(xí)記錄20】vue使用blob流預(yù)覽word ,Excel,pdf,TXT,圖片,視頻

    TXT,PDF直接使用瀏覽器本身預(yù)覽 excel使用插件?xlsx, 這個插件需要用到arraybuffer的流格式,我是使用前端轉(zhuǎn)換的詳見js代碼,也可以叫后臺返回arraybuffer的數(shù)據(jù)流 word 使用插件??docx-preview 話不多說直接上菜,css樣式自己調(diào)就行 npm install xlsx --save npm install docx-preview --save 思路來

    2024年02月13日
    瀏覽(25)
  • 使用Elasticsearch進(jìn)行word,excel,PDF的全文檢索 windows實(shí)現(xiàn) 超完整(ingest-attachment實(shí)現(xiàn))

    使用Elasticsearch進(jìn)行word,excel,PDF的全文檢索 windows實(shí)現(xiàn) 超完整(ingest-attachment實(shí)現(xiàn))

    首先要明確的一點(diǎn)就是Elasticsearch的版本要和ingest-attachment的版本一致,要不然沒辦法安裝。然后還有一點(diǎn)JAVA版本要在11以上 先說說原理吧,其實(shí)就是將文件base64編碼,然后再用插件讀取文件內(nèi)容并保存到es中。 安裝完jdk之后用cmd查看一下java -version看看是否已經(jīng)從1.8修改為了

    2024年02月13日
    瀏覽(20)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包