自然語(yǔ)言處理 (Natural Language Processing - NLP) 是人工智能 (AI) 的一個(gè)分支,專注于盡可能接近人類解釋的理解人類語(yǔ)言,將計(jì)算語(yǔ)言學(xué)與統(tǒng)計(jì)、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型相結(jié)合。
- AI - Artificial Inteligence 人工智能
- ML - Machine Learning 機(jī)器學(xué)習(xí)
- DL - Deep Learning? 深度學(xué)習(xí)
- NLP - Naturual Language Processing 自然語(yǔ)音處理
NLP 任務(wù)的一些示例
- 命名實(shí)體識(shí)別(Named Entity Recognition, NER)是一種信息抽取,將單詞或短語(yǔ)識(shí)別為實(shí)體。
我們可以使用 Huggingface 上的模型來(lái)進(jìn)行測(cè)試。 你可以進(jìn)一步閱讀文章 “Elasticsearch:如何部署 NLP:命名實(shí)體識(shí)別 (NER) 示例”。
- 情感分析(Sentiment Analysis)是一種文本分類,試圖從文本中提取主觀情緒。
我們可以使用 Huggingface 上的模型來(lái)進(jìn)行測(cè)試。你可以更進(jìn)一步閱讀文章 “Elasticsearch:如何部署 NLP:情緒分析示例”。
根據(jù)您的用例,可以使用更多示例。你可以閱讀文章 “Elastic:開(kāi)發(fā)者上手指南” 中的 “NLP - 自然語(yǔ)言處理” 以了解更多。
BERT
2018 年,谷歌采購(gòu)了一種名為 BERT 的預(yù)訓(xùn)練 NLP 新技術(shù)。
BERT 使用 “遷移學(xué)習(xí),transfer learning”,這是預(yù)訓(xùn)練語(yǔ)言表示的方法。 預(yù)訓(xùn)練指的是 BERT 最初是如何使用無(wú)監(jiān)督學(xué)習(xí)對(duì)從樣本集合(8 億字)和維基百科文檔(25 億字)中提取的大量純文本進(jìn)行訓(xùn)練的。 較早的模型需要手動(dòng)標(biāo)記。
BERT 接受了兩項(xiàng)任務(wù)的預(yù)訓(xùn)練:語(yǔ)言建模(15% 的標(biāo)記被屏蔽,并且 BERT 被訓(xùn)練從上下文中預(yù)測(cè)它們)和下一句預(yù)測(cè)(給出第一句話,BERT 被訓(xùn)練來(lái)預(yù)測(cè)所選擇的下一句話是與否) . 有了這種理解,BERT 就可以很容易地適應(yīng)許多其他類型的 NLP 任務(wù)。
了解意圖和上下文而不僅僅是關(guān)鍵字,可以以更接近人類理解方式的方式進(jìn)一步理解。 pre-trained 模型可以更進(jìn)一步進(jìn)行微調(diào)而演變?yōu)槠渌哪P停?/p>
使用 Elastic 的自然語(yǔ)言處理
為了支持使用與 BERT 相同的分詞器的模型,Elastic 支持 PyTorch 庫(kù),這是最流行的機(jī)器學(xué)習(xí)庫(kù)之一,支持像 BERT 使用的 Transformer 架構(gòu)這樣的神經(jīng)網(wǎng)絡(luò),支持 NLP 任務(wù)。
一般來(lái)說(shuō),任何具有受支持架構(gòu)的訓(xùn)練模型都可以部署在 Elasticsearch 中,包括 BERT 和變體。
這些模型按 NLP 任務(wù)列出。 目前,這些是支持的任務(wù):
- 提取信息(Extract information)
????????命名實(shí)體識(shí)別(Named entity recognition)
????????填充遮罩(Fill-mask)
????????問(wèn)題解答(Question answering)
- 分類文本(Classify text)
????????語(yǔ)言識(shí)別(Language identification)
????????文本分類(Text classification)
????????零樣本文本分類(Zero-shot text classification)
- 搜索和比較文本(Search and compare text)
????????文本嵌入(Text embedding)
????????文本相似度(Text similarity)
導(dǎo)入經(jīng)過(guò)訓(xùn)練的模型后,你可以使用它進(jìn)行預(yù)測(cè)(inference)。
注意:對(duì)于 NLP 任務(wù),你必須選擇并部署第三方 NLP 模型。 如果你選擇執(zhí)行語(yǔ)言識(shí)別,作為一個(gè)選項(xiàng),我們?cè)诩褐刑峁┝私?jīng)過(guò)訓(xùn)練的模型 lang_ident_model_1。
具有 Elastic 解決方案的 NLP
有許多可能的用例可以將 NLP 功能添加到你的 Elastic 項(xiàng)目中,以下是一些示例:
安全
垃圾郵件檢測(cè):文本分類功能可用于掃描電子郵件中通常表示垃圾郵件的語(yǔ)言,允許阻止或刪除內(nèi)容并防止惡意電子郵件。
PUT spam-detection/_doc/1
{
"email subject": "Camera - You are awarded a SiPix Digital Camera! Call 09061221066. Delivery within 28 days.",
"is_spam": true
}
企業(yè)搜索
非結(jié)構(gòu)化文本分析:實(shí)體識(shí)別對(duì)于構(gòu)建文本數(shù)據(jù)、向文檔添加新字段類型以及允許你分析更多數(shù)據(jù)并獲得更有價(jià)值的見(jiàn)解非常有用。
PUT /source-index
{
"mappings": {
"properties": {
"input": { "type": "text" }
}
}
}
PUT /new-index
{
"mappings": {
"properties": {
"input": { "type": "text" },
"organization": { "type": "keyword" },
"location": { "type": "keyword" }
}
}
}
可觀察性
服務(wù)請(qǐng)求和事件數(shù)據(jù):從操作數(shù)據(jù)(包括工單解決評(píng)論)中提取意義,不僅可以讓你在事件期間生成警報(bào),還可以通過(guò)觀察你的應(yīng)用程序、預(yù)測(cè)行為并獲得更多數(shù)據(jù)來(lái)縮短工單解決時(shí)間。
文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-451528.html
...
"_source": {
"support_ticket_id": 119237,
"customer_id": 283823,
"timestamp": "2021-06-06T17:23:02.770Z",
"text_field": "Response to the case was fast and problem was solved after first response, did not need to provide any additional info.",
"ml": {
"inference": {
"predicted_value": "positive",
"prediction_probability": 0.9499962712516151,
"model_id": "heBERT_sentiment_analysis"
}
}
}
...
從上面的評(píng)論中,我們可以看出來(lái)反饋是 positive 的,也就是正面的。對(duì)于電影影評(píng)來(lái)說(shuō),我們可以通過(guò)這個(gè)來(lái)判斷影評(píng)是正面評(píng)論的多還是負(fù)面的多。我們甚至可以使用可視化圖來(lái)描述它們。更多閱讀,請(qǐng)參閱 “Elasticsearch:在滿意度調(diào)查中實(shí)現(xiàn)并使用情緒分析器”。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-451528.html
到了這里,關(guān)于Elasticsearch:NLP 和 Elastic:入門的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!