国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<td id="nuru2"></td>

<tbody id="nuru2"><tr id="nuru2"></tr></tbody>

<object id="nuru2"><progress id="nuru2"></progress></object>

<th id="nuru2"><input id="nuru2"></input></th>

^{<legend id="nuru2"></legend>}

<tr id="nuru2"><strong id="nuru2"></strong></tr>

我們?nèi)绾卧?Elasticsearch 8.6、8.7 和 8.8 中加速數(shù)據(jù)攝入

2年前作者：Elastic 中國社區(qū)官方博客分類：Toy博客閱讀(23)違法舉報

這篇具有很好參考價值的文章主要介紹了我們?nèi)绾卧?Elasticsearch 8.6、8.7 和 8.8 中加速數(shù)據(jù)攝入。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

作者：Adrien Grand, Joe Gallo, Tyler Perkins

我們?nèi)绾卧?Elasticsearch 8.6、8.7 和 8.8 中加速數(shù)據(jù)攝入,Elasticsearch,Elastic,elasticsearch,大數(shù)據(jù),搜索引擎,全文檢索,數(shù)據(jù)庫,時序數(shù)據(jù)庫

正如你們中的一些人已經(jīng)注意到的，Elasticsearch 8.6、8.7 和 8.8 在各種數(shù)據(jù)集上帶來了良好的索引加速，從簡單的關(guān)鍵字到繁重的 KNN 向量，以及攝取管道繁重的攝取工作負載。攝取涉及許多組件 —— 運行攝取管道、反轉(zhuǎn)內(nèi)存中的數(shù)據(jù)、刷新段、合并段 —— 所有這些通常都需要不可忽略的時間。對你來說幸運的是，我們在所有這些領(lǐng)域都進行了改進，從而實現(xiàn)了更快的端到端攝取速度。

例如，在我們的基準測試中，8.8 的攝取速度比 8.6 快 13%，該基準模擬了具有多個數(shù)據(jù)集、攝取管道等的實際日志記錄用例。下圖顯示了在我們實施這些優(yōu)化期間，攝取率從約 22.5k 文檔/秒變?yōu)榧s 25.5k 文檔/秒。

我們?nèi)绾卧?Elasticsearch 8.6、8.7 和 8.8 中加速數(shù)據(jù)攝入,Elasticsearch,Elastic,elasticsearch,大數(shù)據(jù),搜索引擎,全文檢索,數(shù)據(jù)庫,時序數(shù)據(jù)庫

本博客深入探討了一些有助于在 8.6、8.7 和 8.8 中實現(xiàn)攝取加速的更改。

更快地合并 kNN 向量

Elasticsearch 的 kNN 搜索的底層結(jié)構(gòu)是 Lucene 的分層可導(dǎo)航小世界 (HNSW) 圖。該圖甚至可以在數(shù)百萬個向量上提供異?？焖俚?kNN 搜索。然而，構(gòu)建圖表本身可能是一項昂貴的任務(wù)；它需要在現(xiàn)有圖上執(zhí)行多次搜索、建立連接并更新當前的鄰居集。在 Elasticsearch 8.8 之前，當合并段（segements）時，會創(chuàng)建一個全新的 HNSW 圖索引 - 這意味著來自每個段的每個向量都被單獨添加到一個完全空的圖中。隨著段規(guī)模的擴大，其數(shù)量也會增加，而合并的成本可能會高得令人望而卻步。

在 Elasticsearch 8.8 中，Lucene 在合并 HNSW 圖方面做出了重大改進。 Lucene 智能地重用現(xiàn)有最大的 HNSW 圖。因此，Lucene 不再像以前那樣從空圖開始，而是利用之前完成的所有工作來構(gòu)建現(xiàn)有的最大分段。當合并較大的段，這一變化的影響非常顯著。在我們自己的基準測試中，我們發(fā)現(xiàn)合并所用時間減少了 40% 以上，刷新吞吐量提高了一倍多。這顯著減少了索引較大矢量數(shù)據(jù)集時集群所經(jīng)歷的負載。

優(yōu)化攝取管道

攝取管道（ingest pipelines）在索引文檔之前使用處理器對文檔執(zhí)行轉(zhuǎn)換 - 例如，設(shè)置或刪除字段、解析日期或 JSON 字符串等值，以及使用 IP 地址或其他數(shù)據(jù)豐富查找地理位置。通過攝取管道，可以從日志文件發(fā)送文本行，并讓 Elasticsearch 完成繁重的工作，將該文本轉(zhuǎn)換為結(jié)構(gòu)化文檔。我們的大多數(shù)開箱即用的集成（integrations）都使用攝取管道，使你能夠在幾分鐘內(nèi)解析和豐富新的數(shù)據(jù)源。

在 8.6 和 8.7 中，我們通過多種方式優(yōu)化了攝取管道和處理器：

我們已經(jīng)消除了單個文檔經(jīng)過多個管道處理的大部分開銷。
我們優(yōu)化了一些最常用的處理器：
- 使用 mustache 模板的 set 和 append 處理器現(xiàn)在可以更快地創(chuàng)建模板模型和執(zhí)行?mustache 模板。
- Date 處理器現(xiàn)在緩存其關(guān)聯(lián)的日期解析器。
- Geoip 處理器不再依賴反射（reflection）。
- 在 8.6.0 中，我們通過兩種方式優(yōu)化了無痛腳本，改進了腳本處理器和條件檢查。
此外，攝取處理的總體指標和統(tǒng)計數(shù)據(jù)比以前更準確：
- 正確考慮了管道執(zhí)行后序列化數(shù)據(jù)所花費的時間。
- 針對多個管道執(zhí)行的文檔僅計數(shù)一次。
最后，低級熱代碼的優(yōu)化減少了所有處理文檔的開銷，例如更快的集合交集、更快的元數(shù)據(jù)驗證和更快的自引用檢查。

結(jié)合所有這些改進，我們的每日安全集成基準的攝取管道性能提高了 45%，每日日志記錄集成基準的攝取管道性能提高了 35%。

我們?nèi)绾卧?Elasticsearch 8.6、8.7 和 8.8 中加速數(shù)據(jù)攝入,Elasticsearch,Elastic,elasticsearch,大數(shù)據(jù),搜索引擎,全文檢索,數(shù)據(jù)庫,時序數(shù)據(jù)庫

我們預(yù)計這些加速能夠在升級到 8.7 或更新版本后，一些重要的攝入用例將會看到的改進。?

關(guān)鍵字和數(shù)字字段的優(yōu)化

我們有許多數(shù)據(jù)集，其中大多數(shù)字段都是簡單的數(shù)字和關(guān)鍵字字段，它們將自動受益于這些字段類型的改進。兩項主要改進有助于索引這些字段類型：

Elasticsearch 在適用時切換到 Lucene 的 IntField、LongField、FloatField 和 DoubleField（Lucene 9.5 中的新增功能）以及 Lucene 的 KeywordField（Lucene 9.6 中的新增功能）。這些字段允許用戶在單個 Lucene 字段上啟用索引（indexing）和文檔值（doc values） - 否則您需要提供兩個字段：一個啟用索引，另一個啟用文檔值。事實證明，這一旨在使 Lucene 更加用戶友好的更改也有助于提高索引率，超出了我們的預(yù)期！請參閱注釋 AH 和 AJ 以了解這些更改對 Lucene 夜間基準測試的影響。
簡單的關(guān)鍵字現(xiàn)在可以直接索引，而不是通過 TokenStream 抽象。 TokenStreams 通常是分析器的輸出，并公開術(shù)語、位置、偏移量和有效負載 - 為文本字段構(gòu)建倒排索引所需的所有信息。為了保持一致性，還使用簡單關(guān)鍵字通過生成返回單個標記的 TokenStream 來進行索引。現(xiàn)在，關(guān)鍵字值會直接被索引，而無需經(jīng)過 TokenStream 抽象。請參閱注釋 AH 以了解此更改對 Lucene 的夜間基準測試的影響。

索引排序的優(yōu)化

索引排序是一項強大的功能，可以通過提前終止查詢或?qū)⒖赡芘c相同查詢匹配的文檔聚集在一起來加速查詢。此外，索引排序是時間序列數(shù)據(jù)流基礎(chǔ)的一部分。因此，我們花了一些時間來解決索引排序的一些索引時間瓶頸。這使得我們的基準攝取加速了 12%，該基準攝取了按 @timestamp 降序排序的簡單 HTTP 日志數(shù)據(jù)集。

基于時間的數(shù)據(jù)的新合并策略

直到最近，Elasticsearch 一直依賴 Lucene 的默認合并策略：TieredMergePolicy。這是一個非常明智的合并策略，它嘗試將段組織成指數(shù)大小的層，其中默認情況下每層有 10 個段。它擅長計算廉價的合并、回收刪除等。那么為什么要使用不同的合并策略呢？

時序數(shù)據(jù)的特殊之處在于它通常以近似@timestamp的順序?qū)懭?，因此通過后續(xù)刷新操作形成的段時間戳范圍通常是不會重疊的。對于在@timestamp字段上進行范圍查詢，這是一個有趣的屬性，因為許多段要么根本不與查詢范圍重疊，要么完全包含在查詢范圍內(nèi)，這是處理范圍查詢非常高效的兩種情況。不幸的是，段時間戳范圍不重疊的特性會被TieredMergePolicy破壞，因為它更樂意將不相鄰的段合并在一起。

所以有@timestamp日期類型字段的分片現(xiàn)在使用Lucene的LogByteSizeMergePolicy，它是TieredMergePolicy的前身. 兩者之間的一個關(guān)鍵區(qū)別是LogByteSizeMergePolicy只會合并相鄰的段，所以在假設(shè)數(shù)據(jù)以 @timestamp 順序?qū)懭氲那闆r下，這可以使得合并后段的@timestamp屬性繼續(xù)保持不會重疊。這個變化使得在EQL 基準測試中一些查詢速度加快了多達3倍，這些查詢需要按“@timestamp”順序遍歷事件的序列！

但這個屬性也有一個缺點，因為LogByteSizeMergePolicy在計算相等大小段的合并方面不如 TieredMergePolicy靈活，這是通過合并限制寫入放大的最佳方法。為了減輕這種不利影響，合并因子已從TieredMergePolicy的10提高到 32。雖然增加合并因子通常會使搜索速度變慢，但由于在相同的合并因子下， LogByteSizeMergePolicy比TieredMergePolicy會更積極地合并數(shù)據(jù)，并且保留段的@timestamp 范圍不重疊極大地幫助了時間戳字段的范圍查詢，通常對于時序數(shù)據(jù)最常用的就是根據(jù)時間戳進行過濾。

這就是對 8.6、8.7 和 8.8寫入性能提升的分析。我們會在后續(xù)多個小版本中帶來更多的加速優(yōu)化，敬請期待！

想要詳細了解每個版本中包含的內(nèi)容嗎？閱讀他們各自的發(fā)布博客以了解詳細信息：

8.6 release blog
8.7 release blog
8.8 release blog
Elasticsearch 3rd Party Performance Report

原文：How we sped up data ingestion in Elasticsearch 8.6, 8.7, and 8.8 | Elastic Blog文章來源地址http://www.zghlxwxcb.cn/news/detail-606672.html

到了這里，關(guān)于我們?nèi)绾卧?Elasticsearch 8.6、8.7 和 8.8 中加速數(shù)據(jù)攝入的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

Observability：如何使用 Elastic Agents 把定制的日志攝入到 Elasticsearch 中
在我之前的文章 “Observability：使用 Elastic Agent 來攝入日志及指標 - Elastic Stack 8.0”，我詳細地描述了如何安裝 Elasticsearch，Stack 及 Elastic Agents 來采集系統(tǒng)日志及指標。很多開發(fā)者可能會有疑問，在我們的實際使用中，我們更多的可能是需要采集定制的應(yīng)用日志，而不是系統(tǒng)日
2024年02月02日
瀏覽(22)
ElasticSearch 8.6集群搭建
一、系統(tǒng)信息操作系統(tǒng)版本：CentOS Linux release 8.4.2105 elasticsearch版本： 8.6.1 機器信息：主機名 ip地址 CPU 內(nèi)存(G) 數(shù)據(jù)盤 es01 192.168.205.25 16 32 /data/(500G) es02 192.168.205.26 16 32 /data/(500G) es03 192.168.205.27 16 32 /data/(500G) 二、操作系統(tǒng)初始化配置 1、關(guān)閉防火墻和selinux 2、操作系統(tǒng)參數(shù)優(yōu)
2023年04月09日
瀏覽(15)
Elasticsearch [8.7] 安裝與配置
使用 uname -a 查看 Linux 系統(tǒng)內(nèi)核與版本，選擇對應(yīng)的安裝包，下文以 Linux x86_64 / Elasticsearch 8.7 為例，演示通過 RPM 和壓縮包兩種方式的安裝步驟。 Download Elasticsearch Install Elasticsearch with RPM 安裝完畢后展示以下信息，記得保存安裝完畢后的 elastic 賬號密碼 Install Elasticsearch f
2024年02月06日
瀏覽(21)
elasticsearch6.8.6安裝配置
?參考文章： elasticsearch安裝配置_qianhuan_的博客-CSDN博客_elasticsearch安裝配置 CentOS7.3安裝elasticsearch6.8.6 - 簡書 java1.8+ 下載地址：解壓elasticsearch-6.8.6.tar.gz tar -zxvf?elasticsearch-6.8.6.tar.gz 啟動es必須創(chuàng)建用戶，不能使用root啟動 useradd esuser 分配權(quán)限 chown -R esuser?elasticsearch-6.8.6(安裝
2024年02月10日
瀏覽(34)
Elasticsearch：我們?nèi)绾窝莼幚矶M制文檔格式
作者：來自 Elastic?Sean Story 從二進制文件中提取內(nèi)容是一個常見的用例。一些 PDF 文件可能非常龐大 — 考慮到幾 GB 甚至更多。Elastic 在處理此類文檔方面已經(jīng)取得了長足的進步，今天，我們很高興地介紹我們的新工具 —— 數(shù)據(jù)提取服務(wù)：發(fā)布于 8.9 版本，截至目前，沒有報
2024年04月10日
瀏覽(28)
Elasticsearch教程—Elasticsearch Java API Client [8.6]開發(fā)入門（官方原版）
大家好,我是Doker！ Java 8 或更高版本。一個 JSON 對象映射庫，允許無縫集成您的應(yīng)用程序類與 Elasticsearch API 一起。Java 客戶端具有支持 Jackson 或 Eclipse Yasson 等 JSON-B 庫。 Java API客戶端由三個主要組件組成： API客戶端類。這些為Elasticsearch API提供了強類型的數(shù)據(jù)結(jié)構(gòu)和方法。
2024年02月13日
瀏覽(22)
【ELK】Elasticsearch 8.7單節(jié)點配置、安裝和運行
時間來到了2023年4月，今天和大家一起研究下在虛擬機安裝Elasticsearch 8.7.0單節(jié)點。首先，就是一個很熟悉的報錯嗯，許久不碰es了，忘了不能使用root用戶運行了。趕緊創(chuàng)建一個普通用戶…… 關(guān)于elasticsearch.yml的配置，8.7.0版本默認啟用了xpack.security認證。再次啟動，又出現(xiàn)兩
2024年02月11日
瀏覽(13)
譯文：我們?nèi)绾问?Elasticsearch 7.11 中的 date_histogram 聚合比以往更快
這篇文章是ES7.11版本的文章，主要學(xué)習(xí)的是思路，記錄在這里留作以后參考用。原文地址：https://www.elastic.co/cn/blog/how-we-made-date-histogram-aggregations-faster-than-ever-in-elasticsearch-7-11 Elasticsearch 的 date_histogram 聚合是 Kibana 的 Discover 和 Logs Monitoring UI 的基石。我經(jīng)常使用它來調(diào)查構(gòu)建
2024年02月04日
瀏覽(19)
Enterprise：通過 App search 攝入數(shù)據(jù)
App Search 是 Elastic Enterprise Search 的一部分，Elastic Enterprise Search 是由 Elasticsearch 提供支持的內(nèi)容搜索工具集合。最初由 App Search 引入的一些功能（例如網(wǎng)絡(luò)爬蟲）現(xiàn)在可以直接通過企業(yè)搜索使用。將這些功能與其他企業(yè)搜索工具（例如連接器和搜索 UI 庫）相結(jié)合。在今天的
2024年02月16日
瀏覽(18)
Elasticsearch：什么是向量和向量存儲數(shù)據(jù)庫，我們?yōu)槭裁搓P(guān)心？
Elasticsearch 從 7.3 版本開始支持向量搜索。從 8.0 開始支持帶有 HNSW 的 ANN 向量搜索。目前 Elasticsearch 已經(jīng)是全球下載量最多的向量數(shù)據(jù)庫。它允許使用密集向量和向量比較來搜索文檔。向量搜索在人工智能和機器學(xué)習(xí)領(lǐng)域有許多重要的應(yīng)用。有效存儲和檢索向量的數(shù)據(jù)庫對于
2024年02月08日
瀏覽(31)

~~^{<dd id="v40yk"></dd>}~~

<td id="v40yk"><output id="v40yk"></output></td>

^{<td id="v40yk"></td>}