KV存儲
REMIX: Efficient Range Query for LSM-trees
FAST 2021 Paper?泛讀筆記文章來源:http://www.zghlxwxcb.cn/news/detail-817164.html
針對LSM樹同時優(yōu)化讀寫性能的問題,現(xiàn)有方法通過壓縮提升讀性能,但會導致讀放大或寫放大。作者利用新存儲硬件的性能,隨機讀和順序讀性能相近,因此提出構建邏輯排序視圖優(yōu)化范圍查詢,因為減少了真正的壓縮操作,同時減少了寫放大。
Differentiated Key-Value Storage Management for Balanced I/O Performance
ATC 2021 Paper?泛讀筆記
同時優(yōu)化LSM-tree的讀、寫、范圍查詢性能。作者提出使用傳統(tǒng)的LSM樹管理鍵,在LSM樹的每個級別內具有完全排序,同時以一種協(xié)調的方式管理值,使其相對于鍵的完全排序具有部分排序的順序,以保持高掃描性能;通過狀態(tài)感知的惰性GC方案來實現(xiàn)高空間效率和高性能;提出了細粒度的KV分離,區(qū)分小型、中型和大型KV對的管理,以實現(xiàn)混合工作負載下性能平衡;提出了熱感知多日志設計,用于有效管理大型KV對。
ROLEX: A Scalable RDMA-oriented Learned Key-Value Store for Disaggregated Memory Systems
FAST 2023 Paper?泛讀筆記
針對分離式內存系統(tǒng)中,KV存儲性能不高的問題,由于內存節(jié)點資源有限,現(xiàn)有方法難以直接修改B樹或學習索引的模型。作者提出提出了ROLEX,一種可擴展的面向RDMA的有序鍵值存儲,使用分解存儲系統(tǒng)的學習索引。包括幾個優(yōu)化點:插入和再訓練操作解耦,使計算節(jié)點能夠直接通過單邊RDMA動詞修改遠程數(shù)據(jù),而無需再訓練模型,提高可擴展性;其他計算節(jié)點通過具有一致性保證的舊模型來識別新修改的數(shù)據(jù);異步使用專用計算資源重新訓練模型,以提高模型的準確性。
ADOC: Automatically Harmonizing Dataflow Between Components in Log-Structured Key-Value Stores for Improved Performance
FAST 2023 Paper?泛讀筆記
對LSM-KV中寫停頓現(xiàn)象進行分析,發(fā)現(xiàn)之前的分析原因是有效的,但并不普遍適用。通過實驗分析寫停頓的原因是數(shù)據(jù)溢出,指由于數(shù)據(jù)流入其中一個組件而導致LSM-KV系統(tǒng)中一個或多個組件迅速擴展。提出了ADOC(自動數(shù)據(jù)溢出控制)的調整框架,在組件之間平衡和協(xié)調數(shù)據(jù)流,以調整系統(tǒng)配置:線程數(shù)和批處理大小,而不是簡單地等待溢出的數(shù)據(jù)按默認方式消耗。從而緩解寫停頓的問題。
RubbleDB: CPU-Efficient Replication with NVMe-oF
ATC 2023 Paper?泛讀筆記
在包含多個數(shù)據(jù)副本的KV存儲系統(tǒng)中,如何減少壓縮的CPU利用率。作者利用網(wǎng)絡和NVME-oF,在單個節(jié)點上壓縮,壓縮后傳輸?shù)狡渌麖椭乒?jié)點上。為了實現(xiàn)文件系統(tǒng)的同步,提出為數(shù)據(jù)預分配固定的磁盤空間,通過維護映射表確保復制節(jié)點的文件系統(tǒng)同步。為了實現(xiàn)應用級同步,提出在副本之間應用版本編輯順序的方法,確保各復制節(jié)點執(zhí)行順序一致,避免刪除導致的節(jié)點間不一致問題。
All-Flash Array Key-Value Cache for Large Objects
EuroSys 2023 Paper?泛讀筆記
針對AFA規(guī)模的KV緩存系統(tǒng),用于大型對象。針對三個挑戰(zhàn):(1)龐大的元數(shù)據(jù)導致的高索引開銷,(2)過期對象造成的空間浪費,(3)頻繁的SSD故障導致的服務中斷。為了解決這些問題并提高緩存命中率,提出三種技術:無視沖突的兩級哈希表,使用緊湊的每個對象 16B 元數(shù)據(jù),將整個哈希表存儲在 SSD 中,將熱門條目通過組相連緩存在 DRAM 中;近似TTL管理,將 TTL 相似的對象存儲到同一空間,使用粗粒度分組快速識別過期對象;反應式容錯機制,跨分片緩存空間處理故障,僅在故障顯現(xiàn)時處理,將分片與故障隔離來保持高可用性,無需奇偶校驗的開銷。
Vigil-KV: Hardware-Software Co-Design to Integrate Strong Latency Determinism into Log-Structured Merge Key-Value Stores
ATC 2022 Paper?泛讀筆記
針對生產(chǎn)環(huán)境的日志結構合并的鍵值存儲(LSM KV),如何保證確定性的延遲。作者提出硬件和軟件協(xié)同設計的框架:通過啟用可預測的延遲模式(PLM)接口,在特定的時間窗口強制執(zhí)行確定性的讀取延遲;在系統(tǒng)級別上,通過在多個物理功能內部調度 PLM 的不同設備狀態(tài),來隱藏與 SSD 的內部任務和/或寫服務相關的非確定性時間窗口;進一步調度壓縮/刷新操作和客戶端請求,將強大的延遲確定性集成到 LSM KV 中。
Tebis: Index Shipping for Efficient Replication in LSM Key-Value Stores
EuroSys 2022 Paper?泛讀筆記
針對包含多個數(shù)據(jù)副本的KV存儲系統(tǒng),如何減少壓縮和CPU利用率。作者提出只在主節(jié)點進行壓縮,并將預構建的索引發(fā)送到備份節(jié)點,減少備份節(jié)點的I/O放大、CPU開銷和內存利用率;提出備份節(jié)點上索引的高效重寫機制,通過創(chuàng)建主備節(jié)點間段的映射,通過映射重寫備份中的設備位置;利用RDMA進行數(shù)據(jù)傳輸,減少CPU開銷和通信操作。
Building an Efficient Key-Value Store in a Flexible Address Space
EuroSys 2022 Paper?泛讀筆記
針對數(shù)據(jù)管理應用程序需要按序排序數(shù)據(jù),但現(xiàn)有文件系統(tǒng)無法支持原地更新,導致大量的數(shù)據(jù)重寫和為支持原地更新的額外間接層開銷。本文提出基于B+Tree優(yōu)化的FlexTree,將地址空間移動時間減少到 ??(log ??) ;基于FlexTree提出FlexSpace,基于日志的空間管理以提高寫入效率,基于數(shù)據(jù)訪問局部性執(zhí)行碎片整理以降低成本,基于邏輯日志記錄 [50, 67] 以低成本提交元數(shù)據(jù)更新;在FlexSpace上實現(xiàn)了FlexDB,在持久的靈活地址空間中維護所有 KV 對的完全排序順序,無需使用復雜的間接方式或進行密集的數(shù)據(jù)重寫。
ChameleonDB: a Key-value Store for Optane Persistent Memory
EuroSys 2021 Paper?泛讀筆記
針對PM環(huán)境下的KV系統(tǒng),利用PM的兩個特點:作為塊設備以256B為單元寫入,具有高讀取性能。設計了ChameleonDB,為混合內存/存儲設備設計的KV存儲系統(tǒng)。使用LSM樹結構以低寫放大的方式高效地接收寫入;利用DRAM中的哈希表,以繞過LSM樹的多個層級,實現(xiàn)快速讀??;在后臺維護LSM多級結構,以實現(xiàn)快速的崩潰恢復;使用動態(tài)讀取保護模式,使用混合結構吸收突發(fā)的寫入工作負載,避免讀取長尾延遲。
Improving Performance of Flash Based Key-Value Stores Using Storage Class Memory as a Volatile Memory Extension
ATC 2021 Paper?泛讀筆記
利用存儲類存儲器SCM(類似PM)優(yōu)化KV存儲的成本,作為DRAM和閃存的中間硬件,保證性能的同時降低成本。作者對Facebook上的所有基于閃存的KV存儲部署進行分析,確定優(yōu)化目標,為優(yōu)化讀性能;確定了RocksDB最大的內存消耗組件,用于提供讀請求的塊緩存,設計利用DRAM和SCM的延遲差異的混合分層緩存。DRAM充當?shù)谝粚泳彺妫鎯︻l繁訪問的數(shù)據(jù),SCM充當?shù)诙泳彺?,存儲不太?jīng)常訪問的數(shù)據(jù);設計了管理DRAM和SCM之間數(shù)據(jù)傳輸?shù)木彺娼蛹{和內存分配策略。
分離式內存
Scaling Up Memory Disaggregated Applications with Smart
ASPLOS 2024 Paper?泛讀筆記
對RNIC內部架構進行深入分析,發(fā)現(xiàn)內存分解應用吞吐量受到三個主要的瓶頸的限制:(1) 門鈴寄存器的隱式爭用;(2) 由于過多未完成的工作請求引起的緩存崩潰; (3) 由于CAS重試失敗導致的IOPS浪費。針對3個問題作者分別提出解決方案:通過通用的線程感知RDMA資源(例如門鈴寄存器)分配機制,來解決門鈴寄存器的隱式爭用;提出了一種基于信用的節(jié)流策略,其中深度閾值是根據(jù)當前工作負載自動確定的,解決由于過多未完成的工作請求引起的緩存崩潰;提出了一種自適應退避技術,抑制不成功的CAS(compare-and-swap)操作的并發(fā)性,解決CAS重試失敗導致的IOPS浪費。
邊緣計算
R2: A Distributed Remote Function Execution Mechanism With Built-In Metadata
TON 2023 Paper?泛讀筆記
針對邊緣計算場景,如何以分布式的方式選擇最優(yōu)執(zhí)行者,以獲得執(zhí)行任務的最小端到端延遲。作者利用命名數(shù)據(jù)網(wǎng)絡(NDN),設計了包括數(shù)據(jù)、函數(shù)名、函數(shù)參數(shù)的命名結構;根據(jù)客戶端函數(shù)請求到數(shù)據(jù)源檢索數(shù)據(jù),同時根據(jù)檢索過程中的數(shù)據(jù)摘要、節(jié)點狀態(tài)、網(wǎng)絡條件選擇執(zhí)行器;提出了停止條件,減少執(zhí)行器的選擇范圍和選擇時間。
數(shù)據(jù)庫
Distributed Transactions at Scale in Amazon DynamoDB
ATC 2023 Paper?泛讀筆記
目標在不影響客戶所期望的規(guī)模、可用性、耐用性和可預測性的情況下,將事務添加到DynamoDB。作者時間戳排序將事務設計為具有樂觀并發(fā)控制的單次操作,以確保事務既可串行化又可擴展。同時實現(xiàn)各種事務要求:事務作為單一請求提交;事務依賴于事務協(xié)調器,而非事務操作則繞過兩階段協(xié)調器;事務原地更新項目;事務不獲取鎖;事務使用時間戳按順序排序。
Evolution of Development Priorities in Key-value Stores Serving Large-scale Applications: The RocksDB Experience
FAST 2021 Paper?泛讀筆記
對廣泛使用的RocksDB發(fā)展方向進行總結 ,根據(jù)實際生產(chǎn)中面臨的挑戰(zhàn)不斷優(yōu)化RocksDB性能。資源優(yōu)化目標從寫放大演變到空間放大,再到CPU利用率;資源分配需要在不同的RocksDB實例之間進行管理;數(shù)據(jù)格式需要保持向前和向后兼容,以允許增量式的軟件部署;需要適當支持數(shù)據(jù)庫復制和備份;需要在系統(tǒng)的每一層次上更早地檢測到數(shù)據(jù)損壞錯誤。文章來源地址http://www.zghlxwxcb.cn/news/detail-817164.html
到了這里,關于論文閱讀筆記整理(持續(xù)更新)的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!