機器學習定義
機器學習 (ML) 是人工智能 (AI) 的一個分支,專注于使用數(shù)據(jù)和算法來模仿人類的學習方式,并隨著時間的推移逐漸提高準確性。 計算機科學家和人工智能創(chuàng)新者 Arthur Samuel 在 20 世紀 50 年代首次將其定義為 “賦予計算機無需明確編程即可學習能力的研究領域”。
機器學習涉及將大量數(shù)據(jù)輸入計算機算法,以便它們能夠?qū)W習識別該數(shù)據(jù)集中的模式和關系。 然后,算法開始根據(jù)分析做出自己的預測或決策。 當算法接收到新數(shù)據(jù)時,它們會繼續(xù)完善自己的選擇并提高其表現(xiàn),就像一個人通過練習在某項活動中變得更好一樣。
機器學習有哪四種類型?
機器學習的四種類型是監(jiān)督機器學習、無監(jiān)督機器學習、半監(jiān)督學習和強化學習。
- 監(jiān)督機器學習是最常見的機器學習類型。 在監(jiān)督學習模型中,算法從標記的訓練數(shù)據(jù)集中學習并隨著時間的推移提高其準確性。 它旨在構建一個模型,當接收到以前從未見過的新數(shù)據(jù)時,該模型可以正確預測目標變量。 一個例子是人類標記和輸入玫瑰以及其他花朵的圖像。 當該算法收到新的、未標記的玫瑰圖像時,它可以正確識別一朵玫瑰。
- 無監(jiān)督機器學習是指算法在未標記且沒有目標變量的數(shù)據(jù)中搜索模式。 目標是找到人類可能尚未識別的數(shù)據(jù)中的模式和關系,例如檢測日志、跟蹤和指標中的異常以發(fā)現(xiàn)系統(tǒng)問題和安全威脅。
- 半監(jiān)督學習是監(jiān)督和無監(jiān)督機器學習的混合體。 在半監(jiān)督學習中,算法對標記數(shù)據(jù)和未標記數(shù)據(jù)進行訓練。 它首先從一小組標記數(shù)據(jù)中學習,根據(jù)可用信息做出預測或決策。 然后,它使用更大的未標記數(shù)據(jù)集,通過查找數(shù)據(jù)中的模式和關系來完善其預測或決策。
- 強化學習是指算法通過對其行為進行獎勵或懲罰的形式獲得反饋,通過反復試驗來學習。 一些例子包括:訓練人工智能代理玩視頻游戲,它會因提升水平而獲得積極獎勵,并因失敗而受到懲罰; 優(yōu)化供應鏈,代理商因最小化成本和最大化交付速度而獲得獎勵; 或推薦系統(tǒng),代理推薦產(chǎn)品或內(nèi)容并通過購買和點擊獲得獎勵。
機器學習是如何工作的?
機器學習可以以不同的方式發(fā)揮作用。 你可以將經(jīng)過訓練的機器學習模型應用于新數(shù)據(jù),也可以從頭開始訓練新模型。
將訓練有素的機器學習模型應用于新數(shù)據(jù)通常是一個更快且資源密集度較低的過程。 你無需通過訓練來開發(fā)參數(shù),而是使用模型的參數(shù)對輸入數(shù)據(jù)進行預測,這一過程稱為推理。 你也不需要評估其性能,因為它已經(jīng)在訓練階段進行了評估。 但是,它確實需要你仔細準備輸入數(shù)據(jù),以確保其格式與用于訓練模型的數(shù)據(jù)相同。
訓練新的機器學習模型涉及以下步驟:
數(shù)據(jù)采集
首先選擇你的數(shù)據(jù)集。 數(shù)據(jù)可以來自多種來源,例如系統(tǒng)日志、指標和跟蹤。 除了日志和指標之外,其他幾種類型的時間序列數(shù)據(jù)在機器學習訓練中也很重要,包括:
- 金融市場數(shù)據(jù),例如股票價格、利率和外匯匯率。 這些數(shù)據(jù)通常用于構建用于交易和投資目的的預測模型。
- 交通時間序列數(shù)據(jù),例如交通量、速度和行程時間。 這可用于優(yōu)化路線并減少交通擁堵。
- 產(chǎn)品使用數(shù)據(jù),例如網(wǎng)站流量和社交媒體參與度。 這可以幫助公司了解客戶行為并確定需要改進的領域。
無論你使用什么數(shù)據(jù),它都應該與你試圖解決的問題相關,并且應該代表你想要做出預測或決策的人群。
數(shù)據(jù)預處理
收集數(shù)據(jù)后,你需要對其進行預處理以使其可供機器學習算法使用。 這有時涉及標記數(shù)據(jù),或為數(shù)據(jù)集中的每個數(shù)據(jù)點分配特定類別或值,這允許機器學習模型學習模式并做出預測。
此外,它還可能涉及刪除缺失值、通過應用聚合將時間序列數(shù)據(jù)轉換為更緊湊的格式,以及縮放數(shù)據(jù)以確保所有特征具有相似的范圍。 擁有大量帶標簽的訓練數(shù)據(jù)是深度神經(jīng)網(wǎng)絡的要求,例如大型語言模型 (LLM)。 對于經(jīng)典的監(jiān)督模型,你不需要處理那么多。
特征選擇
某些方法要求你選擇模型將使用的特征。 本質(zhì)上,你必須確定與你要解決的問題最相關的變量或?qū)傩浴?相關性是識別特征的基本方法。 為了進一步優(yōu)化,許多機器學習框架都提供并支持自動特征選擇方法。
選型
現(xiàn)在你已經(jīng)選擇了功能,你需要選擇一個非常適合你要解決的問題的機器學習模型。 一些選項包括回歸模型、決策樹和神經(jīng)網(wǎng)絡。 (請參閱下面的 “機器學習技術和算法”。)
訓練
選擇模型后,你需要使用收集和預處理的數(shù)據(jù)對其進行訓練。 訓練是算法學習識別數(shù)據(jù)中的模式和關系并將其編碼到模型參數(shù)中的過程。 為了實現(xiàn)最佳性能,訓練是一個迭代過程。 這可以包括調(diào)整模型超參數(shù)以及改進數(shù)據(jù)處理和特征選擇。
測試
現(xiàn)在模型已經(jīng)經(jīng)過訓練,你需要在以前未見過的新數(shù)據(jù)上對其進行測試,并將其性能與其他模型進行比較。 你選擇性能最佳的模型并根據(jù)單獨的測試數(shù)據(jù)評估其性能。 只有以前未使用的數(shù)據(jù)才能讓你很好地估計模型部署后的性能。
模型部署
一旦你對模型的性能感到滿意,你就可以將其部署在生產(chǎn)環(huán)境中,讓它可以實時做出預測或決策。 這可能涉及將模型與其他系統(tǒng)或軟件應用程序集成。 與流行的云計算提供商集成的機器學習框架使模型部署到云變得非常容易。
監(jiān)控和更新
部署模型后,你需要監(jiān)控其性能,并在新數(shù)據(jù)可用或你嘗試解決的問題隨著時間的推移發(fā)生變化時定期更新。 這可能意味著使用新數(shù)據(jù)重新訓練模型、調(diào)整其參數(shù)或完全選擇不同的機器學習算法。
為什么機器學習很重要?
機器學習很重要,因為它學會使用示例來執(zhí)行復雜的任務,而無需編寫專門的算法。 與傳統(tǒng)算法方法相比,機器學習使你能夠?qū)崿F(xiàn)更多自動化、改善客戶體驗并創(chuàng)建以前不可行的創(chuàng)新應用程序。 而且,機器學習模型可以在使用過程中迭代地自我改進! 示例包括:
- 預測趨勢以改進業(yè)務決策
- 個性化建議可增加收入和客戶滿意度
- 自動監(jiān)控復雜應用程序和 IT 基礎設施
- 識別垃圾郵件并發(fā)現(xiàn)安全漏洞
機器學習技術和算法
有許多可用的機器學習技術和算法。 你選擇的方法將取決于你要解決的問題和數(shù)據(jù)的特征。 以下是一些更常見的快速概述: 當目標是預測連續(xù)變量時,使用線性回歸(linear regression)。
- 線性回歸 (linear regression) 假設輸入變量和目標變量之間存在線性關系。 一個例子是將房價預測為平方英尺、位置、臥室數(shù)量和其他特征的線性組合。
- 邏輯回歸 (logistic regression) 用于二元分類問題,其目標是預測是/否結果。 邏輯回歸基于輸入變量的線性模型估計目標變量的概率。 一個例子是根據(jù)申請人的信用評分和其他財務數(shù)據(jù)來預測貸款申請是否會被批準。
- 決策樹 (decision trrees) 遵循樹狀模型,將決策映射到可能的后果。 每個決策(規(guī)則)代表一個輸入變量的測試,并且可以按照樹狀模型連續(xù)應用多個規(guī)則。 它使用樹的每個節(jié)點上最重要的特征將數(shù)據(jù)分成子集。 例如,決策樹可用于根據(jù)人口統(tǒng)計數(shù)據(jù)和興趣來識別營銷活動的潛在客戶。
- 隨機森林 (random forests) 結合多個決策樹來提高預測精度。 每個決策樹都根據(jù)訓練數(shù)據(jù)的隨機子集和輸入變量的子集進行訓練。 隨機森林比單個決策樹更準確,并且可以更好地處理復雜的數(shù)據(jù)集或丟失的數(shù)據(jù),但它們可能會變得相當大,在推理中使用時需要更多的內(nèi)存。
- 增強決策樹 (boosted decsion trees) 訓練一系列決策樹,每個決策樹都比前一個決策樹有所改進。 提升過程采用決策樹的先前迭代錯誤分類的數(shù)據(jù)點,并重新訓練新的決策樹以改進對這些先前錯誤分類點的分類。 流行的 XGBoost Python 包實現(xiàn)了該算法。
- 支持向量機 (support vector machines) 致力于找到一個超平面,該超平面能夠最好地將一類數(shù)據(jù)點與另一類數(shù)據(jù)點分開。 它通過最小化類之間的 “間隔” 來實現(xiàn)這一點。 支持向量是指識別分離超平面位置的少數(shù)觀測值,分離超平面由三個點定義。 標準 SVM 算法僅適用于二元分類。 多類問題被簡化為一系列二元問題。
- 神經(jīng)網(wǎng)絡 (neural network) 的靈感來自于人腦的結構和功能。 它們由互連的節(jié)點層組成,這些節(jié)點可以通過調(diào)整節(jié)點之間的連接強度來學習識別數(shù)據(jù)模式。
- 聚類算法 (clustering algorithms) 用于根據(jù)數(shù)據(jù)點的相似性將數(shù)據(jù)點分組為聚類。 它們可用于客戶細分和異常檢測等任務。 它對于圖像分割和處理特別有用。
機器學習有哪些優(yōu)勢?
機器學習的優(yōu)點很多。 它可以幫助你的團隊在以下類別中達到更高的績效水平:
- 自動化:由于重復性或客觀困難而對人類具有挑戰(zhàn)性的認知任務可以通過機器學習實現(xiàn)自動化。 示例包括監(jiān)控復雜的網(wǎng)絡系統(tǒng)、識別復雜系統(tǒng)中的可疑活動以及預測設備何時需要維護。
- 客戶體驗:機器學習模型提供的智能可以提升用戶體驗。 對于搜索驅(qū)動的應用程序,捕獲意圖和偏好可以讓你提供更相關和個性化的結果。 用戶可以搜索并找到它們的含義。
- 創(chuàng)新:機器學習解決了專用算法無法解決的復雜問題。 例如,搜索包括圖像或聲音在內(nèi)的非結構化數(shù)據(jù),優(yōu)化交通模式并改善公共交通系統(tǒng),以及診斷健康狀況。
了解機器學習如何將搜索提升到新的水平
機器學習用例
以下是機器學習的一些子類別及其用例:
- 情感分析 (sentiment analysis) 是使用自然語言處理來分析文本數(shù)據(jù)并確定其整體情感是積極、消極還是中性的過程。 它對于尋求客戶反饋的企業(yè)非常有用,因為它可以分析各種數(shù)據(jù)源(例如 Twitter 上的推文、Facebook 評論和產(chǎn)品評論)來衡量客戶意見和滿意度。
- 異常檢測 (anomaly detection) 是使用算法識別數(shù)據(jù)中可能表明存在問題的異常模式或異常值的過程。 異常檢測用于監(jiān)控 IT 基礎設施、在線應用程序和網(wǎng)絡,并識別表明存在潛在安全漏洞或可能導致網(wǎng)絡中斷的活動。 異常檢測還用于檢測欺詐性銀行交易。 了解有關 AIOps 的更多信息。
- 圖像識別 (image recognition) 分析圖像并識別圖像中的對象、面部或其他特征。 除了 Google 圖像搜索等常用工具之外,它還有多種應用程序。 例如,它可用于農(nóng)業(yè)中監(jiān)測作物健康并識別害蟲或疾病。 自動駕駛汽車、醫(yī)學成像、監(jiān)控系統(tǒng)和增強現(xiàn)實游戲都使用圖像識別。
- 預測分析 (predicative analytics) 分析歷史數(shù)據(jù)并識別可用于預測未來事件或趨勢的模式。 這可以幫助企業(yè)優(yōu)化運營、預測需求或識別潛在風險或機遇。 一些例子包括產(chǎn)品需求預測、交通延誤以及制造設備可以安全運行多長時間。
了解有關預測性維護的更多信息
機器學習有哪些缺點?
機器學習的缺點包括:
- 對高質(zhì)量訓練數(shù)據(jù)的依賴:如果數(shù)據(jù)有偏差或不完整,模型也可能有偏差或不準確。
- 成本:訓練模型和預處理數(shù)據(jù)可能會產(chǎn)生很高的成本。 話雖這么說,它仍然比編寫專門算法來完成相同任務的更大成本要低,而且很可能不會那么準確。
- 缺乏可解釋性:大多數(shù)機器學習模型,例如深度神經(jīng)網(wǎng)絡,其運作方式缺乏透明度。 通常稱為 “黑匣子” 模型,這使得理解模型如何做出決策變得具有挑戰(zhàn)性。
- 專業(yè)知識:有多種型號可供選擇。 如果沒有指定的數(shù)據(jù)科學團隊,組織可能會難以調(diào)整超參數(shù)以實現(xiàn)最佳性能。 訓練的復雜性,尤其是轉換器 (transformer)、嵌入和大型語言模型的訓練的復雜性,也可能成為采用的障礙。
機器學習的最佳實踐
機器學習的一些最佳實踐包括:
- 確保你的數(shù)據(jù)干凈、有組織且完整。
- 選擇適合你當前問題和數(shù)據(jù)的正確方法。
- 使用技術來防止過度擬合,即模型在訓練數(shù)據(jù)上表現(xiàn)良好,但在新數(shù)據(jù)上表現(xiàn)不佳。
- 通過在完全不可見的數(shù)據(jù)上進行測試來評估模型的性能。 你在開發(fā)和優(yōu)化模型時測量的性能并不能很好地預測其在生產(chǎn)中的性能。
- 調(diào)整模型的設置以獲得最佳性能 —— 稱為超參數(shù)調(diào)整。
- 除了標準模型準確性之外,還選擇一些指標來評估模型在實際應用程序和業(yè)務問題中的性能。
- 保留詳細的記錄,以確保其他人能夠理解和復制你的工作。
- 使你的模型保持最新,以確保它在新數(shù)據(jù)上繼續(xù)表現(xiàn)良好。
開始使用 Elastic 機器學習
Elastic 機器學習繼承了我們可擴展 Elasticsearch 平臺的優(yōu)勢。 通過與可觀察性、安全性和搜索解決方案的集成,你可以獲得開箱即用的價值,這些解決方案使用的模型需要較少的培訓即可啟動和運行。 借助 Elastic,你可以收集新的見解,為內(nèi)部用戶和客戶提供革命性的體驗,而且一切都具有大規(guī)模的可靠性。
了解如何:
從數(shù)百個來源獲取數(shù)據(jù),并通過內(nèi)置集成在數(shù)據(jù)所在的位置應用機器學習和自然語言處理。文章來源:http://www.zghlxwxcb.cn/news/detail-772051.html
以最適合你的方式應用機器學習。 根據(jù)你的使用案例,從預配置的模型中獲取開箱即用的價值:用于自動監(jiān)控和威脅搜尋的預配置模型、用于實施情感分析或問答交互等 NLP 任務的預訓練模型和轉換器,以及 Elastic Learned Sparse Encoder?一鍵實現(xiàn)語義搜索。 或者,如果你的用例需要優(yōu)化和自定義模型,請使用你的數(shù)據(jù)訓練監(jiān)督模型。 Elastic 讓你能夠靈活地應用適合你的用例并符合你的專業(yè)水平的方法!文章來源地址http://www.zghlxwxcb.cn/news/detail-772051.html
機器學習資源
- Elasticsearch 的機器學習
- Elastic Stack 中的機器學習
- 訪問 Elastic 中的第三方 ML 模型和轉換器
- 通過機器學習將搜索提升到新的水平
- 通過 AIOps 將機器學習應用于可觀察性
- 通過機器學習提高安全防御深度
到了這里,關于Elasticsearch:什么是機器學習?的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!