什么是垃圾郵件機器人?垃圾評論和垃圾短信傳播方式有哪些?什么是機器人攻擊?機器人攻擊的方法有哪些?什么是廣告欺詐、憑證填充、內容抓取、數(shù)據(jù)抓取、暴力攻擊、點擊欺詐?有哪些方法防御?
垃圾郵件機器人是一種計算機程序,有助于在整個 Internet 傳播垃圾郵件。 垃圾郵件機器人通常會抓取聯(lián)系人信息、創(chuàng)建虛假用戶帳戶或者操作失盜社交媒體帳戶。
什么是垃圾信息機器人?
一般來講,機器人是執(zhí)行重復性任務的計算機程序,它們通常通過互聯(lián)網(wǎng)運行。垃圾郵件機器人是一種特殊類型的機器人,可發(fā)送(或是幫助發(fā)送)垃圾短信。垃圾郵件機器人還會在用戶進行線上互動的多個地方(如社交媒體平臺或者論壇)發(fā)布垃圾信息。
垃圾信息是任何發(fā)送給大量用戶的不適當或不受歡迎的信息。通常,垃圾信息涉及不需要的產(chǎn)品廣告,不相關的反向鏈接(以試圖使鏈接的網(wǎng)站在搜索引擎結果中獲得更高的排名),或者涉及諸如詐騙或惡意軟件下載之類的更危險的事情。垃圾信息也可以是無關緊要的內容,并且可以大量傳播。
就像最近幾年困擾許多消費者的自動呼叫,大多數(shù)在線垃圾信息都是由垃圾信息機器人自動創(chuàng)建的。在遭遇垃圾郵件機器人操作時,用戶所交互的對象并非真人,即使機器人看起來會“回應”用戶的交互行為。相反,垃圾郵件機器人只是傳播預先程式化的消息或者按照預先程式化的對話腳本與用戶進行交互。
垃圾信息機器人如何運作?
垃圾郵件機器人能夠在論壇、社交媒體平臺、消息應用程序或電子郵件服務提供商處創(chuàng)建虛假帳戶。有時,這些機器人會嘗試偽裝成真實用戶進行活動。因創(chuàng)建用戶帳戶往往只需填寫幾個字段(姓名、電子郵件地址等),攻擊者會通過程序指令設定垃圾郵件機器人自動填寫此類表單,而這項任務對技巧嫻熟的程序員而言相對較為簡單。有些平臺提供 CAPTCHA 或者類似質詢機制,以便防止機器人創(chuàng)建帳戶,但這些防御措施并不可靠。
垃圾郵件機器人擁有一個帳戶或以其他方式可以訪問平臺后,它們將根據(jù)預先確定的(由機器人創(chuàng)建者)規(guī)則集合開始發(fā)送垃圾郵件。
其他類型垃圾郵件機器人則可能對垃圾郵件發(fā)送者起到輔助作用,實際并不發(fā)送垃圾郵件。某些垃圾郵件機器人則搜集電子郵件地址或者電話號碼,以向垃圾郵件發(fā)送者提供目標;這些機器人會掃描 Web、抓取聯(lián)系人信息,并將信息另存到數(shù)據(jù)庫。
機器人如何用于垃圾郵件?
垃圾郵件發(fā)件人需要盡可能多的可用電子郵件地址。電子郵件地址收集由掃描網(wǎng)頁的機器人執(zhí)行,查找遵循電子郵件地址格式(文本+ @符號+域)的文本,然后將該文本復制到垃圾郵件發(fā)送者的目標數(shù)據(jù)庫中。
垃圾郵件發(fā)送者擁有電子郵件地址數(shù)據(jù)庫后,便開始大量發(fā)送垃圾電子郵件。通常,垃圾電子郵件本身就是違法的,其目的是為了傳播惡意軟件或者通過網(wǎng)絡釣魚方式盜取帳戶憑據(jù)。垃圾郵件發(fā)送者可能會采用被稱為“電子郵件欺騙”(Email Spoofing) 的技術,讓他們的電子郵件看似來自合法來源。
垃圾郵件發(fā)送者并不總是使用機器人來收集電子郵件地址——也可以從其他地方獲取電子郵件列表。他們可以購買列表(通常在暗網(wǎng)上),可以竊取一個公司合法獲得的數(shù)據(jù)庫,又或者可以誘騙用戶提供其電子郵件地址。
什么是垃圾評論?
評論垃圾是網(wǎng)站用戶生成的任何垃圾評論。一些垃圾機器人會在那些不需要用戶賬戶即可以參與主題討論的網(wǎng)站帖子的評論部分中發(fā)布評論。如果論壇沒有足夠的驗證來檢查評論者是否為人類用戶,那么垃圾機器人就更容做到。但即使有防護措施,某些機器人依舊可以繞過這些防護。
其他時候,機器人會創(chuàng)建偽造的用戶帳戶并留下評論——如果一個帳戶被關閉,他們將創(chuàng)建另外一個。這樣,垃圾信息發(fā)送者可以將推廣和發(fā)布垃圾信息的過程實現(xiàn)自動化。
來自機器人的垃圾評論示例:
垃圾機器人如何在社交媒體上運行?
許多機器人在 Facebook、Twitter 或 Instagram 等社交媒體平臺上都很活躍。 社交媒體垃圾郵件機器人會發(fā)送消息或創(chuàng)建帖文,允諾提供免費物品、消費品優(yōu)惠、成人內容或者其他好得令人難以置信的優(yōu)惠。這些機器人也可能點贊、分享或者轉發(fā)垃圾貼文,或者在不相關的社交貼文下方評論版塊中發(fā)表垃圾評論。
社交垃圾郵件機器人可通過虛假帳戶或者被破解的真實用戶帳戶(這些帳戶可能通過憑證填充方式破解)運作。為使虛假社交媒體機器人帳戶看起來更加真實合法,垃圾郵件機器人會復制合法用戶的個人照片。
來自社交媒體垃圾郵件機器人的消息示例:
來自垃圾機器人的Facebook時間線帖文示例:
垃圾郵件機器人還可在各類消息應用程序或者聊天應用程序(如 Kik、Skype、Telegram 等)上運作。在其他在線渠道也是如此,這些垃圾郵件機器人試圖誘騙用戶付款、泄露信息或者點擊不安全鏈接。通常這些機器人為初級聊天機器人,按照程序與回復它們消息的用戶“對話”,目的是說服用戶點擊鏈接或者卸下防備透露個人數(shù)據(jù)。
用戶如何分辨郵件是來自垃圾郵件機器人還是真實的用戶?
垃圾郵件機器人有時會被試圖編程設計得逼近真實用戶,但通常情況下,它們的復雜程度缺乏說服力,還不足以掩飾其機器人本質。以下是幾種快速判斷貼文或郵件是否來自垃圾機器人的方法:
過多的拼寫或語法錯誤
許多(但不是全部)預先編程的垃圾郵件機器人消息將包含大量的拼寫和語法錯誤,常常使人難以完全解讀該消息的含義。
如果聽起來好得令人難以置信…
那一般就是假的了。推銷令人難以置信的優(yōu)惠來購買消費品、藥品、服務或其他通常比較昂貴的物品的信息通常來自垃圾郵件機器人。
迫切、激進的指示讓收件人點擊鏈接或轉發(fā)消息
通常,垃圾機器人被編程為試圖讓某個用戶盡快采取特定操作(就像在網(wǎng)絡釣魚攻擊中一樣)。如果社交媒體的個人資料受損,這可能會導致該用戶的行為異?!纾砸环N在以前并不常見的行為舉止向他們的社交聯(lián)系人發(fā)出很迫切激進的指示信息,要求對方做某件事情。
來自陌生對象的消息
對來自陌生人的意外電子郵件或社交消息應保持懷疑。此外,如果用戶的社交帳戶被盜,垃圾機器人可能會使用它來聯(lián)絡與該用戶通常不聯(lián)系的人。
不相關
在上面垃圾評論的截圖中,評論者列出了許多不同類型的貸款,包括"個人貸款"和"商業(yè)現(xiàn)金貸款“。此評論出現(xiàn)在有關網(wǎng)絡安全的博客文章下方。垃圾機器人通常不會檢查其評論是否與該主題有關系,而是會自動將其發(fā)布。
對方在對話中的回應變得亂七八糟,毫無意義
垃圾聊天機器人通常會遵循相對簡單的會話腳本,并且如果用戶的響應偏離了預期的響應,即使腳本答復在上下文中不再說得通,垃圾郵件聊天機器人仍會繼續(xù)遵循該腳本。
公司如何防止垃圾機器人造成不良的用戶體驗?
垃圾機器人的行為有別于真實用戶,并且機器人管理解決方案應該能夠分辯哪些是垃圾機器人活動,哪些是與網(wǎng)絡媒體資源的真實互動。 通過 機器人管理使用行為分析,不僅檢測機器人活動,還能將良性機器人與惡意機器人(如垃圾機器人)分開,并防御惡意機器人。
什么是機器人攻擊?
機器人攻擊是一種網(wǎng)絡攻擊,它使用自動化腳本來破壞站點、竊取數(shù)據(jù)、進行欺詐性購買或執(zhí)行其他惡意操作。這些攻擊可以針對許多不同的目標進行部署,例如網(wǎng)站、服務器、API和其他端點。這些攻擊的目的可能各不相同,但通常包括竊取敏感信息或對目標基礎設施造成損壞。
機器人攻擊可能會摧毀企業(yè),導致組織出現(xiàn)嚴重且代價高昂的停機、收入損失和聲譽受損。
什么是機器人?
機器人是“機器人”的縮寫,是一種軟件程序,旨在自動執(zhí)行重復性和有針對性的任務,可以幫助組織簡化流程并提高運營效率。例如,搜索引擎機器人對網(wǎng)站進行索引以幫助提供準確的搜索結果,而客戶服務機器人則旨在回答常見問題并解決常見問題。
機器人程序也可能被設計用于惡意目的并造成重大損害。例如,惡意軟件機器人可以感染計算機并竊取敏感信息。機器人還可以執(zhí)行分布式拒絕服務 (DDoS)攻擊,使網(wǎng)站流量不堪重負,導致其離線。
機器人通常有其他名稱,例如蜘蛛、爬蟲或網(wǎng)絡機器人。
機器人攻擊有哪些不同類型?
機器人攻擊有很多種類型,所有這些攻擊都是為了特定目的而設計的。機器人違反網(wǎng)站服務條款或網(wǎng)站Robots.txt規(guī)則的任何行為均被視為惡意行為。
機器人攻擊包括:
憑證填充是指攻擊者使用竊取的登錄憑證來訪問另一個網(wǎng)站。機器人通過嘗試從各種設備類型和 IP 地址進行多次同時登錄來規(guī)避 Web 應用程序登錄表單中現(xiàn)有的內置安全功能。目標是將機器人嘗試與典型的登錄流量混合在一起。
網(wǎng)絡/內容抓取是指機器人從網(wǎng)站下載(或“抓取”)內容以在未來的攻擊中使用它。網(wǎng)站抓取機器人會發(fā)送一系列 HTTP GET 請求并復制并保存信息 - 所有這些都在幾秒鐘內完成。
DoS 和 DDoS 攻擊是通過計算機或物聯(lián)網(wǎng)設備等連接互聯(lián)網(wǎng)的機器網(wǎng)絡進行的。一旦網(wǎng)絡被感染,攻擊者就會向每個機器人發(fā)送遠程指令,使服務器或網(wǎng)絡不堪重負,從而導致中斷和停機。
暴力密碼破解是使用機器人通過嘗試所有可能的密碼組合或破解加密密鑰來攻擊和滲透受保護帳戶的攻擊,以獲得對敏感數(shù)據(jù)的未經(jīng)授權的訪問。
點擊欺詐是指攻擊者瞄準按點擊付費廣告,通過虛假點擊來提高網(wǎng)頁的搜索排名。機器人冒充合法訪問者并點擊廣告、按鈕或其他超鏈接。通過模仿人類的行為模式,它可能會欺騙平臺或服務,讓其認為真實用戶正在與鏈接進行交互。
為什么會發(fā)生機器人攻擊?
機器人攻擊發(fā)生的原因有很多。攻擊者可能會利用機器人攻擊來竊取財務或個人信息,然后將這些信息在暗網(wǎng)上出售以獲取利潤。機器人攻擊還可用于攻擊 Web 服務,例如電子商務網(wǎng)站或社交媒體平臺,導致服務中斷并可能導致財務損失。在某些情況下,機器人攻擊可能會被用來通過勒索軟件向受害者勒索金錢。最后,機器人攻擊可能是由黑客活動分子發(fā)起的,目的是破壞特定組織或政府實體的運作。
企業(yè)如何防范機器人攻擊?
公司可以使用多種策略來防止機器人攻擊。防止憑證填充的一種有效方法是實施多重身份驗證 (MFA),它要求用戶在授予訪問權限之前提供兩種或多種形式的身份。這使得只有授權用戶才能訪問敏感或機密信息。添加 MFA 可以防止撞庫或暴力破解密碼。
防止機器人攻擊的另一種方法是制定允許列表和阻止列表。允許列表包含已批準的 IP 地址列表,而阻止列表包含已拒絕的 IP 地址列表,例如與機器人攻擊相關的 IP 地址。這有助于防止惡意機器人流量到達互聯(lián)網(wǎng)財產(chǎn)。
最后,使用機器人管理軟件可以通過行為分析、機器學習和指紋識別來幫助實時檢測和防止機器人攻擊。使用行為分析來識別和檢測流量模式中的異常情況。使用機器學習來復合這些數(shù)據(jù)并訓練機器人緩解程序來識別惡意活動。
什么是憑證填充?
憑證填充是一種網(wǎng)絡攻擊,利用從一項服務上的數(shù)據(jù)泄露中獲得的登錄憑據(jù)嘗試登錄到另一個不相關的服務。
例如,攻擊者可能通過攻破一個大型百貨商店而獲取大量用戶名和對應密碼,并使用相同的登錄憑據(jù)嘗試登錄到某個國際銀行的網(wǎng)站。攻擊者猜測這些百貨商店客戶中的某些人在該銀行也有帳戶,并且他們使用了和百貨商店同樣的用戶名和密碼。
由于在黑市上交易和出售了大量遭入侵的登錄憑證,憑證填充已十分普遍。這些清單的擴散,再加上使用機器人應對傳統(tǒng)登錄保護的憑據(jù)填充工具的發(fā)展,已使憑據(jù)填充成為一種盛行的攻擊手段。
什么促使憑證填充變得有效?
統(tǒng)計學上講,憑證填充攻擊的成功率非常低。許多估計其成功比率約為 0.1%,這意味著攻擊者嘗試破解的每千個帳戶中,它們大約成功一次。盡管成功率很低,但憑證數(shù)據(jù)集合的交易體量之大讓攻擊者覺得憑證填充盡管成功率很低,也依然值得嘗試。
這些集合內含成千上萬甚至數(shù)以億計的登錄憑證。如果攻擊者持有一百萬組憑證,則能夠獲取約 1,000 個成功破解的帳戶。即使只有一小部分破解帳戶帶來可盈利的數(shù)據(jù)(通常形式是信用卡卡號或是釣魚攻擊中所使用的敏感數(shù)據(jù)),也值得發(fā)動這種攻擊。除此之外,攻擊者能夠對各種不同的服務使用相同的憑證組合,進而反復進行這一過程。
機器人技術的進步也使得憑證填充成為一種可行性攻擊。Web 應用程序登錄表單內置的安全功能往往包括蓄意時延機制,并且在用戶多次嘗試登錄失敗時會將其 IP 地址禁用?,F(xiàn)代憑證填充軟件會利用機器人同時嘗試多方登錄,而表面看起來登錄是在各種設備類型上進行,且來自多個 IP 地址,借此繞開這些保護機制。惡意機器人的目的在于讓攻擊者的登錄嘗試有別于典型的登錄流量,且這種方法十分奏效。
通常,唯一能讓受害公司察覺到遭受攻擊的跡象是登錄嘗試總體數(shù)量的增加。即使這樣,受害的公司也很難在不影響合法用戶登錄服務的情況下阻止這些惡意嘗試。
憑證填充攻擊有效的主要原因是人們重復使用密碼。研究表明,大多數(shù)用戶(據(jù)估計高達85%)將相同的登錄憑據(jù)重復用于多種服務。只要這種做法繼續(xù)下去,憑證填充將保持有效。
憑證填充和蠻力攻擊有什么區(qū)別?
OWASP 將憑證填充歸類為蠻力攻擊的子集。但嚴格來講,憑證填充與傳統(tǒng)的暴力攻擊有很大不同。暴力攻擊嘗試在情境背景或線索的情況下猜測密碼,有時按照常規(guī)密碼設置建議隨機套用字符。憑證填充利用的是泄露數(shù)據(jù),可能正確的答案在數(shù)量上得到了精簡。
防止暴力攻擊的有效方法是使用由多個字符組成的強密碼,包括大寫字母、數(shù)字和特殊字符。但是密碼強度不能防止憑證填充。密碼的強弱無關緊要–如果密碼在不同的帳戶之間共享,那它依然會受損于憑證填充。
如何防止憑證填充
用戶如何防止憑證填充
從用戶角度而言,防御憑證填充的方法十分簡單。用戶應一律為各項不同的服務設置唯一密碼(要實現(xiàn)這一目標,一個簡單的方法就是使用密碼管理器)。如果用戶一律設置唯一密碼,憑證填充則不會危及其帳戶。另有一種安全措施是,鼓勵用戶盡可能啟用雙因素身份驗證。
公司如何防止憑證填充
對于運行身份驗證服務的公司,阻止憑證填充是一個更為復雜的挑戰(zhàn)。憑證填充是由于其他公司的數(shù)據(jù)泄露導致的。因此一家公司受到憑證填充攻擊,不一定表示它自身的安全已受損。
公司可以建議其用戶使用獨特的密碼,但通常不能有效地強制執(zhí)行此操作。某些應用程序對提交的密碼在已知的受損密碼數(shù)據(jù)庫里進行比對,作為防護憑證填充的方法,但這并不是萬無一失的–用戶可能會在尚未受損的服務中重復使用密碼。
增加登錄安全功能有助于進行憑證填充防護。啟用雙因素身份驗證等功能,并在登錄時要求用戶填寫 CAPTCHA(驗證碼),這兩種機制也有助于阻止惡意機器人。雖然這兩項機制會給用戶帶來諸多不便,但多數(shù)人承認,這能最大限度地減少安全威脅,即使不便也值得。
防范憑證填充的最強保護機制是機器人管理服務。機器人管理機制采用速率限制和 IP 信譽數(shù)據(jù)庫相結合的方式,在不影響合法登錄的情況下,阻止惡意機器人嘗試登錄。
什么是內容抓???
內容抓取或網(wǎng)絡抓取是指機器人在不考慮網(wǎng)站所有者意愿的情況下在網(wǎng)站上下載大量或全部內容。內容抓取是數(shù)據(jù)抓取一種形式。它基本上總是由自動機器人執(zhí)行。網(wǎng)站抓取機器人有時可以在幾秒鐘內下載網(wǎng)站上的所有內容。
內容抓取機器人通常用于將內容重新用于惡意目的,例如在攻擊者擁有的網(wǎng)站上復制用于 SEO 的內容、侵犯版權和竊取自然流量。內容抓取可能涉及填寫和提交表單以訪問額外的封閉內容,其副作用是導致公司數(shù)據(jù)庫中產(chǎn)生垃圾數(shù)據(jù)。此外,完成來自機器人的 HTTP 請求會占用服務器資源,而這些資源原本可以專用于人類用戶。
機器人如何抓取內容?
網(wǎng)站抓取機器人通常會發(fā)送一系列HTTP GET請求,然后復制并保存Web服務器回復的所有信息,并逐步遍歷網(wǎng)站的層次結構,直到復制所有內容。
例如,更復雜的抓取機器人可以使用JavaScript來填寫網(wǎng)站上的每個表格并下載任何受限內容。 "瀏覽器自動化"程序和API允許機器人與網(wǎng)站和API進行自動交互,就好像它們在使用傳統(tǒng)的網(wǎng)頁瀏覽器,試圖誘騙網(wǎng)站的服務器以為是真實人類用戶在訪問站點內容。
當然,一個人也可以手動復制并粘貼整個網(wǎng)站,但是機器人可以在幾秒鐘內抓取并下載網(wǎng)站上的所有內容,即使是大型網(wǎng)站(例如具有成百上千個單獨產(chǎn)品的電子商務網(wǎng)站)頁面也不例外。
內容抓取機器人的目標是哪種內容?
機器人可以抓取在互聯(lián)網(wǎng)上公開發(fā)布的所有內容——文本、圖像、HTML 代碼、CSS 代碼等等。攻擊者可以將抓取的數(shù)據(jù)用于多種目的。文本可以用來復制到另一個網(wǎng)站上重復使用,以竊取原網(wǎng)站的搜索引擎排名或欺騙用戶。攻擊者可能使用原網(wǎng)站的 HTML 和 CSS 代碼來復制偽造一個看似合法的網(wǎng)站外觀或其他公司的品牌。網(wǎng)絡罪犯可以使用被盜的內容創(chuàng)建網(wǎng)絡釣魚網(wǎng)站,這些網(wǎng)站看起來像另一個網(wǎng)站的真實版本,從而誘騙用戶輸入個人信息。
還有哪些其他類型的網(wǎng)頁抓???
聯(lián)絡信息抓取
這是指掃描網(wǎng)站以獲取聯(lián)系信息,例如電話號碼和電子郵件地址,然后下載該信息。電子郵件收集機器人是一種專門針對電子郵件地址的抓取機器人,通常用于查找垃圾信息的新推送目標。
價格抓取
這是指一家公司從競爭對手公司的網(wǎng)站下載所有定價信息,以便他們可以相應地調整自己的定價。
公司如何防止網(wǎng)頁抓???
機器人管理解決方案可以借助機器學習來識別機器人行為模式并防止機器人抓取活動。速率限制通常還可以幫助防止內容被抓?。赫嬲挠脩舨惶赡茉趲酌腌娀驇追昼妰日埱髱装賯€頁面的內容,而任何以這么高的速度迅速提出請求的“用戶”都可能是機器人。CAPTCHA 質詢也可以幫助從機器人中篩選出真正的用戶。
什么是數(shù)據(jù)抓???
數(shù)據(jù)抓取,以其最一般的形式,是指一種計算機程序從另一程序生成的輸出中提取數(shù)據(jù)的技術。數(shù)據(jù)抓取通常體現(xiàn)在網(wǎng)頁抓取中,網(wǎng)頁抓取是使用應用程序從網(wǎng)站提取有價值信息的過程。
為什么要抓取網(wǎng)站數(shù)據(jù)?
通常,公司不希望其獨特內容被下載并重新用于未經(jīng)授權的目的。因此,它們不會通過開放的 API 或其他便于訪問的資源公開所有數(shù)據(jù)。而另一方面,不管網(wǎng)站怎樣限制訪問權限,抓取機器人都會嘗試對網(wǎng)站數(shù)據(jù)進行抓取。這樣,網(wǎng)頁抓取機器人與各種內容保護策略之間就存在一種貓捉老鼠的游戲,道高一尺,魔高一丈。
盡管執(zhí)行起來可能很復雜,但網(wǎng)頁抓取的過程非常簡單。網(wǎng)頁抓取分為3個步驟:
首先,用于提取信息的代碼段(我們稱為抓取機器人)將 HTTP GET 請求發(fā)送到特定網(wǎng)站。
當網(wǎng)站響應的時,抓取器將解析 HTML 文檔以獲取特定的數(shù)據(jù)模式。
數(shù)據(jù)提取后,被轉換為抓取機器人設計者所設計的特定格式。
抓取機器人可以被設計用于多種用途,例如:
內容抓取–可以從網(wǎng)站上抓取內容以便復制依賴于該內容的獨特產(chǎn)品或服務優(yōu)勢。例如,Yelp之類的產(chǎn)品依賴評論。競爭對手可以從Yelp中抓取所有評論內容,然后復制到自己的網(wǎng)站,讓自己網(wǎng)站的內容開起來十分具有原創(chuàng)性。
價格抓取–通過抓取價格數(shù)據(jù),競爭對手可以匯總其競品信息。這可以使他們擁有獨特的定價優(yōu)勢。
聯(lián)絡信息抓取–許多網(wǎng)站明文包含電子郵件地址和電話號碼。通過抓取諸如在線員工目錄之類的位置,抓取機器人能夠匯總聯(lián)絡信息,以嘗試大規(guī)模郵件發(fā)送、自動呼叫或惡意的社交工程攻擊。這是垃圾信息發(fā)送者和詐騙者尋找新目標的主要方法之一。
如何防護網(wǎng)頁抓?。?br> 通常,網(wǎng)站訪問者可以看到的所有內容都必須轉移到訪問者的計算機上,并且訪問者可以訪問的任何信息都可以被機器人抓取。
有方法能夠限制可能發(fā)生的抓取量。以下是三種限制數(shù)據(jù)抓取工作的方法:
速率限制請求 – 對于訪問網(wǎng)站并點擊網(wǎng)站上一系列網(wǎng)頁的真實用戶,他們與網(wǎng)站交互的速度普遍是可預測的;例如,不可能有人類用戶每秒瀏覽100個網(wǎng)頁。另一方面,計算機則能以比人類快多個數(shù)量級的速度發(fā)出請求,而初級數(shù)據(jù)抓取程序則可能采用不受限抓取技術嘗試快速抓取整個網(wǎng)站的數(shù)據(jù)。通過限制特定 IP 地址在給定時間時段內發(fā)出的最大請求數(shù),網(wǎng)站能夠保護自己免受侵略性請求的影響,并限制在特定時間范圍中可能發(fā)生的數(shù)據(jù)抓取量。
定期修改 HTML 標記 - 數(shù)據(jù)抓取機器人依靠持續(xù)一直的格式化來有效地遍歷網(wǎng)站內容并解析和保存有用的數(shù)據(jù)。阻止此工作流的一個方法就是定期更改 HTML 標記的元素,使格式一致的抓取過程變得更加復雜。嵌套 HTML 元素或者更改其他方面的標記,即可阻礙或者阻止簡單的數(shù)據(jù)抓取活動。某些網(wǎng)站在每次呈現(xiàn)網(wǎng)頁時,會對某些形式的內容保護進行隨機修改。其他網(wǎng)站則偶爾修改自己的標記代碼,防止更長期的數(shù)據(jù)抓取活動。
將 CAPTCHA 用于大量數(shù)據(jù)的請求者 – 除了使用速率限制解決方案外,減慢內容抓取速度的另一個有用步驟是要求網(wǎng)站訪問者完成計算機難以實現(xiàn)的挑戰(zhàn)。盡管人類可以合理地應對這個挑戰(zhàn),但一個在進行數(shù)據(jù)抓取的無腦瀏覽器*極有可能無法通過該挑戰(zhàn),更不可能持續(xù)通過數(shù)個挑戰(zhàn)。但是,持續(xù)不斷的 CAPTCHA 測試可能會對真實用戶的體驗產(chǎn)生負面影響。
另一種不太常見的防護方法要求將內容嵌入例如圖像類的媒體對象中。由于內容不存在于字符串中,因此復制內容要復雜得多,需要光學字符識別 (OCR) 才能從圖像文件中提取數(shù)據(jù)。但這也會給需要從網(wǎng)站復制內容的真實用戶帶來麻煩,他們將不得不靠記憶或重新輸入例如地址或電話號碼之類的信息,而無法直接復制。
*無頭瀏覽器是網(wǎng)頁瀏覽器的一種,類似于 Chrome 或 Firefox,但默認情況下它沒有可視的用戶界面,因此其移動速度比常見的網(wǎng)頁瀏覽器快得多。本質上它是在命令行界面運行,無頭瀏覽器可以避免呈現(xiàn)整個 Web 應用程序。數(shù)據(jù)抓取工具會編寫機器人使用無頭瀏覽器來更快地請求數(shù)據(jù),因為沒有人會去查看要抓取的每個頁面。
如何完全防止抓???
完全防止抓取網(wǎng)頁的唯一方法是避免將內容完全放在網(wǎng)站上。但是,使用高級的機器人管理解決方案可以幫助網(wǎng)站幾乎完全消除抓取機器人的訪問權限。
數(shù)據(jù)抓取和數(shù)據(jù)爬蟲有什么區(qū)別?
爬取是指 Google 等大型搜索引擎在發(fā)送其機器人爬網(wǎng)程序(如 Googlebot)到網(wǎng)絡中以建立互聯(lián)網(wǎng)內容索引時所進行的過程。另一方面,抓取則是明確從特定網(wǎng)站提取數(shù)據(jù)的一種典型架構。
以下是抓取機器人與網(wǎng)頁爬網(wǎng)程序機器人的3種不同行為:
抓取機器人會假裝為網(wǎng)頁瀏覽器,而爬網(wǎng)程序機器人會表明其目的,而不是試圖蒙騙網(wǎng)站。
有時,抓取機器人會采取高級措施,例如填寫表格或進行其他行為以進入網(wǎng)站的特定部分。爬網(wǎng)程序則不會。
抓取機器人通常會忽略 robots.txt 文件,該文件是一個文本文件,專門用于告訴爬網(wǎng)程序能解析哪些數(shù)據(jù)以及不能訪問的區(qū)域。因為抓取器被設計為提取特定內容,所以它可以被設計專門抓取那些被明確禁止抓取的內容。
什么是暴力攻擊?
暴力攻擊是一種試錯方法,用于解碼敏感數(shù)據(jù)。暴力攻擊最常用于破解密碼和加密密鑰(繼續(xù)閱讀,了解加密密鑰詳情)。暴力攻擊的其他常見目標包括 API 密鑰和 SSH 登錄信息。暴力破解密碼攻擊通常是通過腳本或者機器人針對網(wǎng)站登錄頁面實施的。
蠻力攻擊與其他破解方法的不同之處在于,蠻力攻擊不采用智力策略;他們只是嘗試使用不同的字符組合,直到找到正確的組合。這就像小偷試圖通過嘗試所有可能的數(shù)字組合直到保險箱打開來闖入組合保險箱。
暴力攻擊分別有哪些優(yōu)缺點?
暴力攻擊的最大優(yōu)勢在于它們執(zhí)行起來相對簡單,并且由于有足夠的時間加上缺乏針對性的防護策略,它們總是能夠成功。每個基于密碼的系統(tǒng)和加密密鑰都可以通過蠻力攻擊來破解。實際上,蠻力破解進入系統(tǒng)所花費的時間是衡量該系統(tǒng)安全級別的有用指標。
另一方面,暴力攻擊非常緩慢,因為在達到目標之前,它們可能必須經(jīng)歷所有可能的字符組合。隨著目標字符串中字符數(shù)的增加(字符串只是字符的組合),這種遲緩變得更加復雜。例如,四字符密碼的暴力破解時間比三字符密碼的破解時間長得多,而五字符密碼的破解時間比四字符密碼大得多。一旦字符數(shù)超過某個點,對一個進行了適當隨機化的密碼進行暴力破解就變得不切實際。
如果目標字符串足夠長,暴力攻擊者可能需花費數(shù)天、數(shù)月甚至數(shù)年的時間來破解適當組合的隨機密碼。當前的趨勢是要求填寫更多位數(shù)的密碼和加密密鑰,因此,實施暴力攻擊就愈加困難。如果密碼或者加密設置巧妙,則攻擊者通常會采用社會工程學或者在途攻擊等其他密碼破譯方法破解。
如何防范暴力攻擊
管理授權系統(tǒng)的開發(fā)人員可采取如下措施:如鎖定登錄失敗次數(shù)過多的 IP 地址,以及在密碼檢查軟件中納入延時機制。即使是數(shù)秒延時,也能大大降低暴力攻擊的有效性。
Web 服務用戶可選擇更長的復雜密碼來降低暴力攻擊風險。此外,建議啟用雙因素身份驗證,并為每項服務設定唯一密碼。如果攻擊者能夠暴力破解用戶某一項服務的密碼,則其可能重復使用相同的登錄信息和密碼登錄其他主流服務。這就是憑證填充。
用戶還應避免在任何未使用強大加密密鑰保護其數(shù)據(jù)的 Web 服務中輸入密碼或個人信息,例如信用卡號或銀行信息。
什么是加密密鑰?
加密密鑰是為加密和解密數(shù)據(jù)而生成的隨機位串。數(shù)據(jù)被加密后,它會顯示為一串隨機的混雜字符,直到使用正確的加密密鑰對其進行解密為止。就像密碼一樣,蠻力攻擊可以破解加密密鑰,但是如今使用的加密密鑰需要花費很長時間才能被現(xiàn)代計算機破解,因此它們被認為是牢不可破的。
128 位加密和 256 位加密有什么區(qū)別?
相比較短的加密密鑰,較長加密密鑰的安全性呈指數(shù)級上升。例如,針對 128 位加密密鑰,暴力攻擊者需要嘗試 2128 種可能的組合。針對 256 位加密密鑰,攻擊者需要嘗試 2256 種不同組合,這相比 128 位密鑰,所需計算能力要多出 2128 倍(2128 = 340,282,366,920,938,463,463,374,607,431,768,211,456 種可能組合)。
為了讓您能大致對這些數(shù)字有一定的概念,一臺功能強大的計算機每秒可檢查數(shù)萬億個組合,而它破解 256 位加密密鑰所需要的時間是 10 的 96 次方這么多年(即英國英語中的一個 sexdecillion,1 后面 96 個 0)。
因當前的暴力攻擊幾乎無法破解高位加密密鑰,建議所有收集用戶信息的 Web 服務都采用 256 位加密密鑰對其數(shù)據(jù)和通訊內容進行加密。
什么是點擊欺詐?
點擊欺詐是指人類或機器人偽裝成網(wǎng)頁合法訪問者,并點擊廣告、按鈕或者其他類型超鏈接。點擊欺詐的目的是讓平臺或者服務項目誤以為是真實用戶在與網(wǎng)頁、廣告或者應用程序進行交互。
點擊欺詐通常大規(guī)模出現(xiàn),每個鏈接被點擊不止一次,而是多次,且通常有多個鏈接成為目標。為使這一程序自動化,點擊欺詐者往往利用機器人反復“點擊”。機器人流量約占全部互聯(lián)網(wǎng)流量的 50%。多達 20% 的廣告服務網(wǎng)站只有欺詐性點擊機器人訪問。*
點擊欺詐的動機有很多。最常見的是欺詐者受經(jīng)濟利益的驅使,廣告欺詐更是如此。企業(yè)有時會欺詐性點擊競爭對手的 PPC(又稱“付費點擊”(pay per click))廣告,采取點擊欺詐手段造成競爭對手廣告預算損失。點擊欺詐也可能存有意識形態(tài)上的動機,例如,人為點贊或者給貼文投票,以使得某些情緒 (sentiment) 看起來比其實際情況更加盛行。網(wǎng)絡罪犯還會利用點擊欺詐提升惡意網(wǎng)頁的搜索排名,使該網(wǎng)頁看似為合法網(wǎng)頁。
常見的點擊欺詐類型
點擊欺詐的一個例子是廣告欺詐:當網(wǎng)站運營商在其自己的網(wǎng)站上對 PPC 展示廣告進行欺詐點擊。點擊欺詐行為的實施者可以設置顯示 PPC 廣告的頁面,然后使用點擊機器人"單擊"這些廣告。每次點擊,廣告網(wǎng)絡都必須向網(wǎng)站運營商(騙子)付款。如果欺詐行為未被發(fā)現(xiàn),點擊次數(shù)越多,廣告網(wǎng)絡向網(wǎng)站支付的費用就越多。
廣告欺詐也可能是對為廣告付費的公司發(fā)起的財務攻擊。在這種情況下,詐騙者會將 PPC 廣告定位到他們不擁有的 Web 屬性上。詐騙者并不想從點擊中賺錢,但受害公司必須為每次點擊支付廣告網(wǎng)絡費用,蒙受財務損失。
點擊欺詐的另一個用例是有人試圖通過人為地提高點擊率來提高搜索引擎排名。 "點擊率"是指在某個頁面的所有訪問者中,有多少用戶點擊某個鏈接。點擊率是谷歌之類的搜索引擎考在搜索結果排名中的考慮因素,盡管尚不清楚該因素的占比是多少。在這種情況下,點擊欺詐的目的是提高網(wǎng)頁的點擊率,從而提高搜索引擎排名,并使更多的實際用戶訪問該頁面。
什么是點擊機器人?
點擊機器人是經(jīng)過編程以執(zhí)行點擊欺詐的機器人。最簡單的單擊機器人將只訪問一個網(wǎng)頁,然后單擊所需的鏈接。精心設計的點擊機器人還將被編程為執(zhí)行真實用戶也會執(zhí)行的動作 – 移動鼠標、執(zhí)行某動作之前的隨機暫停、打亂每次點擊之間的時間間隔等等。通過這種方式,編寫該機器人的騙子希望掩蓋機器人的實質,讓它看起來像是真實用戶。
成百上千次點擊來自單一設備,這種操作會讓人即刻生疑,因此,點擊欺詐活動通常使用的是安裝在多臺設備上的機器人。每臺設備的 IP 地址各不相同,因此每次點擊看起來像是由不同用戶發(fā)起的。各臺設備運行一個機器人副本,由這種設備組成的網(wǎng)絡稱為僵尸網(wǎng)絡。
僵尸網(wǎng)絡涉及上千甚至上萬個安裝了機器人程序的用戶設備。在大多數(shù)情況下,這些僵尸網(wǎng)絡點擊機器人都是在設備上運行,而用戶不會由于惡意軟件感染而得知這些信息。一些大型、知名的僵尸網(wǎng)絡已經(jīng)使用了點擊欺詐 – 例如,點擊欺詐僵尸網(wǎng)絡 “Clickbot.A” 感染了超過 10 萬個用戶設備。
僵尸網(wǎng)絡并非點擊欺詐的必要條件,單一機器人也能擴散非法點擊。但來自單一機器的機器人流量更容易被檢測到并被阻止。Web 服務器只需停止向該 IP 地址提供服務即可。
點擊欺詐是否總是來自機器人?
雖然機器人程序通常用于進行點擊欺詐,但也可以由低薪人員進行。這樣的一群工人被稱為"點擊農場",點擊農場通常出現(xiàn)在工資相對較低的地區(qū),如發(fā)展中國家。
點擊農場的工人被分配到某些網(wǎng)頁,然后單擊指定的鏈接以人為地增加這些頁面的點擊率或總點擊量。他們還可以活躍在社交媒體網(wǎng)絡和并”贊好“特定帖子或頁面,以提高其知名度。
從詐騙者的角度來看,點擊農場的優(yōu)勢在于,人工的行為比機器人的行為更有說服力地,更能模仿真實用戶。缺點是,對于欺詐者而言,使用點擊農場效率低下,而資源消耗更大。
大多數(shù)點擊欺詐設計者無法使用數(shù)十名或者數(shù)百名人力勞工,對他們而言,寫幾行代碼以及創(chuàng)建點擊機器人要容易得多。對希望防止點擊欺詐的企業(yè)而言,機器人管理如此重要的原因正在于此。
點擊欺詐會給公司帶來多少損失?
廣告網(wǎng)絡平臺因點擊欺詐蒙受巨額損失;據(jù)估計,僅 2018 年這一年的時間,廣告商就因點擊欺詐損失了 190 億美元。如果欺詐者擁有僵尸網(wǎng)絡或者劫持了 IP 地址,他們就會實施大規(guī)模點擊欺詐:2018 年下半年破獲的一起長期欺詐案件中,某單一犯罪團伙就通過廣告欺詐牟利超過 2,900 萬美元。
無獨有偶,運營 PPC 廣告活動的企業(yè)也發(fā)現(xiàn)自己在為機器人進行的欺詐性點擊買單。2016 年就有報告稱,因廣告欺詐,市場營銷者損失達 72 億美元。
點擊欺詐如何影響網(wǎng)站分析?
點擊欺詐會對網(wǎng)站分析造成嚴重破壞。如果機器人正在與web 屬性交互,那么他們的活動將包含在數(shù)據(jù)中。這樣的話,網(wǎng)站的運營者無法衡量展示廣告的實際效果或判斷合法用戶的真實行為。如果公司想要衡量其內容與受眾的互動效果,或者需要獲得其網(wǎng)站的真實流量和用戶行為,那就會變得棘手。
管理機器人活動的策略對于互聯(lián)網(wǎng)上可用的任何網(wǎng)站、應用程序或API都極為重要。如果沒有防護點擊欺詐等惡意機器人流量的能力,那么機器人可能會對客戶體驗產(chǎn)生負面影響,并使公司蒙受損失。
如何防護點擊欺詐?
一些廣告商設有自動檢測程序來阻止可能來自機器人的點擊 - 例如,谷歌使用機器學習來過濾來自機器人的廣告相關活動,并進行手動審核流程。使用機器學習來檢測和減少點擊欺詐。 在此類機器學習程序中,如果用戶的活動與典型用戶活動差異太大(例如,如果用戶所做的只是點擊廣告),則該用戶將被標記為可能的機器人。
什么是廣告欺詐?
廣告欺詐是指任何企圖欺詐數(shù)字廣告網(wǎng)絡以獲取經(jīng)濟利益的行為。詐騙者通常使用機器人來實施廣告欺詐,但并非總是如此;詐騙者可以使用多種方式誘導廣告商和廣告網(wǎng)絡向他們付款。使用機器人的廣告欺詐通常是點擊欺詐。
在線廣告欺詐有哪些種類?
網(wǎng)絡犯罪分子可以通過多種方式進行廣告欺詐。其中一些方式包括:
隱藏廣告:廣告以某種方式顯示,用戶實際上不會看到這一廣告。這種欺詐的目標是根據(jù)展示次數(shù)(瀏覽量)而不是點擊量付費的廣告網(wǎng)絡。
點擊劫持:攻擊者將一個廣告的點擊重定向為另一廣告的點擊,相當于“竊取”了這一點擊。為了使這種欺詐攻擊湊效,攻擊者必須盜用用戶的計算機、廣告發(fā)布者的網(wǎng)站或代理服務器。
廣告欺詐點擊劫持 - 攻擊者用 Sam’s Tacos 替換 Joe’s Tacos 廣告
虛假應用安裝:廣告經(jīng)常顯示在應用程序中,特別是移動應用中。為實施這種欺詐,一群人(通常在“點擊農場”* 中)安裝應用數(shù)千次,并與它們進行大量交互。
點擊農場應用程序下載 - 一次下載數(shù)十個應用程序
僵尸網(wǎng)絡廣告欺詐:詐騙者可以使用僵尸網(wǎng)絡產(chǎn)生數(shù)以千計虛假的廣告點擊數(shù),或對顯示廣告的網(wǎng)站進行虛假訪問。
*點擊農場是一群低薪工人組成,他們通常在詐騙者或網(wǎng)絡攻擊者的指導下對目標鏈接進行群體性點擊。
由機器人驅動的廣告欺詐如何運作?
詐騙者可以使用點擊機器人對詐騙者擁有的資產(chǎn)上的數(shù)字廣告產(chǎn)生虛假點擊,從而為他們帶來收益。
點擊機器人經(jīng)過編程,模仿真實的用戶并點擊特定的鏈接。這些機器人通常分布在僵尸網(wǎng)絡中的多個設備上,從而表現(xiàn)得更具合法性,因為每個機器人來自不同的設備,因而各自有一個不同的 IP 地址。
僵尸網(wǎng)絡是一組連入互聯(lián)網(wǎng)并已被攻擊者盜用的設備。每一設備上安裝了機器人,并且可能還安裝了其他惡意軟件。
廣告欺詐與點擊欺詐有何關系?
通常而言,廣告欺詐是點擊欺詐的一種。點擊欺詐是一個更加寬泛的術語,涵蓋所有種類的虛假點擊用例。點擊欺詐通常通過點擊機器人或點擊農場來進行,社交媒體機器人也有可能是其實施者。
機器人管理如何檢測和防止廣告欺詐?文章來源:http://www.zghlxwxcb.cn/news/detail-812239.html
使用機器學習根據(jù)基線判斷用戶行為,并識別可能實際上是機器人的“用戶”。 惡意機器人活動可以被過濾掉,而真實用戶和好的機器人則可以像平常一樣繼續(xù)與網(wǎng)絡資產(chǎn)進行交互。文章來源地址http://www.zghlxwxcb.cn/news/detail-812239.html
到了這里,關于什么是垃圾郵件機器人?垃圾評論和垃圾短信傳播方式有哪些?什么是機器人攻擊?機器人攻擊的方法有哪些?什么是廣告欺詐、憑證填充、內容抓取、數(shù)據(jù)抓取、暴力攻擊、點擊欺詐?有哪些方法防御?的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!