国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

使用selenium自動化工具爬取微博內(nèi)容和評論

2年前作者：南方有喬木、分類：Toy博客閱讀(17)違法舉報

這篇具有很好參考價值的文章主要介紹了使用selenium自動化工具爬取微博內(nèi)容和評論。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

任務(wù)需求是爬取微博的內(nèi)容和評論。一開始我是準(zhǔn)備直接用正常的爬蟲來做，但是發(fā)現(xiàn)微博上的內(nèi)容幾乎都是動態(tài)加載生成的。所以了解了一下就學(xué)習(xí)使用·selenium自動化測試工具來爬取相關(guān)數(shù)據(jù)。

首先是不登錄微博，發(fā)現(xiàn)只能查看最多二十條數(shù)據(jù)，這自然限制太大所以還是需要實現(xiàn)登錄后再爬取。

1.登錄微博

由于微博現(xiàn)在的登錄不能只輸入賬號密碼，所以通過查找了一些方法后選用了注入cookie來實現(xiàn)自動登錄。而想要注入的cookie需要自己先登錄獲得。這里直接使用了各位大佬給出的方法。實現(xiàn)掃碼登錄后獲取cookie。

from selenium import webdriver
from time import sleep
import json
from selenium.webdriver.common.by import By

if __name__ == '__main__':
    driver = webdriver.Chrome()
    driver.maximize_window()
    driver.get('https://weibo.com/login.php')
    sleep(6)
    a = driver.find_element(By.XPATH, '//*[@id="pl_login_form"]/div/div[1]/div/a[2]')
    a.click()
    sleep(10)
    dictCookies = driver.get_cookies()  # 獲取list的cookies
    jsonCookies = json.dumps(dictCookies)  # 轉(zhuǎn)換成字符串保存
    with open('微博_cookies.txt', 'w') as f:
        f.write(jsonCookies)
    print('cookies保存成功！')

2.通過獲取到的cookie實現(xiàn)自動登錄然后爬取用戶微博內(nèi)容和評論

2.1打開瀏覽器，進入到登錄頁面。這里我最大化窗口了。

# 打開瀏覽器，進入到微博登錄頁面
def browser_initial():
    browser = webdriver.Chrome()
    browser.maximize_window()
    browser.get('https://weibo.com/login.php')
    return browser

2.2實現(xiàn)自動化登錄

# 將已經(jīng)登錄獲得的cookie寫入，實現(xiàn)自動登錄
def log_csdn(browser):
    with open('微博_cookies.txt', 'r', encoding='utf8') as f:
        listCookies = json.loads(f.read())

    # 往browser里添加cookies
    for cookie in listCookies:
        cookie_dict = {
            'domain': '.weibo.com',
            'name': cookie.get('name'),
            'value': cookie.get('value'),
            "expires": '',
            'path': '/',
            'httpOnly': False,
            'HostOnly': False,
            'Secure': False
        }
        #print(cookie_dict)
        browser.add_cookie(cookie_dict)
    sleep(1)
    browser.get('https://weibo.com/login.php')

登錄后的頁面如下圖

?

微博評論爬取,爬蟲,selenium,自動化,測試工具,爬蟲,新浪微博

2.3搜索內(nèi)容并且爬取

這時候需要在左上角的搜索框輸入自己需要搜索的用戶，然后通過按回車來實現(xiàn)搜索

微博評論爬取,爬蟲,selenium,自動化,測試工具,爬蟲,新浪微博

?得到新的頁面里可以看到最上方會顯示相關(guān)的賬戶，找到相關(guān)元素并點擊即可

微博評論爬取,爬蟲,selenium,自動化,測試工具,爬蟲,新浪微博

最后進入到用戶的完整頁面

微博評論爬取,爬蟲,selenium,自動化,測試工具,爬蟲,新浪微博

這時侯就可以開始爬取用戶的微博信息和評論了。由于微博的內(nèi)容是動態(tài)加載的，通過F12可以看到一開始是僅展示六條內(nèi)容的元素

微博評論爬取,爬蟲,selenium,自動化,測試工具,爬蟲,新浪微博

通過滑動，元素會逐漸增加，但是上限是12個，并且后面會出現(xiàn)元素順序和微博內(nèi)容順序不符的情況。如果單單爬取微博的內(nèi)容，不爬評論那還好，只需要定位到每一個元素塊，獲取其內(nèi)部的text文本然后處理一下就可以獲得自己想要的信息。但是由于還要爬取相應(yīng)的評論內(nèi)容，并且評論還要和微博內(nèi)容相對應(yīng)，所以不能直接進行爬取。

這里我選擇微博內(nèi)容里的時間元素里的href

?

微博評論爬取,爬蟲,selenium,自動化,測試工具,爬蟲,新浪微博

?通過點擊這個a標(biāo)簽，可以跳轉(zhuǎn)到該條微博的詳情頁面

微博評論爬取,爬蟲,selenium,自動化,測試工具,爬蟲,新浪微博

這時候就可以分塊爬起微博的內(nèi)容以及轉(zhuǎn)發(fā)數(shù)、評論數(shù)、點贊數(shù)和評論的內(nèi)容了。要注意的是這里的轉(zhuǎn)發(fā)數(shù)評論數(shù)這些可能存在多個，比如此圖里是轉(zhuǎn)發(fā)他人微博，他人微博里也有轉(zhuǎn)發(fā)數(shù)這些。還有就是評論的內(nèi)容有可能是開啟精選后的，和普通的評論內(nèi)容要做判斷。?爬取完微博內(nèi)容和評論后點擊上方的返回按鈕，回到之前的頁面。

hrefs = []

# 搜索內(nèi)容
def search(username):
    # 等待元素出現(xiàn)再進行下一步
    WebDriverWait(browser, 15).until(EC.presence_of_element_located((By.CLASS_NAME, "woo-pop-ctrl")))
    # 獲取搜索框元素
    searchinput = browser.find_element(By.CLASS_NAME, 'woo-input-main')
    # 將要搜索的內(nèi)容寫入搜索框
    searchinput.send_keys(username)
    # 等待0.5秒后按回車
    sleep(0.2)
    searchinput.send_keys(Keys.ENTER)
    # 轉(zhuǎn)移句柄到新的頁面
    new_window = browser.window_handles[-1]
    # 關(guān)閉原來的頁面
    browser.close()
    # 窗口轉(zhuǎn)移到新的頁面
    browser.switch_to.window(new_window)
    # 等待
    WebDriverWait(browser, 15).until(EC.presence_of_element_located((By.CLASS_NAME, "card-wrap")))
    # 定位用戶微博頭像并點擊
    weibo = browser.find_element(By.XPATH, '//div[@class="card card-user-b s-brt1 card-user-b-padding"]/div/a')
    weibo.click()
    new_window = browser.window_handles[-1]
    browser.switch_to.window(new_window)
    WebDriverWait(browser, 15).until(EC.presence_of_element_located((By.CLASS_NAME, "vue-recycle-scroller__item-view")))

    # 微博一次最多給12條內(nèi)容的元素，并且給出的元素不保證順序。
    # 所以第一次進入頁面的時候獲取所有的內(nèi)容元素，a標(biāo)簽里的href唯一，所以將其提取出來
    for t in range(3):
        a = browser.find_elements(By.XPATH, '//div[@class="woo-box-item-flex head_main_3DRDm"]/div/div[2]/a')
        # 在獲取到的列表里進行篩選，已經(jīng)爬取過的微博就跳過
        for i in range(len(a)):
            if a[i].get_attribute("href") in hrefs:
                print("已經(jīng)搜索過")
                continue
            else:
                print("還沒搜索過")
                # 每次都向下滑動400像素，大致符合一條微博的高度
                changepage(400)
                # sleep(0.5)
                newpage = a[i].get_attribute("href")
                # 打印href
                print(newpage)
                hrefs.append(newpage)
                # print(comments)
                # 打印已經(jīng)搜索的微博內(nèi)容數(shù)
                print(len(hrefs))
                # 使用js腳本來點擊元素，否則可能出現(xiàn)元素不在網(wǎng)頁上，無法交互的報錯
                # a[i].click()
                browser.execute_script("arguments[0].click();", a[i])
                # 不要直接用href去請求，否則點擊返回的時候會直接回到微博首頁面
                # browser.get(newpage)
                sleep(0.5)
                # 爬取具體內(nèi)容頁面的內(nèi)容和評論
                findall()
                sleep(0.2)
                # 找到返回按鈕并點擊
                WebDriverWait(browser, 15).until(EC.presence_of_element_located((By.XPATH,
                                            '//div[@class="woo-box-flex woo-box-alignCenter Bar_left_2J3kl Bar_hand_2VAG1"]/i')))
                back = browser.find_element(By.XPATH,
                                            '//div[@class="woo-box-flex woo-box-alignCenter Bar_left_2J3kl Bar_hand_2VAG1"]/i')
                back.click()

?

text = []

# 將頁面向下滑動px像素
def changepage(px):
    browser.execute_script("window.scrollBy(0, {})".format(px))

# 爬取微博的內(nèi)容和評論
def findall():
    # 等待頁面元素加載
    WebDriverWait(browser, 15).until(EC.presence_of_element_located((By.CLASS_NAME, "Feed_body_3R0rO")))
    body = browser.find_element(By.CLASS_NAME, 'Feed_body_3R0rO')
    # 通過換行來劃分內(nèi)容
    bodytext = body.text.split("\n")
    print(bodytext)
    # 找到轉(zhuǎn)發(fā)評論點贊的元素，但是如果有微博內(nèi)容為轉(zhuǎn)發(fā)他人的微博，則存在兩個footer元素，
    # 所以尋找多個，然后取最后那一個
    footer = browser.find_elements(By.TAG_NAME, 'footer')
    footertext = footer[-1].text.split("\n")
    print(footertext[1])
    WebDriverWait(browser, 15).until(EC.presence_of_element_located((By.CLASS_NAME, "Detail_box_3Jeom")))
    try:
        prompt = browser.find_element(By.CLASS_NAME, "RepostCommentList_tip_2O5W-")
        print(prompt.text)
        t = False
    except:
        t = True
    print(t)
    while t:
        try:
            browser.find_element(By.XPATH, '//div[@class="Bottom_text_1kFLe"]')
            t = False
        except:
            t = True
            WebDriverWait(browser, 15).until(
                EC.presence_of_element_located((By.XPATH, '//div[@class="vue-recycle-scroller__item-wrapper"]')))
            pagecomment = browser.find_elements(By.XPATH, '//div[@class="vue-recycle-scroller__item-view"]')
            for i in pagecomment:
                comment = i.text.split("\n")
                if comment in text:
                    continue
                else:
                    print(comment)
                    text.append(comment)
        sleep(0.1)
        changepage(600)

?最后爬取內(nèi)容和評論的總的代碼如下：

from selenium import webdriver
from time import sleep
import json
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys

text = []
hrefs = []

# 打開瀏覽器，進入到微博登錄頁面
def browser_initial():
    browser = webdriver.Chrome()
    browser.maximize_window()
    browser.get('https://weibo.com/login.php')
    return browser


# 將已經(jīng)登錄獲得的cookie寫入，實現(xiàn)自動登錄
def log_csdn(browser):
    with open('微博_cookies.txt', 'r', encoding='utf8') as f:
        listCookies = json.loads(f.read())

    # 往browser里添加cookies
    for cookie in listCookies:
        cookie_dict = {
            'domain': '.weibo.com',
            'name': cookie.get('name'),
            'value': cookie.get('value'),
            "expires": '',
            'path': '/',
            'httpOnly': False,
            'HostOnly': False,
            'Secure': False
        }
        #print(cookie_dict)
        browser.add_cookie(cookie_dict)
    sleep(1)
    browser.get('https://weibo.com/login.php')
    #print(browser.get_cookies())
    #browser.refresh()  # 刷新網(wǎng)頁,cookies才成功

# 搜索內(nèi)容
def search(username):
    # 等待元素出現(xiàn)再進行下一步
    WebDriverWait(browser, 15).until(EC.presence_of_element_located((By.CLASS_NAME, "woo-pop-ctrl")))
    # 獲取搜索框元素
    searchinput = browser.find_element(By.CLASS_NAME, 'woo-input-main')
    # 將要搜索的內(nèi)容寫入搜索框
    searchinput.send_keys(username)
    # 等待0.5秒后按回車
    sleep(0.2)
    searchinput.send_keys(Keys.ENTER)
    # 轉(zhuǎn)移句柄到新的頁面
    new_window = browser.window_handles[-1]
    # 關(guān)閉原來的頁面
    browser.close()
    # 窗口轉(zhuǎn)移到新的頁面
    browser.switch_to.window(new_window)
    # 等待
    WebDriverWait(browser, 15).until(EC.presence_of_element_located((By.CLASS_NAME, "card-wrap")))
    # 定位用戶微博頭像并點擊
    weibo = browser.find_element(By.XPATH, '//div[@class="card card-user-b s-brt1 card-user-b-padding"]/div/a')
    weibo.click()
    new_window = browser.window_handles[-1]
    browser.switch_to.window(new_window)
    WebDriverWait(browser, 15).until(EC.presence_of_element_located((By.CLASS_NAME, "vue-recycle-scroller__item-view")))

    # 微博一次最多給12條內(nèi)容的元素，并且給出的元素不保證順序。
    # 所以第一次進入頁面的時候獲取所有的內(nèi)容元素，a標(biāo)簽里的href唯一，所以將其提取出來
    for t in range(3):
        a = browser.find_elements(By.XPATH, '//div[@class="woo-box-item-flex head_main_3DRDm"]/div/div[2]/a')
        # 在獲取到的列表里進行篩選，已經(jīng)爬取過的微博就跳過
        for i in range(len(a)):
            if a[i].get_attribute("href") in hrefs:
                print("已經(jīng)搜索過")
                continue
            else:
                print("還沒搜索過")
                # 每次都向下滑動400像素，大致符合一條微博的高度
                changepage(400)
                # sleep(0.5)
                newpage = a[i].get_attribute("href")
                # 打印href
                print(newpage)
                hrefs.append(newpage)
                # print(comments)
                # 打印已經(jīng)搜索的微博內(nèi)容數(shù)
                print(len(hrefs))
                # 使用js腳本來點擊元素，否則可能出現(xiàn)元素不在網(wǎng)頁上，無法交互的報錯
                # a[i].click()
                browser.execute_script("arguments[0].click();", a[i])
                # 不要直接用href去請求，否則點擊返回的時候會直接回到微博首頁面
                # browser.get(newpage)
                sleep(0.5)
                # 爬取具體內(nèi)容頁面的內(nèi)容和評論
                findall()
                sleep(0.2)
                # 找到返回按鈕并點擊
                WebDriverWait(browser, 15).until(EC.presence_of_element_located((By.XPATH,
                                            '//div[@class="woo-box-flex woo-box-alignCenter Bar_left_2J3kl Bar_hand_2VAG1"]/i')))
                back = browser.find_element(By.XPATH,
                                            '//div[@class="woo-box-flex woo-box-alignCenter Bar_left_2J3kl Bar_hand_2VAG1"]/i')
                back.click()

# 將頁面向下滑動px像素
def changepage(px):
    browser.execute_script("window.scrollBy(0, {})".format(px))

# 爬取微博的內(nèi)容和評論
def findall():
    # 等待頁面元素加載
    WebDriverWait(browser, 15).until(EC.presence_of_element_located((By.CLASS_NAME, "Feed_body_3R0rO")))
    body = browser.find_element(By.CLASS_NAME, 'Feed_body_3R0rO')
    # 通過換行來劃分內(nèi)容
    bodytext = body.text.split("\n")
    print(bodytext)
    # 找到轉(zhuǎn)發(fā)評論點贊的元素，但是如果有微博內(nèi)容為轉(zhuǎn)發(fā)他人的微博，則存在兩個footer元素，
    # 所以尋找多個，然后取最后那一個
    footer = browser.find_elements(By.TAG_NAME, 'footer')
    footertext = footer[-1].text.split("\n")
    print(footertext[1])
    WebDriverWait(browser, 15).until(EC.presence_of_element_located((By.CLASS_NAME, "Detail_box_3Jeom")))
    try:
        prompt = browser.find_element(By.CLASS_NAME, "RepostCommentList_tip_2O5W-")
        print(prompt.text)
        t = False
    except:
        t = True
    print(t)
    while t:
        try:
            browser.find_element(By.XPATH, '//div[@class="Bottom_text_1kFLe"]')
            t = False
        except:
            t = True
            WebDriverWait(browser, 15).until(
                EC.presence_of_element_located((By.XPATH, '//div[@class="vue-recycle-scroller__item-wrapper"]')))
            pagecomment = browser.find_elements(By.XPATH, '//div[@class="vue-recycle-scroller__item-view"]')
            for i in pagecomment:
                comment = i.text.split("\n")
                if comment in text:
                    continue
                else:
                    print(comment)
                    text.append(comment)
        sleep(0.1)
        changepage(600)

if __name__ == "__main__":
    # 打開瀏覽器進入微博登錄頁面
    browser = browser_initial()
    # 使用cookie登錄微博
    log_csdn(browser)
    # 爬取相關(guān)用戶的評論
    search("杭州地鐵")

里面的數(shù)據(jù)處理還沒做，大家可以自己打印出來后根據(jù)自己的需要進行處理。文章來源地址http://www.zghlxwxcb.cn/news/detail-784235.html

到了這里，關(guān)于使用selenium自動化工具爬取微博內(nèi)容和評論的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

如何使用自動化測試工具Selenium？
哈嘍，大家好，我是小浪。那么有一段時間沒有更新了，還是在忙實習(xí)和秋招的事情，那么今天也是實習(xí)正式結(jié)束啦，開始繼續(xù)更新我們的學(xué)習(xí)博客，后期主要是開發(fā)和測試的學(xué)習(xí)博客內(nèi)容巨多，感興趣的小伙伴們可以一鍵三連支持一下歐~ 目錄一、什么是自動化測試？二、
2024年02月11日
瀏覽(100)
selenium自動化測試教程——java爬取數(shù)據(jù)
selenium 是一個用于自動化測試 Web 應(yīng)用的工具集，它可以模擬用戶自動去瀏覽器網(wǎng)頁上進行點擊、輸入、選擇下拉值復(fù)選框、鼠標(biāo)移動、任意 JavaScript 執(zhí)行等等操作。 selenium 有三個產(chǎn)品： Selenium WebDriver：基于瀏覽器的回歸自動化套件和測試，你可以使用 Java、Python、JavaScri
2024年02月14日
瀏覽(25)
Web測試自動化工具Selenium的使用
Selenium是一個Web應(yīng)用測試的自動化工具，它通過模擬點擊實現(xiàn)對Web應(yīng)用的功能測試。測試時，除了Selenium，還需要對應(yīng)的瀏覽器驅(qū)動，如在Chrome實現(xiàn)自動點擊，則需要chromedriver。 Selenium支持多種語言和多種瀏覽器，本文僅記錄python+chrome的使用。 1. 安裝python 略 2. 安裝Selenium 注
2024年01月16日
瀏覽(95)
Selenium自動化工具集 - 完整指南和使用教程
Selenium 是一個用于自動化瀏覽器操作的工具集。它通過模擬用戶在瀏覽器中的行為，如點擊、輸入、表單提交等，來實現(xiàn)自動化測試和網(wǎng)頁數(shù)據(jù)抓取等功能。Selenium 針對不同的瀏覽器提供了不同的 WebDriver 接口，如 ChromeDriver、GeckoDriver（Firefox）、WebDriver（Safari）等。以下是基
2024年02月11日
瀏覽(42)
Python自動化測試工具selenium使用指南
概述 selenium 是網(wǎng)頁應(yīng)用中最流行的自動化測試工具，可以用來做自動化測試或者瀏覽器爬蟲等。官網(wǎng)地址為：相對于另外一款web自動化測試工具QTP來說有如下優(yōu)點：免費開源輕量級，不同語言只需要一個體積很小的依賴包支持多種系統(tǒng)，包括Windows，Mac，Linux 支持多種瀏覽器
2024年02月04日
瀏覽(80)
自動化測試工具 —— selenium介紹及基本使用方法
Selenium是一個開源、免費、簡單、靈活，對Web瀏覽器支持良好的自動化測試工具，在UI自動化、爬蟲等場景下是十分實用的，能夠熟練掌握并使用Selenium工具可以大大的提高效率。 Selenium簡介 Selenium支持多平臺、多瀏覽器、多語言去實現(xiàn)自動化測試，是一個開源和可移植的Web測
2024年02月05日
瀏覽(92)
【0基礎(chǔ)學(xué)爬蟲】爬蟲基礎(chǔ)之自動化工具 Selenium 的使用
大數(shù)據(jù)時代，各行各業(yè)對數(shù)據(jù)采集的需求日益增多，網(wǎng)絡(luò)爬蟲的運用也更為廣泛，越來越多的人開始學(xué)習(xí)網(wǎng)絡(luò)爬蟲這項技術(shù)，K哥爬蟲此前已經(jīng)推出不少爬蟲進階、逆向相關(guān)文章，為實現(xiàn)從易到難全方位覆蓋，特設(shè)【0基礎(chǔ)學(xué)爬蟲】專欄，幫助小白快速入門爬蟲，本期為自動化
2023年04月20日
瀏覽(23)
自動化測試工具Selenium的基本使用方法，軟件測試基礎(chǔ)
browser.find_element(By.ID,‘kw’).send_keys(“美女”) browser.find_element_by_id(‘kw’).send_keys(‘性感’) 2.通過標(biāo)簽name屬性進行定位 browser.find_element_by_name(“wd”).send_keys(“Linux”) browser.find_element(By.NAME,‘wd’).send_keys(“美女”) 3.通過標(biāo)簽名進行定位 browser.find_element_by_tag_name(“input”).
2024年04月22日
瀏覽(97)
python自動化測試工具selenium使用指南，絕對能幫到你
目錄概述 python+selenium環(huán)境安裝使用selenium啟動瀏覽器 selenium頁面加載等待和檢測使用time.sleep()等待使用implicitly_wait設(shè)置最長等待時間使用WebDriverWait設(shè)置等待條件檢測document是否加載完成 selenium元素定位和讀取查找元素 dom元素交互查找元素失敗處理 selenium交互控制 Actio
2024年02月08日
瀏覽(49)
測試員進階必看系列 “ python自動化測試工具selenium使用指南 ”
概述 python+selenium環(huán)境安裝使用selenium啟動瀏覽器 selenium頁面加載等待和檢測使用time.sleep()等待使用implicitly_wait設(shè)置最長等待時間使用WebDriverWait設(shè)置等待條件檢測document是否加載完成 selenium元素定位和讀取查找元素 dom元素交互查找元素失敗處理 selenium交互控制 ActionChains動
2024年02月05日
瀏覽(118)

<code id="gdmrw"></code>

<pre id="gdmrw"><em id="gdmrw"></em></pre>

<object id="gdmrw"></object>

^{<tr id="gdmrw"><strong id="gdmrw"></strong></tr>}