国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<kbd id="63br5"><b id="63br5"></b></kbd>

<i id="63br5"><dfn id="63br5"></dfn></i>

<del id="63br5"><pre id="63br5"></pre></del>

<thead id="63br5"><sup id="63br5"><ins id="63br5"></ins></sup></thead>

【爬蟲】根據(jù)關(guān)鍵詞自動搜索并爬取結(jié)果

2年前作者：一個無情的靚女分類：Toy博客閱讀(25)違法舉報

這篇具有很好參考價值的文章主要介紹了【爬蟲】根據(jù)關(guān)鍵詞自動搜索并爬取結(jié)果。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

根據(jù)關(guān)鍵詞自動搜索并爬取網(wǎng)頁的信息
網(wǎng)頁有兩種情況：可以直接獲取頁數(shù)的和不可以直接獲取頁數(shù)的；
兩種情況可以采取不同的方法：

情況一：先爬取頁數(shù)，再爬取每頁的數(shù)據(jù)

# coding=utf-8
import pandas as pd
import urllib
from selenium import webdriver
from selenium.webdriver.common.by import By
import time
import csv
import re
import random

option = webdriver.ChromeOptions()
option.add_argument("headless")
# option.binary_location = r"...\chrome.exe"
option.add_argument('blink-settings=imagesEnabled=false')
driver = webdriver.Chrome(executable_path=r"...\chromedriver.exe"
                          , options=option)
head_url = "部分的頭部URL+key="
keywords_all = []
keywords = keywords_all[410:444]

keyword_list = []
product_name_list = []
company_name_list = []
company_url_list = []
phone_list = []


def PageNumber(keyword):
    wd = urllib.parse.quote(keyword.encode('gb2312'))
    turn_url = head_url + wd + ';use_cas=0;f=pclist;p=0'
    driver.get(turn_url)
    # print(driver.page_source)
    time.sleep(random.randint(1,3))
    try:
        source = driver.find_element(By.XPATH
                                        ,"http://div[@class='gys']/dl/dt/span").text
        reg = re.findall(r".*有(.*)家", source)
        page_number = int(reg[0])
        print("共有",page_number,"條數(shù)據(jù)")
        return page_number
    except:
        return -1

def GetResult(keyword, page):
    wd = urllib.parse.quote(keyword.encode('gb2312'))
    turn_url = head_url + wd + ';use_cas=0;f=pclist;p=' + str(page)
    print(turn_url)
    try:
        driver.get(turn_url)
        time.sleep(random.randint(2,4))
        list = driver.find_elements(By.XPATH
                                , "http://div[@class='gys']/dl/dd/form")
        for l in list:
            company = l.find_element(By.XPATH, "./table/tbody/tr/td/a").text
            print(company)
            company_name_list.append(company)
            company_url = l.find_element(By.XPATH,"./table/tbody/tr/td/a[1]").get_attribute('href')
            print(company_url)
            company_url_list.append(company_url)
            phone = l.find_element(By.XPATH, "./table/tbody/tr[2]/td[2]").text
            print(phone)
            phone_list.append(phone)
            print(keyword)
            keyword_list.append(keyword)
    except:
        print('get不到頁面')
for i in keywords:
    this_page = 0
    page_number = int((PageNumber(keyword=i))/10)
    if page_number == 0:
        try:
            GetResult(keyword=i, page=0)
        except:
            continue
    elif page_number == -1:
        print(i,'無數(shù)據(jù)')
    else:
        for p in range(0,page_number):
            try:
                GetResult(keyword=i, page=p)
            except:
                continue
data_list = []
for a, b, c, d in zip(keyword_list, company_name_list, company_url_list, phone_list):
    x = {}
    x['keyword'] = a
    x['company_name'] = b
    x['company_url'] = c
    x['phone'] = d
    data_list.append(x)
# print(data_list)
with open(r"###.csv", 'w', newline='', encoding='UTF-8') as f_c_csv:
    writer = csv.writer(f_c_csv)
    writer.writerow(['keyword' ,'company_name', 'company_url', 'phone'])
    for nl in data_list:
        writer.writerow(nl.values())
print("寫入完成！")

情況二：無法爬取到頁碼數(shù)，只能換頁爬取的文章來源地址http://www.zghlxwxcb.cn/news/detail-522755.html

# coding=utf-8
import urllib
from selenium import webdriver
from selenium.webdriver.common.by import By
import time
import csv
import random
import pandas as pd

option = webdriver.ChromeOptions()
option.add_argument("headless")
# option.binary_location = r"...\chrome.exe"
option.add_argument('blink-settings=imagesEnabled=false')
driver = webdriver.Chrome(executable_path=r"...\chromedriver.exe, options=option)
head_url = "部分頭url+keyword="
keywords_all = []
keywords = keywords_all[400:444]

keyword_list = []
product_name_list = []
company_name_list = []
company_url_list = []
mobilephone_list = []
telephone_list = []

def NextPage(keyword, page):
    wd = urllib.parse.quote(keyword.encode('utf-8'))
    if page == 0:
        turn_url = head_url + wd
    else:
        turn_url = head_url + wd + "&p="+ str(page)
    print(turn_url)
    driver.get(turn_url)
    time.sleep(random.randint(1,3))
    list = driver.find_elements(By.XPATH
                                    ,"http://div[@class='lc-grid-list']//div[@class='container']//div[@class='grid-body']//div[@class='lc-main']//div[@class='lc-products-wrap']//div[@class='pro-item clearfix ']")
    return len(list)

def GetResult(keyword, page):
    wd = urllib.parse.quote(keyword.encode('utf-8'))
    if page == 0:
        turn_url = head_url + wd
    else:
        turn_url = head_url + wd + "&p=" + str(page)
    driver.get(turn_url)
    time.sleep(random.randint(3,5))
    try:
        list = driver.find_elements(By.XPATH
                                    , "http://div[@class='lc-grid-list']//div[@class='container']//div[@class='grid-body']//div[@class='lc-main']//div[@class='lc-products-wrap']//div[@class='pro-item clearfix ']")
        for l in list:
            product_name = l.find_element(By.XPATH, "./div[@class='pro-info']/div[@class='intro-box']/div[@class='tt']/a").text
            print(product_name)
            product_name_list.append(product_name)
            try:
                telephone = l.find_element(By.XPATH, "./div[@class='pro-info']/div[@class='basic-box']/div[@class='info']/dl/dd[2]").text
                print(telephone)
                telephone_list.append(telephone)
                mobilephone = l.find_element(By.XPATH,
                                           "./div[@class='pro-info']/div[@class='basic-box']/div[@class='info']/dl/dd[3]").text
                print(mobilephone)
                mobilephone_list.append(mobilephone)
            except:
                continue
            company = l.find_element(By.XPATH,
                                       "./div[@class='pro-info']/div[@class='basic-box']/div[@class='title']/em").text
            print(company)
            company_name_list.append(company)
            for link in l.find_elements(By.XPATH,"./div[@class='pro-info']/div[@class='basic-box']/div[@class='title']/em/a"):
                company_url = link.get_attribute('href')
                print(company_url)
                company_url_list.append(company_url)
            print(keyword)
            keyword_list.append(keyword)
    except:
        print("爬取失敗")

for i in keywords:
    this_page = 0
    while NextPage(keyword = i, page = this_page) > 19:
        GetResult(keyword=i, page=this_page)
        this_page = this_page + 1
    if NextPage(keyword = i, page = this_page) < 20:
        GetResult(keyword=i, page=this_page)

data_list = []
for a, b, c, d, e, f in zip(keyword_list, product_name_list, company_name_list, company_url_list, mobilephone_list, telephone_list):
    x = {}
    x['keyword'] = a
    x['product_name'] = b
    x['company_name'] = c
    x['company_url'] = d
    x['mobilephone'] = e
    x['telephone'] = f
    data_list.append(x)
# print(data_list)

with open("###.csv", 'w', newline='', encoding='UTF-8') as f_c_csv:
    writer = csv.writer(f_c_csv)
    writer.writerow(['keyword', 'product_name','company_name', 'company_url', 'mobilephone', 'telephone'])
    for nl in data_list:
        writer.writerow(nl.values())
print("寫入完成！")

到了這里，關(guān)于【爬蟲】根據(jù)關(guān)鍵詞自動搜索并爬取結(jié)果的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

使用Python編寫搜索引擎關(guān)鍵詞排名監(jiān)測爬蟲
目錄 1. 了解排名監(jiān)測的重要性 2. 選擇合適的搜索引擎 3. 構(gòu)建排名監(jiān)測爬蟲
2024年02月09日
瀏覽(31)
（已解決）關(guān)鍵詞爬取百度搜索結(jié)果，返回百度安全驗證，網(wǎng)絡(luò)不給力，請稍后重試，無法請求到正確數(shù)據(jù)的問題
已解決，使用進行百度搜索，然后爬取搜索結(jié)果，請求數(shù)據(jù)后，返回的是百度安全驗證，網(wǎng)絡(luò)不給力，請稍后重試。無法請求到正確數(shù)據(jù)。且嘗試在header中增加Accept參數(shù)還是不行。 ? ? ?在學(xué)習(xí)過程中，寫了一小段練習(xí)用的爬取程序，獲取百度搜索后的結(jié)果，代
2024年02月08日
瀏覽(31)
（已解決）關(guān)鍵詞爬取百度搜索結(jié)果，返回百度安全驗證，網(wǎng)絡(luò)不給力，請稍后重試，無法請求到正確數(shù)據(jù)的問題（2023最新）
已解決，使用進行百度搜索，然后爬取搜索結(jié)果，請求數(shù)據(jù)后，返回的是百度安全驗證，網(wǎng)絡(luò)不給力，請稍后重試。無法請求到正確數(shù)據(jù)。且嘗試在header中增加Accept參數(shù)還是不行。 ? ? ?在學(xué)習(xí)過程中，寫了一小段練習(xí)用的爬取程序，獲取百度搜索后的結(jié)果，代
2024年02月17日
瀏覽(27)
長尾關(guān)鍵詞挖掘軟件-免費的百度搜索關(guān)鍵詞挖掘
嗨，大家好！今天，我想和大家聊一聊長尾挖掘工具。作為一個在網(wǎng)絡(luò)世界里摸爬滾打多年的人，我對這個話題有著一些個人的感悟和見解，希望能與大家分享。首先，讓我坦白一點，長尾挖掘工具對于我來說真是救命稻草。在我剛開始做網(wǎng)站優(yōu)化和內(nèi)容創(chuàng)作的
2024年02月09日
瀏覽(36)
AI畫畫軟件手機版，根據(jù)關(guān)鍵詞進行創(chuàng)作
? “ ?兄弟們，哈嘍呀，我是開源老王?今天分享的開源項目是： ?一個能夠根據(jù)繪畫的軟件-AI畫畫 ” AI畫畫軟件是一款革命性的軟件，它可以讓你使用人工智能技術(shù)來創(chuàng)作出精美的圖畫。它可以自動生成圖像，并且可以根據(jù)你的要求調(diào)整圖像的風(fēng)格，讓你的作品更
2024年02月09日
瀏覽(22)
Elasticsearch的關(guān)鍵詞搜索
返回給前端的實體類 es對應(yīng)的實體類前端傳遞的搜索參數(shù)實體類 controller層 service層接口 service實現(xiàn)類 Springboot啟動類
2023年04月08日
瀏覽(30)
item_search-ks-根據(jù)關(guān)鍵詞取商品列表
一、接口參數(shù)說明： item_search-根據(jù)取商品列表，點擊更多API調(diào)試，請移步注冊API賬號點擊獲取測試key和secret 公共參數(shù) 請求地址: https://api-gw.onebound.cn/ks/item_search 名稱類型必須描述 key String 是調(diào)用key（http://o0b.cn/iimiya） secret String 是調(diào)用密鑰 api_name String 是 API接口名
2024年02月14日
瀏覽(22)
關(guān)鍵詞組合工具-自動關(guān)鍵詞挖掘組成關(guān)鍵詞軟件免費
組合工具，今天給大家分享一款免費的挖掘工具。自動挖掘流量，過濾無效。自動組成，組成標(biāo)題。以及自動采集文章。詳細(xì)參考圖片不少的網(wǎng)站能在相關(guān)的搜索引擎呈現(xiàn)的話，組合工具普通都會被這個搜索引擎所收錄，不然也
2023年04月08日
瀏覽(28)
VIM統(tǒng)計搜索關(guān)鍵詞命令
:%s/.//gn ? ? ? ?統(tǒng)計字符數(shù) :%s/i+//gn ? ?統(tǒng)計單詞數(shù) :%s/^//n ? ? ? ? ? 統(tǒng)計行數(shù) :%s/keyword//g ? ? ?統(tǒng)計任何地方出現(xiàn)的 \\\"keyword\\\"?? :%s/keyword//gn ? ?統(tǒng)計任何地方出現(xiàn)的 \\\"keyword\\\" :%s/keyword/ ：這部分是 Vim 的替換命令的開頭。:%s 表示在整個文件范圍內(nèi)進行替換操作。keyword 是要查
2024年02月09日
瀏覽(25)
X書關(guān)鍵詞協(xié)議搜索
搜索接口中的其他java層加密，詳細(xì)見： https://codeooo.blog.csdn.net/article/details/122986633
2024年02月16日
瀏覽(23)

<tfoot id="7j3bj"><s id="7j3bj"><small id="7j3bj"></small></s></tfoot>

<tfoot id="7j3bj"></tfoot>

<thead id="7j3bj"><div id="7j3bj"></div></thead>