国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Python爬蟲完整代碼拿走不謝

這篇具有很好參考價值的文章主要介紹了Python爬蟲完整代碼拿走不謝。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

對于新手做Python爬蟲來說是有點難處的,前期練習的時候可以直接套用模板,這樣省時省力還很方便。

使用Python爬取某網(wǎng)站的相關(guān)數(shù)據(jù),并保存到同目錄下Excel。

直接上代碼:

import re
import urllib.error
import urllib.request

import xlwt
from bs4 import BeautifulSoup


def main():
    baseurl ="http://jshk.com.cn"

    datelist = getDate(baseurl)
    savepath=".\\jshk.xls"
    saveDate(datelist,savepath)

    # askURL("http://jshk.com.cn/")

findlink = re.compile(r'<a href="(.*?)">')
findimg = re.compile(r'<img.*src="(.*?)"',re.S)
findtitle = re.compile(r'<span class="title">(.*)</span')
findrating = re.compile(r'<span class="rating_num" property="v:average">(.*)</span')
findjudge = re.compile(r'<span>(\d*)人評價</span>')
findinq= re.compile(r'<span class="inq">(.*)</span>')

def getDate(baseurl):
    datalist =[]
    for i in range(0,10):
        url=baseurl+str(i*25)
        html=askURL(url)
        soup = BeautifulSoup(html,"html.parser")
        for item in soup.find_all('div',class_="item"):
            data = []
            item = str(item)
            link = re.findall(findlink,item)[0]
            data.append(link)
            img=re.findall(findimg,item)[0]
            data.append(img)
            title=re.findall(findtitle,item)[0]

            rating=re.findall(findrating,item)[0]
            data.append(rating)
            judge=re.findall(findjudge,item)[0]
            data.append(judge)
            inq=re.findall(findinq,item)

            if len(inq)!=0:
                inq=inq[0].replace("。","")
                data.append(inq)
            else:
                data.append(" ")
            print(data)
            datalist.append(data)
        print(datalist)
    return datalist

def askURL(url):
    head = { 
   "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.97 Safari/537.36"}
    request=urllib.request.Request(url,headers=head)
    html=""
    try:
        response=urllib.request.urlopen(request)
        html=response.read().decode("utf-8")
        # print(html)
    except urllib.error.URLError as e:
        if hasattr(e,"code"):
            print(e.code)
        if hasattr(e,"reason"):
            print(e.reason)

    return html

def saveDate(datalist,savepath):
    workbook = xlwt.Workbook(encoding='utf-8')
    worksheet = workbook.add_sheet('電影',cell_overwrite_ok=True)
    col =("電影詳情","圖片","影片","評分","評價數(shù)","概況")
    for i in range(0,5):
        worksheet.write(0,i,col[i])
    for i in range(0,250):
        print("第%d條" %(i+1))
        data=datalist[i]
        for j in range(0,5):
            worksheet.write(i+1,j,data[j])

    workbook.save(savepath)



if __name__ == '__main__':
    main()
    print("爬取完畢")

直接復制粘貼就行。

若要更改爬取網(wǎng)站,則需要更改URL以及相應的html格式(代碼中的“item”)。文章來源地址http://www.zghlxwxcb.cn/news/detail-504369.html

到了這里,關(guān)于Python爬蟲完整代碼拿走不謝的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權(quán),不承擔相關(guān)法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領支付寶紅包贊助服務器費用

相關(guān)文章

  • Python爬蟲完整代碼模版

    以下是一個基本的Python爬蟲代碼模板,可以根據(jù)需要進行修改: ```python import requests from bs4 import BeautifulSoup # 設置請求頭,模擬瀏覽器訪問 headers = { ? ? \\\'User-Agent\\\': \\\'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3\\\'} # 發(fā)送請求 response = r

    2024年02月11日
    瀏覽(27)
  • Python爬蟲實戰(zhàn)(高級篇)—3百度翻譯網(wǎng)頁版爬蟲(附完整代碼)

    Python爬蟲實戰(zhàn)(高級篇)—3百度翻譯網(wǎng)頁版爬蟲(附完整代碼)

    庫 安裝 js2py pip install js2py requests pip install requests 這里我們發(fā)現(xiàn)所需的參數(shù): 1、sign(這是最重要的?。。?2、token 3、ts,時間戳 原帖查看

    2024年02月08日
    瀏覽(25)
  • 【Python爬蟲】利用爬蟲抓取雙色球開獎號碼,獲取完整數(shù)據(jù),簡潔45行代碼實現(xiàn),更新時間2023-06-28

    【Python爬蟲】利用爬蟲抓取雙色球開獎號碼,獲取完整數(shù)據(jù),簡潔45行代碼實現(xiàn),更新時間2023-06-28

    鏈接:https://pan.baidu.com/s/18oE308_NVNPaCOACw_H5Hw?pwd=abc1? 利用爬蟲抓取雙色球開獎號碼,獲取完整數(shù)據(jù),簡潔45行代碼實現(xiàn),更新時間2023-06-28 這是網(wǎng)上的數(shù)據(jù),怎么將它爬取下來 它將只爬取最近30期的雙色球開獎號碼,并將結(jié)果寫入到名為 \\\"雙色球開獎結(jié)果.csv\\\" 的文件中。 ? 生成

    2024年02月15日
    瀏覽(130)
  • 基于python爬蟲技術(shù)對于淘寶的數(shù)據(jù)分析的設計與實現(xiàn)

    基于python爬蟲技術(shù)對于淘寶的數(shù)據(jù)分析的設計與實現(xiàn)

    本文主要介紹通過 selenium 模塊和 requests 模塊,同時讓機器模擬人在瀏覽器上的行為,登錄指定的網(wǎng)站,通過網(wǎng)站內(nèi)部的搜索引擎來搜索自己相應的信息,從而獲取相應的商品信息,并進而獲取數(shù)據(jù),然后通過csv模塊將數(shù)據(jù)存儲到本地庫中,接著在通過pandas、jieba、matplotl

    2024年02月03日
    瀏覽(22)
  • 利用爬蟲采集音頻信息完整代碼示例

    利用爬蟲采集音頻信息完整代碼示例

    以下是一個使用WWW::RobotRules和duoip.cn/get_proxy的Perl下載器程序: 這個程序首先獲取一個爬蟲IP服務器地址,然后使用WWW::RobotRules模塊設置User-Agent和X-Forwarded-For頭部。接下來,程序使用LWP::UserAgent和HTTP::Request對象向Walmart網(wǎng)站發(fā)送請求,并檢查響應狀態(tài)。如果請求成功,程序?qū)⑾?/p>

    2024年02月07日
    瀏覽(19)
  • Python電商爬蟲保姆級入門教程(純新手向)

    Python電商爬蟲保姆級入門教程(純新手向)

    圖靈Python課堂 長沙圖靈教育于2001年開始進入教育行業(yè),立足泛IT類職業(yè)教育,以打造高新技術(shù)人才為宗旨,專注于提供多層次、個性化的職業(yè)技能培訓課程,為各行業(yè)培養(yǎng)技術(shù)開發(fā)、應用和管理等崗位的中高端人才,致力于成為優(yōu)質(zhì)的職業(yè)教育內(nèi)容提供商。 0 1 Python優(yōu)勢 1、

    2024年02月15日
    瀏覽(25)
  • 關(guān)于建立一個Java項目全過程(專對于新手)

    關(guān)于建立一個Java項目全過程(專對于新手)

    JDK = JRE + 開發(fā)工具集(例如Javac編譯工具等) JRE = JVM + Java SE標準類庫 下載網(wǎng)址(Oracle公司官網(wǎng)):www.oracle.com 這里鏈接具體下載網(wǎng)址:https://www.oracle.com/java/technologies/downloads/ 復制鏈接打開后會出現(xiàn)以下內(nèi)容 這里我們選擇JDK17,因為這個版本的更穩(wěn)定,更完善一些 然后點擊鏈

    2024年02月07日
    瀏覽(24)
  • 微博數(shù)據(jù)采集,微博爬蟲,微博網(wǎng)頁解析,完整代碼(主體內(nèi)容+評論內(nèi)容)

    微博數(shù)據(jù)采集,微博爬蟲,微博網(wǎng)頁解析,完整代碼(主體內(nèi)容+評論內(nèi)容)

    參加新聞比賽,需要獲取大眾對某一方面的態(tài)度信息,因此選擇微博作為信息收集的一部分 微博主體內(nèi)容 微博評論內(nèi)容 一級評論內(nèi)容 二級評論內(nèi)容 以華為發(fā)布會這一熱搜為例子,我們可以通過開發(fā)者模式得到信息基本都包含在下面的 div tag中 我們通過網(wǎng)絡這一模塊進行解

    2024年03月14日
    瀏覽(24)
  • Python:使用爬蟲抓取網(wǎng)頁中的視頻并下載(完整源碼)

    Python:使用爬蟲抓取網(wǎng)頁中的視頻并下載(完整源碼) 在今天的程序開發(fā)世界中,網(wǎng)站是不可或缺的一部分。人們使用網(wǎng)站來獲取有用的信息、購買商品和娛樂自己。這些網(wǎng)站的內(nèi)容通常包含了各種類型的文件,其中最常見的就是視頻。對于有經(jīng)驗的程序開發(fā)者來說,使用

    2024年02月16日
    瀏覽(46)
  • Python爬蟲實戰(zhàn)(六)——使用代理IP批量下載高清小姐姐圖片(附上完整源碼)

    Python爬蟲實戰(zhàn)(六)——使用代理IP批量下載高清小姐姐圖片(附上完整源碼)

    本次爬取的目標是某網(wǎng)站4K高清小姐姐圖片: 實現(xiàn)批量下載指定的圖片,存放到指定文件夾中: Python:3.10 編輯器:PyCharm 第三方模塊,自行安裝: 爬蟲使用代理IP的好處有以下幾點: 輪換IP地址 :使用代理IP可以輪換IP地址,降低被封禁的風險,從而保持爬取的連續(xù)性

    2024年02月07日
    瀏覽(93)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包