国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<tfoot id="6tfxm"></tfoot>

Python爬蟲完整代碼拿走不謝

2年前作者：q56731523分類：Toy博客閱讀(17)違法舉報

這篇具有很好參考價值的文章主要介紹了Python爬蟲完整代碼拿走不謝。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

對于新手做Python爬蟲來說是有點難處的，前期練習的時候可以直接套用模板，這樣省時省力還很方便。

使用Python爬取某網(wǎng)站的相關(guān)數(shù)據(jù)，并保存到同目錄下Excel。

直接上代碼：

import re
import urllib.error
import urllib.request

import xlwt
from bs4 import BeautifulSoup


def main():
    baseurl ="http://jshk.com.cn"

    datelist = getDate(baseurl)
    savepath=".\\jshk.xls"
    saveDate(datelist,savepath)

    # askURL("http://jshk.com.cn/")

findlink = re.compile(r'<a href="(.*?)">')
findimg = re.compile(r'<img.*src="(.*?)"',re.S)
findtitle = re.compile(r'<span class="title">(.*)</span')
findrating = re.compile(r'<span class="rating_num" property="v:average">(.*)</span')
findjudge = re.compile(r'<span>(\d*)人評價</span>')
findinq= re.compile(r'<span class="inq">(.*)</span>')

def getDate(baseurl):
    datalist =[]
    for i in range(0,10):
        url=baseurl+str(i*25)
        html=askURL(url)
        soup = BeautifulSoup(html,"html.parser")
        for item in soup.find_all('div',class_="item"):
            data = []
            item = str(item)
            link = re.findall(findlink,item)[0]
            data.append(link)
            img=re.findall(findimg,item)[0]
            data.append(img)
            title=re.findall(findtitle,item)[0]

            rating=re.findall(findrating,item)[0]
            data.append(rating)
            judge=re.findall(findjudge,item)[0]
            data.append(judge)
            inq=re.findall(findinq,item)

            if len(inq)!=0:
                inq=inq[0].replace("。","")
                data.append(inq)
            else:
                data.append(" ")
            print(data)
            datalist.append(data)
        print(datalist)
    return datalist

def askURL(url):
    head = { 
   "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.97 Safari/537.36"}
    request=urllib.request.Request(url,headers=head)
    html=""
    try:
        response=urllib.request.urlopen(request)
        html=response.read().decode("utf-8")
        # print(html)
    except urllib.error.URLError as e:
        if hasattr(e,"code"):
            print(e.code)
        if hasattr(e,"reason"):
            print(e.reason)

    return html

def saveDate(datalist,savepath):
    workbook = xlwt.Workbook(encoding='utf-8')
    worksheet = workbook.add_sheet('電影',cell_overwrite_ok=True)
    col =("電影詳情","圖片","影片","評分","評價數(shù)","概況")
    for i in range(0,5):
        worksheet.write(0,i,col[i])
    for i in range(0,250):
        print("第%d條" %(i+1))
        data=datalist[i]
        for j in range(0,5):
            worksheet.write(i+1,j,data[j])

    workbook.save(savepath)



if __name__ == '__main__':
    main()
    print("爬取完畢")

直接復制粘貼就行。

若要更改爬取網(wǎng)站，則需要更改URL以及相應的html格式（代碼中的“item”）。文章來源地址http://www.zghlxwxcb.cn/news/detail-504369.html

到了這里，關(guān)于Python爬蟲完整代碼拿走不謝的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權(quán)，不承擔相關(guān)法律責任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領支付寶紅包贊助服務器費用

Python爬蟲完整代碼模版
以下是一個基本的Python爬蟲代碼模板，可以根據(jù)需要進行修改： ```python import requests from bs4 import BeautifulSoup # 設置請求頭，模擬瀏覽器訪問 headers = { ? ? \\\'User-Agent\\\': \\\'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3\\\'} # 發(fā)送請求 response = r
2024年02月11日
瀏覽(27)
Python爬蟲實戰(zhàn)(高級篇)—3百度翻譯網(wǎng)頁版爬蟲(附完整代碼)
庫安裝 js2py pip install js2py requests pip install requests 這里我們發(fā)現(xiàn)所需的參數(shù)： 1、sign（這是最重要的?。。?2、token 3、ts，時間戳原帖查看
2024年02月08日
瀏覽(25)
【Python爬蟲】利用爬蟲抓取雙色球開獎號碼，獲取完整數(shù)據(jù)，簡潔45行代碼實現(xiàn)，更新時間2023-06-28
鏈接：https://pan.baidu.com/s/18oE308_NVNPaCOACw_H5Hw?pwd=abc1? 利用爬蟲抓取雙色球開獎號碼，獲取完整數(shù)據(jù)，簡潔45行代碼實現(xiàn)，更新時間2023-06-28 這是網(wǎng)上的數(shù)據(jù)，怎么將它爬取下來它將只爬取最近30期的雙色球開獎號碼，并將結(jié)果寫入到名為 \\\"雙色球開獎結(jié)果.csv\\\" 的文件中。 ? 生成
2024年02月15日
瀏覽(130)
基于python爬蟲技術(shù)對于淘寶的數(shù)據(jù)分析的設計與實現(xiàn)
本文主要介紹通過 selenium 模塊和 requests 模塊，同時讓機器模擬人在瀏覽器上的行為,登錄指定的網(wǎng)站,通過網(wǎng)站內(nèi)部的搜索引擎來搜索自己相應的信息,從而獲取相應的商品信息，并進而獲取數(shù)據(jù)，然后通過csv模塊將數(shù)據(jù)存儲到本地庫中，接著在通過pandas、jieba、matplotl
2024年02月03日
瀏覽(22)
利用爬蟲采集音頻信息完整代碼示例
以下是一個使用WWW::RobotRules和duoip.cn/get_proxy的Perl下載器程序：這個程序首先獲取一個爬蟲IP服務器地址，然后使用WWW::RobotRules模塊設置User-Agent和X-Forwarded-For頭部。接下來，程序使用LWP::UserAgent和HTTP::Request對象向Walmart網(wǎng)站發(fā)送請求，并檢查響應狀態(tài)。如果請求成功，程序?qū)⑾?/p>
2024年02月07日
瀏覽(19)
Python電商爬蟲保姆級入門教程（純新手向）
圖靈Python課堂長沙圖靈教育于2001年開始進入教育行業(yè)，立足泛IT類職業(yè)教育，以打造高新技術(shù)人才為宗旨，專注于提供多層次、個性化的職業(yè)技能培訓課程，為各行業(yè)培養(yǎng)技術(shù)開發(fā)、應用和管理等崗位的中高端人才，致力于成為優(yōu)質(zhì)的職業(yè)教育內(nèi)容提供商。 0 1 Python優(yōu)勢 1、
2024年02月15日
瀏覽(25)
關(guān)于建立一個Java項目全過程（專對于新手）
JDK = JRE + 開發(fā)工具集（例如Javac編譯工具等） JRE = JVM + Java SE標準類庫下載網(wǎng)址（Oracle公司官網(wǎng)）：www.oracle.com 這里鏈接具體下載網(wǎng)址：https://www.oracle.com/java/technologies/downloads/ 復制鏈接打開后會出現(xiàn)以下內(nèi)容這里我們選擇JDK17，因為這個版本的更穩(wěn)定，更完善一些然后點擊鏈
2024年02月07日
瀏覽(24)
微博數(shù)據(jù)采集，微博爬蟲，微博網(wǎng)頁解析，完整代碼（主體內(nèi)容+評論內(nèi)容）
參加新聞比賽，需要獲取大眾對某一方面的態(tài)度信息，因此選擇微博作為信息收集的一部分微博主體內(nèi)容微博評論內(nèi)容一級評論內(nèi)容二級評論內(nèi)容以華為發(fā)布會這一熱搜為例子，我們可以通過開發(fā)者模式得到信息基本都包含在下面的 div tag中我們通過網(wǎng)絡這一模塊進行解
2024年03月14日
瀏覽(24)
Python：使用爬蟲抓取網(wǎng)頁中的視頻并下載（完整源碼）
Python：使用爬蟲抓取網(wǎng)頁中的視頻并下載（完整源碼）在今天的程序開發(fā)世界中，網(wǎng)站是不可或缺的一部分。人們使用網(wǎng)站來獲取有用的信息、購買商品和娛樂自己。這些網(wǎng)站的內(nèi)容通常包含了各種類型的文件，其中最常見的就是視頻。對于有經(jīng)驗的程序開發(fā)者來說，使用
2024年02月16日
瀏覽(46)
Python爬蟲實戰(zhàn)（六）——使用代理IP批量下載高清小姐姐圖片（附上完整源碼）
本次爬取的目標是某網(wǎng)站4K高清小姐姐圖片：實現(xiàn)批量下載指定的圖片，存放到指定文件夾中： Python：3.10 編輯器：PyCharm 第三方模塊，自行安裝：爬蟲使用代理IP的好處有以下幾點：輪換IP地址：使用代理IP可以輪換IP地址，降低被封禁的風險，從而保持爬取的連續(xù)性
2024年02月07日
瀏覽(93)

<address id="8xnn5"><nobr id="8xnn5"><sup id="8xnn5"></sup></nobr></address>

<tfoot id="8xnn5"></tfoot>

<del id="8xnn5"><b id="8xnn5"><td id="8xnn5"></td></b></del>

<address id="8xnn5"><thead id="8xnn5"></thead></address><i id="8xnn5"><kbd id="8xnn5"><dfn id="8xnn5"></dfn></kbd></i>