国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

簡單的用Python抓取動態(tài)網(wǎng)頁數(shù)據(jù),實現(xiàn)可視化數(shù)據(jù)分析

這篇具有很好參考價值的文章主要介紹了簡單的用Python抓取動態(tài)網(wǎng)頁數(shù)據(jù),實現(xiàn)可視化數(shù)據(jù)分析。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

一眨眼明天就周末了,一周過的真快!

今天咱們用Python來實現(xiàn)一下動態(tài)網(wǎng)頁數(shù)據(jù)的抓取

最近不是有消息說世界首富馬上要變成中國人了嗎,這要真成了,可就是歷史上首位中國世界首富了!

那我們就以富豪排行榜為例,爬取一下2023年國內(nèi)富豪五百強,最后實現(xiàn)一下可視化分析。

準備工作

環(huán)境使用

  • Python
  • Pycharm

模塊使用

  • re 正則表達式
  • csv <表格文件> 內(nèi)置模塊 保存數(shù)據(jù)
  • requests >>> 數(shù)據(jù)請求
  • pandas >>> 保存表格
  • pyecharts >>> 可視化模塊

實現(xiàn)流程: <基本公式>

數(shù)據(jù)來源分析

  1. 明確需求: 明確采集的網(wǎng)站以及數(shù)據(jù)內(nèi)容
    - 目標網(wǎng)址
  2. 抓包分析: 通過瀏覽器自帶工具 (開發(fā)者工具)
    - 打開開發(fā)者工具: F12 / 右鍵點檢查選擇network (網(wǎng)絡(luò))
    - 點擊下一頁按鈕
    數(shù)據(jù)包地址

代碼實現(xiàn)步驟

  1. 發(fā)送請求 -> 模擬瀏覽器對于url地址發(fā)送請求
    url地址: 分析找到鏈接地址
  2. 獲取數(shù)據(jù) -> 獲取服務(wù)器返回響應(yīng)數(shù)據(jù)
  3. 解析數(shù)據(jù) -> 提取我們自己需要數(shù)據(jù)
  4. 保存數(shù)據(jù) -> 保存到表格文件里面

代碼解析

發(fā)送請求

for page in range(1, 35):
    print(f'{page}' * 20)
    # url地址: 請求網(wǎng)址
    url = f'https://service.ikuyu.cn/XinCaiFu2/pcremoting/bdListAction.do?method=getPage&callback=jsonpCallback&sortBy=assets&order=asc&type=4&keyword=&pageSize=15&year=2023&pageNo={page}&from=jsonp&_=1700739728273'
    # 模擬瀏覽器: 請求頭
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36'
    }
    # 發(fā)送請求: 請求方法 <開發(fā)者工具>
    response = requests.get(url=url, headers=headers)

?

獲取數(shù)據(jù)

 data = response.text

?

解析數(shù)據(jù)

re.findall(‘匹配數(shù)據(jù)’, ‘數(shù)據(jù)源’) -> 從什么地方去獲取什么數(shù)據(jù)

# json字符串數(shù)據(jù)
html = re.findall('jsonpCallback\((.*)', data)[0].replace(')', '')
print(html)
# 轉(zhuǎn)成json字典 當你轉(zhuǎn)json數(shù)據(jù)報錯的時候 html不是完整json數(shù)據(jù)格式
json_data = json.loads(html)
# 鍵值對取值 提取 rows 列表 (根據(jù)冒號左邊的內(nèi)容[鍵], 提取冒號右邊的內(nèi)容[值])
rows = json_data['data']['rows']
# for循環(huán)遍歷
for row in rows:

?

創(chuàng)建文件對象

f = open('data.csv', mode='w', encoding='utf-8', newline='')
csv_writer = csv.DictWriter(f, fieldnames=[
    '財富',
    '姓名',
    '主要公司',
    '相關(guān)行業(yè)',
    '公司總部省份',
    '公司總部城市',
    '性別',
    '年齡',
    '年份',
])
csv_writer.writeheader()

?

保存數(shù)據(jù)

dit = {
    '財富': row['assets'],
    '姓名': row['name'],
    '主要公司': row['company'],
    '相關(guān)行業(yè)': row['industry'],
    '公司總部省份': row['addr'][:2],
    '公司總部城市': row['addr'][-2:],
    '性別': row['sex'],
    '年齡': row['age'],
    '年份': row['year'],
}
csv_writer.writerow(dit)
print(row)
# 源碼+wei?:python1018 領(lǐng)取

?

采集數(shù)據(jù)+可視化代碼我都打包好了,還有視頻講解,都在最后一段代碼中。

簡單的用Python抓取動態(tài)網(wǎng)頁數(shù)據(jù),實現(xiàn)可視化數(shù)據(jù)分析

效果展示

簡單的用Python抓取動態(tài)網(wǎng)頁數(shù)據(jù),實現(xiàn)可視化數(shù)據(jù)分析

簡單的用Python抓取動態(tài)網(wǎng)頁數(shù)據(jù),實現(xiàn)可視化數(shù)據(jù)分析

好了,本次分享就到這結(jié)束了,咱們下次見~文章來源地址http://www.zghlxwxcb.cn/news/detail-747282.html

到了這里,關(guān)于簡單的用Python抓取動態(tài)網(wǎng)頁數(shù)據(jù),實現(xiàn)可視化數(shù)據(jù)分析的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔相關(guān)法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 小白用chatgpt編寫python 爬蟲程序代碼 抓取網(wǎng)頁數(shù)據(jù)(js動態(tài)生成網(wǎng)頁元素)

    小白用chatgpt編寫python 爬蟲程序代碼 抓取網(wǎng)頁數(shù)據(jù)(js動態(tài)生成網(wǎng)頁元素)

    jS動態(tài)生成,由于呈現(xiàn)在網(wǎng)頁上的內(nèi)容是由JS生成而來,我們能夠在瀏覽器上看得到,但是在HTML源碼中卻發(fā)現(xiàn)不了 ? ? ? ?如果不加,如果網(wǎng)站有防爬技術(shù),比如頻繁訪問,后面你會發(fā)現(xiàn)什么數(shù)據(jù)都取不到 User-Agent獲取地方: ?網(wǎng)頁獲取位置: 使用代理IP解決反爬。(免費代理

    2024年02月01日
    瀏覽(30)
  • 簡單的用Python實現(xiàn)一下JS逆向解密,采集空氣質(zhì)量數(shù)據(jù)

    簡單的用Python實現(xiàn)一下JS逆向解密,采集空氣質(zhì)量數(shù)據(jù)

    最近天氣降溫厲害,咱們用 Python 來分析一下空氣質(zhì)量如何~ 話不多說,我們直接開始上手。 環(huán)境使用 Python 3.8 Pycharm nodejs 模塊使用 import requests import execjs import json requests 和 execjs 都是第三方模塊,需要手動安裝,直接pip install 加上模塊名字即可。 明確需求: 明確采集的網(wǎng)站

    2024年02月05日
    瀏覽(27)
  • Puppeteer讓你網(wǎng)頁操作更簡單(2)抓取數(shù)據(jù)

    Puppeteer讓你網(wǎng)頁操作更簡單(2)抓取數(shù)據(jù)

    Puppeteer讓你網(wǎng)頁操作更簡單(1)屏幕截圖】 現(xiàn)在您已經(jīng)了解了Headless Chrome和Puppeteer的工作原理基礎(chǔ)知識,讓我們看一個更復雜的示例,其中我們實際上可以抓取一些數(shù)據(jù)。 首先,請查看此處的Puppeteer API文檔。如您所見,有大量不同的方法我們可以使用不僅可以在網(wǎng)站上點擊,還可以

    2024年01月16日
    瀏覽(38)
  • 100天玩轉(zhuǎn)python——day67 使用Selenium抓取網(wǎng)頁動態(tài)內(nèi)容

    根據(jù)權(quán)威機構(gòu)發(fā)布的全球互聯(lián)網(wǎng)可訪問性審計報告,全球約有四分之三的網(wǎng)站其內(nèi)容或部分內(nèi)容是通過JavaScript動態(tài)生成的,這就意味著在瀏覽器窗口中“查看網(wǎng)頁源代碼”時無法在HTML代碼中找到這些內(nèi)容,也就是說我們之前用的抓取數(shù)據(jù)的方式無法正常運轉(zhuǎn)了。解決這樣的

    2024年02月09日
    瀏覽(45)
  • 簡單的用Python采集股票數(shù)據(jù),保存表格后分析歷史數(shù)據(jù)

    簡單的用Python采集股票數(shù)據(jù),保存表格后分析歷史數(shù)據(jù)

    字節(jié)跳動如果上市,那么鐘老板將成為我國第一個世界首富 趁著現(xiàn)在還沒上市,咱們提前學習一下用Python分析股票歷史數(shù)據(jù),抱住粗大腿坐等起飛~ 好了話不多說,我們直接開始正文 環(huán)境使用 Python 3.10 解釋器 Pycharm 編輯器 模塊使用 requests — 數(shù)據(jù)請求模塊 csv - 保存csv表格

    2024年02月05日
    瀏覽(30)
  • 【一個超簡單的爬蟲demo】探索新浪網(wǎng):使用 Python 爬蟲獲取動態(tài)網(wǎng)頁數(shù)據(jù)

    【一個超簡單的爬蟲demo】探索新浪網(wǎng):使用 Python 爬蟲獲取動態(tài)網(wǎng)頁數(shù)據(jù)

    可以實戰(zhàn)教爬蟲嗎,搭個環(huán)境嘗試爬進去。嘗試收集一些數(shù)據(jù) 一位粉絲想了解爬蟲,我們今天從最基礎(chǔ)的開始吧! 本文將介紹如何使用 Python 爬蟲技術(shù)爬取新浪網(wǎng)首頁的內(nèi)容。新浪網(wǎng)作為一個內(nèi)容豐富且更新頻繁的新聞網(wǎng)站,是理解動態(tài)網(wǎng)頁爬取的絕佳例子。 首先,確保你

    2024年02月04日
    瀏覽(19)
  • 【python】當當書籍數(shù)據(jù)抓取分析與可視化(代碼+報告)【獨一無二】

    【python】當當書籍數(shù)據(jù)抓取分析與可視化(代碼+報告)【獨一無二】

    ??博__主??:米碼收割機 ??技__能??:C++/Python語言 ??公眾號??:測試開發(fā)自動化【獲取源碼+商業(yè)合作】 ??榮__譽??:阿里云博客專家博主、51CTO技術(shù)博主 ??專__注??:專注主流機器人、人工智能等相關(guān)領(lǐng)域的開發(fā)、測試技術(shù)。 本項目旨在研究和分析當當網(wǎng)上的書籍信

    2024年02月04日
    瀏覽(25)
  • 使用Selenium抓取網(wǎng)頁動態(tài)內(nèi)容

    Selenium 是一個自動化測試工具,支持多種瀏覽器,包括 Chrome、Firefox、Edge 等,具有強大的瀏覽器自動化能力,可以用于Web應(yīng)用程序的自動化測試、數(shù)據(jù)挖掘等領(lǐng)域。Selenium的主要特點有: 支持多種瀏覽器 Selenium支持多種瀏覽器,包括Chrome、Firefox、Edge、Safari等,可以滿足不同

    2023年04月25日
    瀏覽(34)
  • 『爬蟲四步走』手把手教你使用Python抓取并存儲網(wǎng)頁數(shù)據(jù)!

    『爬蟲四步走』手把手教你使用Python抓取并存儲網(wǎng)頁數(shù)據(jù)!

    爬蟲是Python的一個重要的應(yīng)用,使用Python爬蟲我們可以輕松的從互聯(lián)網(wǎng)中抓取我們想要的數(shù)據(jù),**本文將基于爬取B站視頻熱搜榜單數(shù)據(jù)并存儲為例,詳細介紹Python爬蟲的基本流程。**如果你還在入門爬蟲階段或者不清楚爬蟲的具體工作流程,那么應(yīng)該仔細閱讀本文! 第一步:

    2024年02月04日
    瀏覽(49)
  • 如何使用python實現(xiàn)簡單爬取網(wǎng)頁數(shù)據(jù)并導入MySQL中的數(shù)據(jù)庫

    前言:要使用 Python 爬取網(wǎng)頁數(shù)據(jù)并將數(shù)據(jù)導入 MySQL 數(shù)據(jù)庫,您需要使用 Requests 庫進行網(wǎng)頁抓取,使用 BeautifulSoup 庫對抓取到的 HTML 進行解析,并使用 PyMySQL 庫與 MySQL 進行交互。 以下是一個簡單的示例: 1. ?安裝所需庫: ``` ``` 2. ?導入所需庫: ``` ``` 3. ?建立數(shù)據(jù)庫連接:

    2024年02月04日
    瀏覽(23)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包