国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

簡單的用Python抓取動態(tài)網(wǎng)頁數(shù)據(jù)，實現(xiàn)可視化數(shù)據(jù)分析

2年前作者：輕松學Python分類：Toy博客閱讀(23)違法舉報

這篇具有很好參考價值的文章主要介紹了簡單的用Python抓取動態(tài)網(wǎng)頁數(shù)據(jù)，實現(xiàn)可視化數(shù)據(jù)分析。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

一眨眼明天就周末了，一周過的真快！

今天咱們用Python來實現(xiàn)一下動態(tài)網(wǎng)頁數(shù)據(jù)的抓取

最近不是有消息說世界首富馬上要變成中國人了嗎，這要真成了，可就是歷史上首位中國世界首富了！

那我們就以富豪排行榜為例，爬取一下2023年國內(nèi)富豪五百強，最后實現(xiàn)一下可視化分析。

準備工作

環(huán)境使用

Python
Pycharm

模塊使用

re 正則表達式
csv <表格文件> 內(nèi)置模塊保存數(shù)據(jù)
requests >>> 數(shù)據(jù)請求
pandas >>> 保存表格
pyecharts >>> 可視化模塊

實現(xiàn)流程: <基本公式>

數(shù)據(jù)來源分析

明確需求: 明確采集的網(wǎng)站以及數(shù)據(jù)內(nèi)容
- 目標網(wǎng)址
抓包分析: 通過瀏覽器自帶工具 (開發(fā)者工具)
- 打開開發(fā)者工具: F12 / 右鍵點檢查選擇network (網(wǎng)絡(luò))
- 點擊下一頁按鈕
數(shù)據(jù)包地址

代碼實現(xiàn)步驟

發(fā)送請求 -> 模擬瀏覽器對于url地址發(fā)送請求
url地址: 分析找到鏈接地址
獲取數(shù)據(jù) -> 獲取服務(wù)器返回響應(yīng)數(shù)據(jù)
解析數(shù)據(jù) -> 提取我們自己需要數(shù)據(jù)
保存數(shù)據(jù) -> 保存到表格文件里面

代碼解析

發(fā)送請求

for page in range(1, 35):
    print(f'{page}' * 20)
    # url地址: 請求網(wǎng)址
    url = f'https://service.ikuyu.cn/XinCaiFu2/pcremoting/bdListAction.do?method=getPage&callback=jsonpCallback&sortBy=assets&order=asc&type=4&keyword=&pageSize=15&year=2023&pageNo={page}&from=jsonp&_=1700739728273'
    # 模擬瀏覽器: 請求頭
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36'
    }
    # 發(fā)送請求: 請求方法 <開發(fā)者工具>
    response = requests.get(url=url, headers=headers)

?

獲取數(shù)據(jù)

 data = response.text

?

解析數(shù)據(jù)

re.findall(‘匹配數(shù)據(jù)’, ‘數(shù)據(jù)源’) -> 從什么地方去獲取什么數(shù)據(jù)

# json字符串數(shù)據(jù)
html = re.findall('jsonpCallback\((.*)', data)[0].replace(')', '')
print(html)
# 轉(zhuǎn)成json字典 當你轉(zhuǎn)json數(shù)據(jù)報錯的時候 html不是完整json數(shù)據(jù)格式
json_data = json.loads(html)
# 鍵值對取值 提取 rows 列表 (根據(jù)冒號左邊的內(nèi)容[鍵], 提取冒號右邊的內(nèi)容[值])
rows = json_data['data']['rows']
# for循環(huán)遍歷
for row in rows:

?

創(chuàng)建文件對象

f = open('data.csv', mode='w', encoding='utf-8', newline='')
csv_writer = csv.DictWriter(f, fieldnames=[
    '財富',
    '姓名',
    '主要公司',
    '相關(guān)行業(yè)',
    '公司總部省份',
    '公司總部城市',
    '性別',
    '年齡',
    '年份',
])
csv_writer.writeheader()

?

保存數(shù)據(jù)

dit = {
    '財富': row['assets'],
    '姓名': row['name'],
    '主要公司': row['company'],
    '相關(guān)行業(yè)': row['industry'],
    '公司總部省份': row['addr'][:2],
    '公司總部城市': row['addr'][-2:],
    '性別': row['sex'],
    '年齡': row['age'],
    '年份': row['year'],
}
csv_writer.writerow(dit)
print(row)
# 源碼+wei?:python1018 領(lǐng)取

?

采集數(shù)據(jù)+可視化代碼我都打包好了，還有視頻講解，都在最后一段代碼中。

簡單的用Python抓取動態(tài)網(wǎng)頁數(shù)據(jù)，實現(xiàn)可視化數(shù)據(jù)分析

效果展示

簡單的用Python抓取動態(tài)網(wǎng)頁數(shù)據(jù)，實現(xiàn)可視化數(shù)據(jù)分析

簡單的用Python抓取動態(tài)網(wǎng)頁數(shù)據(jù)，實現(xiàn)可視化數(shù)據(jù)分析

好了，本次分享就到這結(jié)束了，咱們下次見~文章來源地址http://www.zghlxwxcb.cn/news/detail-747282.html

到了這里，關(guān)于簡單的用Python抓取動態(tài)網(wǎng)頁數(shù)據(jù)，實現(xiàn)可視化數(shù)據(jù)分析的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔相關(guān)法律責任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

小白用chatgpt編寫python 爬蟲程序代碼抓取網(wǎng)頁數(shù)據(jù)(js動態(tài)生成網(wǎng)頁元素)
jS動態(tài)生成，由于呈現(xiàn)在網(wǎng)頁上的內(nèi)容是由JS生成而來，我們能夠在瀏覽器上看得到，但是在HTML源碼中卻發(fā)現(xiàn)不了 ? ? ? ?如果不加，如果網(wǎng)站有防爬技術(shù)，比如頻繁訪問，后面你會發(fā)現(xiàn)什么數(shù)據(jù)都取不到 User-Agent獲取地方： ?網(wǎng)頁獲取位置：使用代理IP解決反爬。（免費代理
2024年02月01日
瀏覽(30)
簡單的用Python實現(xiàn)一下JS逆向解密，采集空氣質(zhì)量數(shù)據(jù)
最近天氣降溫厲害，咱們用 Python 來分析一下空氣質(zhì)量如何~ 話不多說，我們直接開始上手。環(huán)境使用 Python 3.8 Pycharm nodejs 模塊使用 import requests import execjs import json requests 和 execjs 都是第三方模塊，需要手動安裝，直接pip install 加上模塊名字即可。明確需求: 明確采集的網(wǎng)站
2024年02月05日
瀏覽(27)
Puppeteer讓你網(wǎng)頁操作更簡單(2)抓取數(shù)據(jù)
Puppeteer讓你網(wǎng)頁操作更簡單(1)屏幕截圖】現(xiàn)在您已經(jīng)了解了Headless Chrome和Puppeteer的工作原理基礎(chǔ)知識,讓我們看一個更復雜的示例,其中我們實際上可以抓取一些數(shù)據(jù)。首先,請查看此處的Puppeteer API文檔。如您所見,有大量不同的方法我們可以使用不僅可以在網(wǎng)站上點擊,還可以
2024年01月16日
瀏覽(38)
100天玩轉(zhuǎn)python——day67 使用Selenium抓取網(wǎng)頁動態(tài)內(nèi)容
根據(jù)權(quán)威機構(gòu)發(fā)布的全球互聯(lián)網(wǎng)可訪問性審計報告，全球約有四分之三的網(wǎng)站其內(nèi)容或部分內(nèi)容是通過JavaScript動態(tài)生成的，這就意味著在瀏覽器窗口中“查看網(wǎng)頁源代碼”時無法在HTML代碼中找到這些內(nèi)容，也就是說我們之前用的抓取數(shù)據(jù)的方式無法正常運轉(zhuǎn)了。解決這樣的
2024年02月09日
瀏覽(45)
簡單的用Python采集股票數(shù)據(jù)，保存表格后分析歷史數(shù)據(jù)
字節(jié)跳動如果上市，那么鐘老板將成為我國第一個世界首富趁著現(xiàn)在還沒上市，咱們提前學習一下用Python分析股票歷史數(shù)據(jù)，抱住粗大腿坐等起飛~ 好了話不多說，我們直接開始正文環(huán)境使用 Python 3.10 解釋器 Pycharm 編輯器模塊使用 requests — 數(shù)據(jù)請求模塊 csv - 保存csv表格
2024年02月05日
瀏覽(30)
【一個超簡單的爬蟲demo】探索新浪網(wǎng)：使用 Python 爬蟲獲取動態(tài)網(wǎng)頁數(shù)據(jù)
可以實戰(zhàn)教爬蟲嗎，搭個環(huán)境嘗試爬進去。嘗試收集一些數(shù)據(jù) 一位粉絲想了解爬蟲，我們今天從最基礎(chǔ)的開始吧！本文將介紹如何使用 Python 爬蟲技術(shù)爬取新浪網(wǎng)首頁的內(nèi)容。新浪網(wǎng)作為一個內(nèi)容豐富且更新頻繁的新聞網(wǎng)站，是理解動態(tài)網(wǎng)頁爬取的絕佳例子。首先，確保你
2024年02月04日
瀏覽(19)
【python】當當書籍數(shù)據(jù)抓取分析與可視化（代碼+報告）【獨一無二】
??博__主??：米碼收割機 ??技__能??：C++/Python語言 ??公眾號??：測試開發(fā)自動化【獲取源碼+商業(yè)合作】 ??榮__譽??：阿里云博客專家博主、51CTO技術(shù)博主 ??專__注??：專注主流機器人、人工智能等相關(guān)領(lǐng)域的開發(fā)、測試技術(shù)。本項目旨在研究和分析當當網(wǎng)上的書籍信
2024年02月04日
瀏覽(25)
使用Selenium抓取網(wǎng)頁動態(tài)內(nèi)容
Selenium 是一個自動化測試工具，支持多種瀏覽器，包括 Chrome、Firefox、Edge 等，具有強大的瀏覽器自動化能力，可以用于Web應(yīng)用程序的自動化測試、數(shù)據(jù)挖掘等領(lǐng)域。Selenium的主要特點有：支持多種瀏覽器 Selenium支持多種瀏覽器，包括Chrome、Firefox、Edge、Safari等，可以滿足不同
2023年04月25日
瀏覽(34)
『爬蟲四步走』手把手教你使用Python抓取并存儲網(wǎng)頁數(shù)據(jù)！
爬蟲是Python的一個重要的應(yīng)用，使用Python爬蟲我們可以輕松的從互聯(lián)網(wǎng)中抓取我們想要的數(shù)據(jù)，**本文將基于爬取B站視頻熱搜榜單數(shù)據(jù)并存儲為例，詳細介紹Python爬蟲的基本流程。**如果你還在入門爬蟲階段或者不清楚爬蟲的具體工作流程，那么應(yīng)該仔細閱讀本文！第一步：
2024年02月04日
瀏覽(49)
如何使用python實現(xiàn)簡單爬取網(wǎng)頁數(shù)據(jù)并導入MySQL中的數(shù)據(jù)庫
前言：要使用 Python 爬取網(wǎng)頁數(shù)據(jù)并將數(shù)據(jù)導入 MySQL 數(shù)據(jù)庫，您需要使用 Requests 庫進行網(wǎng)頁抓取，使用 BeautifulSoup 庫對抓取到的 HTML 進行解析，并使用 PyMySQL 庫與 MySQL 進行交互。以下是一個簡單的示例： 1. ?安裝所需庫： ``` ``` 2. ?導入所需庫： ``` ``` 3. ?建立數(shù)據(jù)庫連接：
2024年02月04日
瀏覽(23)