国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<td id="5cjvp"><form id="5cjvp"><option id="5cjvp"></option></form></td>

<del id="5cjvp"></del>

python爬蟲練手項目之獲取某地企業(yè)名錄

2年前作者：almost_change_it分類：Toy博客閱讀(19)違法舉報

這篇具有很好參考價值的文章主要介紹了python爬蟲練手項目之獲取某地企業(yè)名錄。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

因為很多網(wǎng)站都增加了登錄驗證，所以需要添加一段利用cookies跳過登陸驗證碼的操作

import pandas as pd
import requests
from lxml import etree
# 通過Chrome瀏覽器F12來獲取cookies，agent，headers
cookies ={'ssxmod_itna2':'eqfx0DgQGQ0QG=DC8DXxxxxx',
	  'ssxmod_itna':'euitGKD5iIgGxxxxx'}
agent ='Mozilla/5.0 (Windows NT 10.0; Win64; x64)xxxxxxx'

headers = {
    'User-Agent' : agent,
    'Host':'www.xxx.com',
    'Referer':'https://www.xxx.com/'
}
#建立會話
session = requests.session()
session.headers = headers

cookies獲取方式

chrmoe瀏覽器，F(xiàn)12，把name和value填入cookies

python爬蟲練手項目之獲取某地企業(yè)名錄,Python,python,爬蟲,開發(fā)語言

agent獲取方式

任意點擊一條網(wǎng)絡(luò)資源，右側(cè)headers往下翻到底

python爬蟲練手項目之獲取某地企業(yè)名錄,Python,python,爬蟲,開發(fā)語言

測試訪問是否成功

#↓此處測試訪問是否成功，成功的話返回碼200
requests.utils.add_dict_to_cookiejar(session.cookies, cookies)
url = 'https://www.xxx.com/search-prov/36/3604/p1' 
response=session.get(url)
print(response)

訪問成功的話進(jìn)入下一步

一般翻頁后查看網(wǎng)址變化就能得出網(wǎng)址規(guī)則

#初始化df數(shù)據(jù)
df = pd.DataFrame(columns = ['企業(yè)名稱'])

#觀察翻頁后網(wǎng)址變化規(guī)律，取10頁數(shù)據(jù)
for k in range(10): 
	url = 'https://www.xxx.com/search-prov/36/3604/p' + str(k+1) + '/' 
	cookies_dict = requests.utils.add_dict_to_cookiejar(session.cookies, cookies)
	page_text = requests.get(url, headers = headers, cookies = cookies_dict).text # GET
	#print(page_text)
	tree = etree.HTML(page_text) #數(shù)據(jù)解析
	#取到企業(yè)名對應(yīng)xpath
	name = [i for i in tree.xpath("http://div[@class='company-title font-18 font-f6']/a/text()")]
	dic = {'企業(yè)名稱':name}
	df1 = pd.DataFrame(dic)
	df = pd.concat([df,df1], axis=0)
	#print(df)
print('全部數(shù)據(jù)爬取成功')
print(df)

最后將結(jié)果導(dǎo)入csv文件；編碼格式utf-8-sig防止亂碼文章來源地址http://www.zghlxwxcb.cn/news/detail-725024.html

#將df數(shù)據(jù)寫入csv文件
df.to_csv('xx企業(yè)名錄.csv',index=None,encoding = 'utf-8-sig')

到了這里，關(guān)于python爬蟲練手項目之獲取某地企業(yè)名錄的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進(jìn)行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

【Python項目實戰(zhàn)】京東自動搶茅臺腳本，此項目不可商用，僅為Python練手使用！
目前，在多家電商平臺都可以搶購茅臺酒，包括天貓超市、京東、天貓會員店、國美、蘇寧、網(wǎng)易嚴(yán)選等渠道，消費者使用一臺手機(jī)便可參與搶購，不過，很多消費者依舊不清楚用手機(jī)搶茅臺怎么搶，因為搶購的人實在太多，需要有技巧才能提高成功搶購的概率。今天給大家
2024年02月13日
瀏覽(19)
Python畢設(shè)-【人臉簽到系統(tǒng)】附源碼/Python練手項目/Python畢業(yè)設(shè)計
? 課堂簽到一直是學(xué)校教學(xué)管理中的重要環(huán)節(jié)之一，它是學(xué)生出勤情況的重要管理手段，同時也是教師了解學(xué)生學(xué)習(xí)情況、掌握學(xué)生出勤情況以及改善教學(xué)質(zhì)量的重要途徑之一。然而，傳統(tǒng)的課堂簽到方式通常使用手寫記錄或者打卡機(jī)等方式，存在著效率低、易產(chǎn)生作弊等問
2024年02月03日
瀏覽(20)
適合Python練手的8個經(jīng)典項目，有趣又實用，提升Python編程能力必看
今天給大家分享的，是一些實戰(zhàn)練習(xí)的小案例，如果你還是Python小白，可以再看看我前面幾篇文章，如果是有了一點基礎(chǔ)，那就嘗試完成下面這些案例吧！一、自動發(fā)送郵件用Python編寫一個可以發(fā)送電子郵件的腳本。提示：email庫可用于發(fā)送電子郵件。二、Hangman（猜單詞的
2024年02月05日
瀏覽(16)
100個精選Python實戰(zhàn)項目案例，送給缺乏練手經(jīng)驗的你
隨著 Python 語言的流行，越來越多的人加入到了 Python 的大家庭中。為什么這么多人學(xué) Python ？我要喊出那句話了：“人生苦短，我用 Python！”，正是因為語法簡單、容易學(xué)習(xí)，所以 Python 深受大家喜愛。（Python！Python！Python?。?Python 初學(xué)者在邁過安裝編程環(huán)境和基本語法的
2024年02月13日
瀏覽(21)
精選了20個Python實戰(zhàn)項目(附源碼)，拿走就用！零基礎(chǔ)練手不二項目！
Python是目前最好的編程語言之一。由于其可讀性和對初學(xué)者的友好性，已被廣泛使用。那么要想學(xué)會并掌握Python，可以實戰(zhàn)的練習(xí)項目是必不可少的。接下來，我將給大家介紹20個非常實用的Python項目，幫助大家更好的學(xué)習(xí)Python。大家也可根據(jù)項目的需求，自己構(gòu)建解決方
2024年02月13日
瀏覽(18)
2022最新python100個實戰(zhàn)練手項目，【附源碼】，快來學(xué)習(xí)起來吧！
Python是目前最好的編程語言之一。由于其可讀性和對初學(xué)者的友好性，已被廣泛使用。那么要想學(xué)會并掌握Python，可以實戰(zhàn)的練習(xí)項目是必不可少的。接下來，我將給大家介紹20個非常實用的Python項目，幫助大家更好的學(xué)習(xí)Python。大家也可根據(jù)項目的需求，自己構(gòu)建解決方法
2024年02月10日
瀏覽(17)
10分鐘教你用Python寫一個貪吃蛇小游戲，適合練手項目
貪吃蛇，大家應(yīng)該都玩過。當(dāng)初第一次接觸貪吃蛇的時候，還是能砸核桃的諾基亞上，當(dāng)時玩的不亦樂乎。今天，我們用Python編程一個貪吃蛇游戲，下面我們先看看效果：所有的游戲最主要的內(nèi)容都是程序的內(nèi)循環(huán),這才是保證一個游戲能夠正常運(yùn)行的前提。以下是編寫貪吃
2024年01月17日
瀏覽(18)
全國工商企業(yè)名錄
全國2023年12月份企業(yè)名錄2.5億條
2024年02月19日
瀏覽(16)
Python爬蟲 | 利用python爬蟲獲取想要搜索的數(shù)據(jù)（某du）
這篇文章主要介紹了利用Python爬蟲采集想要搜索的信息（利用某du的接口實現(xiàn)）并且處理掉它的反爬手段，文中示例代碼很詳細(xì)，具有一定的學(xué)習(xí)價值，感興趣的小伙伴快來一起學(xué)習(xí)吧。大家在日常生活中經(jīng)常需要查找不同的事物的相關(guān)信息，今天我們利用python來實現(xiàn)這一個
2024年02月01日
瀏覽(24)
【Python爬蟲】網(wǎng)絡(luò)爬蟲：信息獲取與合規(guī)應(yīng)用
網(wǎng)絡(luò)爬蟲，又稱網(wǎng)絡(luò)爬蟲、網(wǎng)絡(luò)蜘蛛、網(wǎng)絡(luò)機(jī)器人等，是一種按照一定的規(guī)則自動地獲取萬維網(wǎng)信息的程序或者腳本。它可以根據(jù)一定的策略自動地瀏覽萬維網(wǎng)，并將瀏覽到的有用信息進(jìn)行提取、解析和存儲。網(wǎng)絡(luò)爬蟲在互聯(lián)網(wǎng)發(fā)展早期就已經(jīng)出現(xiàn)，并隨著互聯(lián)網(wǎng)的不斷發(fā)展
2024年04月14日
瀏覽(27)

<del id="evcm3"><form id="evcm3"></form></del>