国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

python爬蟲練手項目之獲取某地企業(yè)名錄

這篇具有很好參考價值的文章主要介紹了python爬蟲練手項目之獲取某地企業(yè)名錄。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

因為很多網(wǎng)站都增加了登錄驗證,所以需要添加一段利用cookies跳過登陸驗證碼的操作

import pandas as pd
import requests
from lxml import etree
# 通過Chrome瀏覽器F12來獲取cookies,agent,headers
cookies ={'ssxmod_itna2':'eqfx0DgQGQ0QG=DC8DXxxxxx',
	  'ssxmod_itna':'euitGKD5iIgGxxxxx'}
agent ='Mozilla/5.0 (Windows NT 10.0; Win64; x64)xxxxxxx'

headers = {
    'User-Agent' : agent,
    'Host':'www.xxx.com',
    'Referer':'https://www.xxx.com/'
}
#建立會話
session = requests.session()
session.headers = headers

cookies獲取方式

chrmoe瀏覽器,F(xiàn)12,把name和value填入cookies

python爬蟲練手項目之獲取某地企業(yè)名錄,Python,python,爬蟲,開發(fā)語言

agent獲取方式

任意點擊一條網(wǎng)絡(luò)資源,右側(cè)headers往下翻到底

python爬蟲練手項目之獲取某地企業(yè)名錄,Python,python,爬蟲,開發(fā)語言

測試訪問是否成功

#↓此處測試訪問是否成功,成功的話返回碼200
requests.utils.add_dict_to_cookiejar(session.cookies, cookies)
url = 'https://www.xxx.com/search-prov/36/3604/p1' 
response=session.get(url)
print(response)

訪問成功的話進(jìn)入下一步

一般翻頁后查看網(wǎng)址變化就能得出網(wǎng)址規(guī)則

#初始化df數(shù)據(jù)
df = pd.DataFrame(columns = ['企業(yè)名稱'])

#觀察翻頁后網(wǎng)址變化規(guī)律,取10頁數(shù)據(jù)
for k in range(10): 
	url = 'https://www.xxx.com/search-prov/36/3604/p' + str(k+1) + '/' 
	cookies_dict = requests.utils.add_dict_to_cookiejar(session.cookies, cookies)
	page_text = requests.get(url, headers = headers, cookies = cookies_dict).text # GET
	#print(page_text)
	tree = etree.HTML(page_text) #數(shù)據(jù)解析
	#取到企業(yè)名對應(yīng)xpath
	name = [i for i in tree.xpath("http://div[@class='company-title font-18 font-f6']/a/text()")]
	dic = {'企業(yè)名稱':name}
	df1 = pd.DataFrame(dic)
	df = pd.concat([df,df1], axis=0)
	#print(df)
print('全部數(shù)據(jù)爬取成功')
print(df)

最后將結(jié)果導(dǎo)入csv文件;編碼格式utf-8-sig防止亂碼文章來源地址http://www.zghlxwxcb.cn/news/detail-725024.html

#將df數(shù)據(jù)寫入csv文件
df.to_csv('xx企業(yè)名錄.csv',index=None,encoding = 'utf-8-sig')

到了這里,關(guān)于python爬蟲練手項目之獲取某地企業(yè)名錄的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 【Python項目實戰(zhàn)】京東自動搶茅臺腳本,此項目不可商用,僅為Python練手使用!

    【Python項目實戰(zhàn)】京東自動搶茅臺腳本,此項目不可商用,僅為Python練手使用!

    目前,在多家電商平臺都可以搶購茅臺酒,包括天貓超市、京東、天貓會員店、國美、蘇寧、網(wǎng)易嚴(yán)選等渠道,消費者使用一臺手機(jī)便可參與搶購,不過,很多消費者依舊不清楚用手機(jī)搶茅臺怎么搶,因為搶購的人實在太多,需要有技巧才能提高成功搶購的概率。 今天給大家

    2024年02月13日
    瀏覽(19)
  • Python畢設(shè)-【人臉簽到系統(tǒng)】附源碼/Python練手項目/Python畢業(yè)設(shè)計

    Python畢設(shè)-【人臉簽到系統(tǒng)】附源碼/Python練手項目/Python畢業(yè)設(shè)計

    ? 課堂簽到一直是學(xué)校教學(xué)管理中的重要環(huán)節(jié)之一,它是學(xué)生出勤情況的重要管理手段,同時也是教師了解學(xué)生學(xué)習(xí)情況、掌握學(xué)生出勤情況以及改善教學(xué)質(zhì)量的重要途徑之一。然而,傳統(tǒng)的課堂簽到方式通常使用手寫記錄或者打卡機(jī)等方式,存在著效率低、易產(chǎn)生作弊等問

    2024年02月03日
    瀏覽(20)
  • 適合Python練手的8個經(jīng)典項目,有趣又實用,提升Python編程能力必看

    適合Python練手的8個經(jīng)典項目,有趣又實用,提升Python編程能力必看

    今天給大家分享的,是一些實戰(zhàn)練習(xí)的小案例,如果你還是Python小白,可以再看看我前面幾篇文章,如果是有了一點基礎(chǔ),那就嘗試完成下面這些案例吧! 一、自動發(fā)送郵件 用Python編寫一個可以發(fā)送電子郵件的腳本。 提示:email庫可用于發(fā)送電子郵件。 二、Hangman(猜單詞的

    2024年02月05日
    瀏覽(16)
  • 100個精選Python實戰(zhàn)項目案例,送給缺乏練手經(jīng)驗的你

    100個精選Python實戰(zhàn)項目案例,送給缺乏練手經(jīng)驗的你

    隨著 Python 語言的流行,越來越多的人加入到了 Python 的大家庭中。為什么這么多人學(xué) Python ?我要喊出那句話了:“人生苦短,我用 Python!”,正是因為語法簡單、容易學(xué)習(xí),所以 Python 深受大家喜愛。(Python!Python!Python?。?Python 初學(xué)者在邁過安裝編程環(huán)境和基本語法的

    2024年02月13日
    瀏覽(21)
  • 精選了20個Python實戰(zhàn)項目(附源碼),拿走就用!零基礎(chǔ)練手不二項目!

    精選了20個Python實戰(zhàn)項目(附源碼),拿走就用!零基礎(chǔ)練手不二項目!

    Python是目前最好的編程語言之一。由于其可讀性和對初學(xué)者的友好性,已被廣泛使用。 那么要想學(xué)會并掌握Python,可以實戰(zhàn)的練習(xí)項目是必不可少的。 接下來,我將給大家介紹20個非常實用的Python項目,幫助大家更好的學(xué)習(xí)Python。 大家也可根據(jù)項目的需求,自己構(gòu)建解決方

    2024年02月13日
    瀏覽(18)
  • 2022最新python100個實戰(zhàn)練手項目,【附源碼】,快來學(xué)習(xí)起來吧!

    2022最新python100個實戰(zhàn)練手項目,【附源碼】,快來學(xué)習(xí)起來吧!

    Python是目前最好的編程語言之一。由于其可讀性和對初學(xué)者的友好性,已被廣泛使用。那么要想學(xué)會并掌握Python,可以實戰(zhàn)的練習(xí)項目是必不可少的。 接下來,我將給大家介紹20個非常實用的Python項目,幫助大家更好的學(xué)習(xí)Python。大家也可根據(jù)項目的需求,自己構(gòu)建解決方法

    2024年02月10日
    瀏覽(17)
  • 10分鐘教你用Python寫一個貪吃蛇小游戲,適合練手項目

    10分鐘教你用Python寫一個貪吃蛇小游戲,適合練手項目

    貪吃蛇,大家應(yīng)該都玩過。當(dāng)初第一次接觸貪吃蛇的時候 ,還是能砸核桃的諾基亞上,當(dāng)時玩的不亦樂乎。今天,我們用Python編程一個貪吃蛇游戲,下面我們先看看效果: 所有的游戲最主要的內(nèi)容都是程序的內(nèi)循環(huán),這才是保證一個游戲能夠正常運(yùn)行的前提。 以下是編寫貪吃

    2024年01月17日
    瀏覽(18)
  • 全國工商企業(yè)名錄

    全國工商企業(yè)名錄

    全國2023年12月份企業(yè)名錄2.5億條

    2024年02月19日
    瀏覽(16)
  • Python爬蟲 | 利用python爬蟲獲取想要搜索的數(shù)據(jù)(某du)

    Python爬蟲 | 利用python爬蟲獲取想要搜索的數(shù)據(jù)(某du)

    這篇文章主要介紹了利用Python爬蟲采集想要搜索的信息(利用某du的接口實現(xiàn))并且處理掉它的反爬手段,文中示例代碼很詳細(xì),具有一定的學(xué)習(xí)價值,感興趣的小伙伴快來一起學(xué)習(xí)吧。 大家在日常生活中經(jīng)常需要查找不同的事物的相關(guān)信息,今天我們利用python來實現(xiàn)這一個

    2024年02月01日
    瀏覽(24)
  • 【Python爬蟲】網(wǎng)絡(luò)爬蟲:信息獲取與合規(guī)應(yīng)用

    【Python爬蟲】網(wǎng)絡(luò)爬蟲:信息獲取與合規(guī)應(yīng)用

    網(wǎng)絡(luò)爬蟲,又稱網(wǎng)絡(luò)爬蟲、網(wǎng)絡(luò)蜘蛛、網(wǎng)絡(luò)機(jī)器人等,是一種按照一定的規(guī)則自動地獲取萬維網(wǎng)信息的程序或者腳本。它可以根據(jù)一定的策略自動地瀏覽萬維網(wǎng),并將瀏覽到的有用信息進(jìn)行提取、解析和存儲。網(wǎng)絡(luò)爬蟲在互聯(lián)網(wǎng)發(fā)展早期就已經(jīng)出現(xiàn),并隨著互聯(lián)網(wǎng)的不斷發(fā)展

    2024年04月14日
    瀏覽(27)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包