国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<kbd id="qqm8u"><abbr id="qqm8u"></abbr></kbd>

<samp id="qqm8u"></samp>

<kbd id="qqm8u"><tr id="qqm8u"></tr></kbd>

<rt id="qqm8u"></rt>

<acronym id="qqm8u"></acronym>

<li id="qqm8u"><delect id="qqm8u"></delect></li>

<tbody id="qqm8u"></tbody>

<dfn id="qqm8u"></dfn><dfn id="qqm8u"></dfn>

【Python網絡爬蟲】企查查高級搜索及批量查詢接口爬蟲

2年前分類：Toy博客閱讀(17)違法舉報

這篇具有很好參考價值的文章主要介紹了【Python網絡爬蟲】企查查高級搜索及批量查詢接口爬蟲。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

寫在前面：

本文所介紹的企查查爬蟲代碼需要用到cookie，且cookie所對應的賬號需要為vip或以上等級具有高級搜索和批量查詢的功能，無此功能的賬號暫不支持；

本文所介紹的是在其他人分析了前端headers哈希加密后的基礎上的進一步補充和完善，并會提供完整的請求代碼；

本文所提供的邏輯和代碼僅供學習交流，嚴禁用于商業(yè)或非法用途，否則由此產生的一切后果均與作者無關。

一. headers前端哈希逆向加密

本文所需要爬取的是企查查的高級搜索功能的預搜索和批量搜索兩個接口，分別為：

https://www.qcc.com/api/search/searchCount

https://www.qcc.com/api/search/searchMulti

在https://gxzv.com/blog/qcc_headers_hash/?f=readme 該篇文章中，博主已詳細介紹和解釋了企查查高級查詢中的headers哈希加密的邏輯，并給出了核心破解代碼，本部分將會在這基礎上進行補充。

引用的文章中有一個這個參數(shù)并沒有給出詳細的思路和解決方案：

【Python網絡爬蟲】企查查高級搜索及批量查詢接口爬蟲

在引用的文章中，這個win_tid是一個寫死的參數(shù)，且是作為r_default函數(shù)的一個參數(shù)進行傳遞的，用于生成哈希參數(shù)鍵值對里面的value。但實際上這個win_tid參數(shù)并不是寫死的，而是通過前面的http請求預先獲取的：

【Python網絡爬蟲】企查查高級搜索及批量查詢接口爬蟲

【Python網絡爬蟲】企查查高級搜索及批量查詢接口爬蟲

通過在前端數(shù)據(jù)關鍵詞查詢，我們發(fā)現(xiàn)，在https://www.qcc.com/web/search/advance?hasState=true 這個請求中，返回的html數(shù)據(jù)中含有pid和tid參數(shù)，并且是傳入到window對象中，tid是通過傳入到r_default函數(shù)中的一個參數(shù)，而pid則是數(shù)據(jù)接口請求中headers的x-pid部分：

【Python網絡爬蟲】企查查高級搜索及批量查詢接口爬蟲

因此，需要有一個前置的請求預先獲取這部分的pid和tid，代碼如下：

import requests
import re

cookie = ''

def get_pid_tid():
    url = 'https://www.qcc.com/web/search/advance?hasState=true'

    headers = {
        'accept-encoding': 'gzip, deflate, br'
        ,'accept-language': 'zh-CN,zh;q=0.9'
        ,'cache-control': 'max-age=0'
        ,'cookie': cookie
        ,'referer': 'https://www.qcc.com/'
        ,'sec-fetch-dest': 'document'
        ,'sec-fetch-mode': 'navigate'
        ,'sec-fetch-site': 'same-origin'
        ,'sec-fetch-user': '?1'
        ,'upgrade-insecure-requests': '1'
        ,'user-agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'''
    }

    res = requests.get(url, headers=headers).text
    try:
        pid = re.findall("pid='(.*?)'", res)[0]
        tid = re.findall("tid='(.*?)'", res)[0]
    except:
        pid = ''
        tid = ''

    return pid, tid

二. 數(shù)據(jù)獲取和注意事項

通過接口返回的數(shù)據(jù)為json結構，只需要調用json庫就可以清理數(shù)據(jù)。

需要注意，哈希加密中，需要傳入的參數(shù)有：url、data、tid三個部分。

url為其中一個傳入的參數(shù)，在兩個請求中，該參數(shù)并不一樣，在searchcount的api中，url為/api/search/searchcount；在searchmulti中，url為/api/search/searchmulti

另外，data作為其中的一個參數(shù)，在兩個api中的請求亦有所不同，searchcount中的data含有"count": True的部分，searchmulti中并無該部分，兩個data的參數(shù)請求有不一樣的地方。

三. 文章引用和代碼

參考文章：https://gxzv.com/blog/qcc_headers_hash/?f=readme

代碼鏈接：https://github.com/moyuweiqing/qcc_searchmulti文章來源地址http://www.zghlxwxcb.cn/news/detail-437727.html

到了這里，關于【Python網絡爬蟲】企查查高級搜索及批量查詢接口爬蟲的文章就介紹完了。如果您還想了解更多內容，請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章，希望大家以后多多支持TOY模板網！

本文來自互聯(lián)網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。如若轉載，請注明出處：如若內容造成侵權/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經查實，立即刪除！

分享到：

領支付寶紅包贊助服務器費用

爬蟲012_字典高級操作_查詢_修改_添加_刪除和清空_遍歷---python工作筆記031
然后來看字典高級,首先打印某個元素 ? ? 然后打印的時候注意,如果直接打印的值,在字典中沒有就報錯 ? ? 這里要注意不能用點訪問 ?
2024年02月13日
瀏覽(24)
【代碼】表格封裝 + 高級查詢 + 搜索 +分頁器（極簡）
2024年02月13日
瀏覽(30)
SpringBoot 整合 ES 進行各種高級查詢搜索
上一章：《ElasticSearch集群的搭建》如果你還未安裝es的相關信息，請先移步至：《ElasticSearch安裝》進行安裝如果您的SpringBoot項目還未整合es，請移步至：《SpringBoot整合ElasticSearch實現(xiàn)模糊查詢，批量CRUD，排序，分頁，高亮》同時本文的操作中涉及到ElasticSearchRepository和Ela
2023年04月15日
瀏覽(23)
架構師系列-搜索引擎ElasticSearch（四）- 高級查詢
ES查詢該方式可以通過kabana、curl、elasticsearch-head（純前端）去操作 term查詢和字段類型有關系，首先回顧一下ElasticSearch兩個數(shù)據(jù)類型 ElasticSearch兩個數(shù)據(jù)類型 1、text：會分詞，不支持聚合 2、keyword：不會分詞，將全部內容作為一個詞條，支持聚合 term查詢：不會對查詢條件進
2024年04月15日
瀏覽(22)
爬蟲010_列表高級_添加_append_extend_修改_查詢_in_not int_刪除_del_pop_remove---python工作筆記029
然后再來看列表操作 ? 首先添加append方法 ? 然后插入,坐標是要插入的下標,右邊是插入的內容 ? 看結果 ? 1,2,3,4,5,6 然后這個extend,是逐個插入,放到后邊然后是修改,直接對下標賦值 ? 看結果/
2024年02月14日
瀏覽(21)
python request大批量發(fā)送請求調用接口時，報錯：[WinError 10048] 通常每個套接字地址(協(xié)議/網絡地址/端口)只允許使用一次。
接到一個項目需求，其中需要調用到供應商的Http? API，因為有大量的測試資源，所以代碼中會循環(huán)調用API。然而在測試代碼執(zhí)行過程中，過程中偶爾報錯： ?此時看到報錯，懷疑是可能是同時并發(fā)的問題，但實際上并未對該接口進行限制，所以應該不是這個的問題，?進一
2023年04月10日
瀏覽(92)
Python爬蟲系列（二）——Python爬蟲批量下載百度圖片
1. 前言先貼代碼如果要使用上述程序的話，需要修改兩個地方： self.directory 這是本地存儲地址，修改為自己電腦的地址，另外，**{}**不要刪 spider.json_count = 10 這是下載的圖像組數(shù)，一組有30張圖像，10組就是三百張，根據(jù)需求下載也可以去gitee倉庫直接下載程序。關于 py
2023年04月08日
瀏覽(95)
【爬蟲實戰(zhàn)項目】Python爬蟲批量旅游景點信息數(shù)據(jù)并保存本地（附源碼）
今天給大家介紹的是Python爬蟲批量下載旅游景點信息數(shù)據(jù)，在這里給需要的小伙伴們代碼，并且給出一點小心得。首先是爬取之前應該盡可能偽裝成瀏覽器而不被識別出來是爬蟲，基本的是加請求頭，但是這樣的純文本數(shù)據(jù)爬取的人會很多，所以我們需要考慮更換代理IP和隨
2023年04月20日
瀏覽(22)
網絡爬蟲技術在搜索引擎中的應用
網絡爬蟲技術在搜索引擎中扮演著非常重要的角色，主要應用在以下幾個方面：網頁抓?。核阉饕嫘枰獜幕ヂ?lián)網上抓取大量的網頁，以建立自己的索引庫。網絡爬蟲技術可以幫助搜索引擎快速、高效地抓取網頁。網頁解析：搜索引擎需要從抓取的網頁中提取出有用的信息
2024年02月08日
瀏覽(28)
Python爬蟲實戰(zhàn)-批量爬取下載網易云音樂
大家好，我是python222小鋒老師。前段時間卷了一套? Python3零基礎7天入門實戰(zhàn) https://blog.csdn.net/caoli201314/article/details/132882813 1小時掌握Python操作Mysql數(shù)據(jù)庫之pymysql模塊技術 https://blog.csdn.net/caoli201314/article/details/133199207 一天掌握python爬蟲【基礎篇】涵蓋 requests、beautifulsoup、se
2024年02月05日
瀏覽(96)

<td id="ecocq"></td>

<li id="ecocq"></li>

<blockquote id="ecocq"><tr id="ecocq"></tr></blockquote>

<li id="ecocq"><em id="ecocq"></em></li>