有個需求爬取知乎文章,正好記錄下爬取過程以及出現(xiàn)問題并解決方法
我是在沒有登錄的情況下爬取文章的
本文僅供研究與學(xué)習(xí)使用
知乎現(xiàn)今的 x-zse 參數(shù)的加密方法已升級成了:x-zse-96 2.0版本。
來看這篇帖子的應(yīng)該都知道,這個參數(shù)動態(tài)唯一,沒有就拿不到api數(shù)據(jù)。
查閱了網(wǎng)上有關(guān)文章,僅有x-zse-86 2.0版本的解密方法,現(xiàn)今已不適用,加上之前寫的文章中有提及該解密方法,所以寫一篇最新的,供大家研究與學(xué)習(xí)。
1.F12進入源碼分析
2.響應(yīng)json內(nèi)容
https://www.zhihu.com/api/v4/search_v3?t=general&q=探店&correction=1&offset=20&limit=20&filter_fields=&lc_idx=20&show_all_topics=0&search_hash_id=7d9f263f8c4370bb21917e1edf6543da&vertical_info=0%2C1%2C1%2C0%2C0%2C0%2C0%2C0%2C0%2C1
3.斷點調(diào)試
文章來源:http://www.zghlxwxcb.cn/news/detail-405098.html
4.md5參數(shù)加密
不難發(fā)現(xiàn)明文是 headers 里的 x-zse-93 + url + cookie.d_c0
知乎貌似一直都是采用 md5 加密方式進行數(shù)據(jù)加密的,直接上去測就好了。
在終端輸入:r.default(d)
運行結(jié)果:文章來源地址http://www.zghlxwxcb.cn/news/detail-405098.html
到了這里,關(guān)于Python爬蟲爬取知乎文章內(nèi)容(解決最新js反爬2021.9 x-zse-96 2.0版本加密破解分析)...的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!