国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

公眾號歷史文章采集

這篇具有很好參考價值的文章主要介紹了公眾號歷史文章采集。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

公眾號歷史文章采集

前言:采集公眾號歷史文章,且鏈接永久有效,親測2年多無壓力。

1.先在 https://mp.weixin.qq.com/ 注冊一個個人版使用公眾號,供后續(xù)使用。
2.點擊左側(cè)圖文素材,新的創(chuàng)作,寫新圖文。

公眾號歷史文章采集,2021,java,python,數(shù)學(xué)建模

3.點擊超鏈接后,填入要查詢的公眾號。

公眾號歷史文章采集,2021,java,python,數(shù)學(xué)建模公眾號歷史文章采集,2021,java,python,數(shù)學(xué)建模

公眾號歷史文章采集,2021,java,python,數(shù)學(xué)建模

4.一個小知識點,通過xpath拿到html源碼,并提取正文。
def get_html_code(parseHtml, url, codeXpath):
    code_html = parseHtml.xpath(codeXpath)
    html = ''
    for i in code_html:
        # etree.tostring() #輸出修正后的html代碼,byte格式
        # 轉(zhuǎn)成utf-8格式,然后decode進(jìn)行encoding 指定的編碼格式解碼字符串
        html += etree.tostring(i, encoding='utf-8').decode()
    return html
5.F12抓包分析,發(fā)現(xiàn)token和cookie是綁定用戶的,生成代碼。

搜索公眾號接口:query= xxxx
公眾號歷史文章采集,2021,java,python,數(shù)學(xué)建模
公眾號歷史文章采集,2021,java,python,數(shù)學(xué)建模文章鏈接及翻頁接口: fakeid= 搜索公眾號對應(yīng)的id base64編碼
若未固定公眾號,可將該公眾號id做映射表存放,減少請求
公眾號歷史文章采集,2021,java,python,數(shù)學(xué)建模
公眾號歷史文章采集,2021,java,python,數(shù)學(xué)建模文章來源地址http://www.zghlxwxcb.cn/news/detail-603420.html

# encoding:utf-8
import json
import math
import time

from spiders.BaseSpider import BaseSpider
from mysqldb.mysql_util import select_link
from parse.requests_parse import requestsParse
from WX.WeChat_util import  parse_bjnews, parseWechat


class WeChatSpider(BaseSpider):
    """
        定義url和請求頭
    """
    token = "你的token"

    def __init__(self):
        super().__init__()
        self.cookies = "你的cookie"

        self.params = {
            'action': 'search_biz',
            'begin': '0',
            'count': '50',
            'query': '',
            'fakeid': None,
            'type': 9,
            'token': self.token,
            'lang': 'zh_CN',
            'f': 'json',
            'ajax': '1'
        }

    def next_type(self, token, source, apartment, province, city, district, label):
        begin, count = 0, 1
        self.params["action"] = 'list_ex'
        self.params["query"] = ''
        content = self.get_information('https://mp.weixin.qq.com/cgi-bin/appmsg')
        page = int(math.ceil(json.loads(content).get("app_msg_cnt") / 5))
        #print(page)
        for index in range(page):
            if index % 3 == 0:
                time.sleep(60)
            try:
                if index:
                    begin += 5
                    self.params["begin"] = begin
                    print(f"正在獲取第{begin}頁數(shù)")
                    content = self.get_information('https://mp.weixin.qq.com/cgi-bin/appmsg')
                nextLink = parse_bjnews(content)
                for nextUrl in nextLink:
                    if not token:
                        # select_link 為查詢數(shù)據(jù)庫是否存在 增量采集
                        if not select_link(link=nextUrl):
                            break
                    self.nextUrl_q.put(nextUrl)

                if self.nextUrl_q.empty():
                    return

                #日常采集 requestsParse()為解析方法
                t = requestsParse(self.nextUrl_q, source, apartment, province, city, district,
                              titleXpath='//h2[@id="activity-name"]/text()',
                              codeXpath='//*[@id="js_content"]', labeel=label)
                
                if t :
                    return
            except Exception as e:
                print("Spider WeChat Main Error= " + str(e) + " Spider WeChat success page= " + str(
                    count) + ' ' + source)
        return


    def main(self, source, apartment, province, city, district, label):
        
        token = 0   #token為0為增量  1為全量  與select_link()做關(guān)聯(lián)
        self.params["query"] = source
        html = self.get_information('https://mp.weixin.qq.com/cgi-bin/searchbiz')
        print(html)
        self.params["fakeid"] = parseWechat(html)
        self.next_type(token, source, apartment, province, city, district, label)


if __name__ == '__main__':
    WeChatSpider().main("公眾號名稱", "wechat", "省份", "市", "區(qū)",label="industrial_economy_policy")
6.貼出工具類中兩個方法.
def parse_bjnews(content):
    content = json.loads(content)
    nextLink = []
    for link in content.get("app_msg_list"):
        # if titleParse(link.get("title")) and title_Wechat(link.get("title")):
        nextLink.append(link.get("link"))
    return nextLink


def parseWechat(html):
    try:
        html = json.loads(html)
        fakeid = html.get("list")[0].get("fakeid")
        return fakeid
    except:
        return

到了這里,關(guān)于公眾號歷史文章采集的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 全國研究生數(shù)學(xué)建模競賽資料【2004-2021】【詳細(xì)整理】

    2021年第十八屆全國研究生數(shù)學(xué)建模競賽 【A題】相關(guān)矩陣組的低復(fù)雜度計算和存儲建模 [題目] [附件] [優(yōu)秀論文 0,1,2,3,4,5,6] 【B題】空氣質(zhì)量預(yù)報二次建模 [題目] [附件] [優(yōu)秀論文 0,1,2,3,4,5,6,7,8] 【C題】帕金森病的腦深部電刺激治療建模研究 [題目] [附件] [優(yōu)秀論文 0,1,2,3,4,5,

    2024年02月06日
    瀏覽(117)
  • 2021 年數(shù)學(xué)建模競賽題目D 題 連鑄切割的在線優(yōu)化

    2021 年數(shù)學(xué)建模競賽題目D 題 連鑄切割的在線優(yōu)化

    ? ? ? 在滿足基本要求和正常要求的條件下,依據(jù)尾坯長度制定出最優(yōu)的 切割方案。假定用戶目標(biāo)值為 9.5 米,目標(biāo)范圍為 9.0~10.0 米,對以下尾坯長 度:109.0、93.4、80.9、72.0、62.7、52.5、44.9、42.7、31.6、22.7、14.5 和 13.7(單位:米),按“尾坯長度、切割方案、切割損失”等

    2024年02月11日
    瀏覽(40)
  • 2021 年數(shù)學(xué)建模A 題 “FAST”主動反射面的形狀調(diào)節(jié)

    2021 年數(shù)學(xué)建模A 題 “FAST”主動反射面的形狀調(diào)節(jié)

    目錄 問題1 解析及代碼 問題2 答案及解析 問題3

    2024年02月14日
    瀏覽(14)
  • 數(shù)學(xué)建模 好文章和資源推薦

    數(shù)學(xué)建模 好文章和資源推薦

    數(shù)學(xué)建模入門篇(0基礎(chǔ)必看,全是自己的經(jīng)驗) 【競賽|數(shù)學(xué)建?!縋art 1:什么是數(shù)學(xué)建模和各模塊介紹 0基礎(chǔ)小白,如何入門數(shù)學(xué)建模? 數(shù)學(xué)建模入門篇(0基礎(chǔ)必看,全是自己的經(jīng)驗) 重申了一下題目,但是還是很有必要,簡要概述:解決實際問題時構(gòu)建數(shù)學(xué)模型的過程。 ??

    2024年02月14日
    瀏覽(20)
  • 2022 數(shù)學(xué)建模B題成品論文 參考文章 含全部建模 步驟 數(shù)學(xué)模型 圖像

    2022 數(shù)學(xué)建模B題成品論文 參考文章 含全部建模 步驟 數(shù)學(xué)模型 圖像

    完整見https://mianbaoduo.com/o/bread/mbd-Y5eVm5xw 無人機遂行編隊飛行中的純方位無源定位 摘要 一、問題重述 1.1 問題背景 由于無人機集群在遂行編隊飛行時, 應(yīng)盡可能的避免外界干擾, 因此需要盡可能的保持電磁靜默減少電磁波信號的發(fā)射.為保持編隊隊形, 擬采用純方位無源

    2024年02月08日
    瀏覽(97)
  • 2021 年高教社杯全國大學(xué)生數(shù)學(xué)建模競賽 E 題 中藥材的鑒別 第一題

    2021 年高教社杯全國大學(xué)生數(shù)學(xué)建模競賽 E 題 中藥材的鑒別 第一題

    目錄 1.數(shù)據(jù)預(yù)處理? 1.1 數(shù)據(jù)基本信息探索 1.2 數(shù)據(jù)可視化 1.3 異常值處理? 2. 數(shù)據(jù)特征值提取? 2.1 數(shù)據(jù)標(biāo)準(zhǔn)化? 2.2 PCA提取特征值? 3. 數(shù)據(jù)聚類鑒別藥材種類 3.1 肘部圖確定K值? 3.2 輪廓系數(shù)圖確定K值? 3.3 數(shù)據(jù)聚類? 3.4 聚類結(jié)果可視化? 4.?研究不同種類藥材的特征和差異性

    2024年02月06日
    瀏覽(32)
  • 2021第六屆數(shù)維杯大學(xué)生數(shù)學(xué)建模競賽賽題_C 運動會優(yōu)化比賽模式探索

    運動會優(yōu)化比賽模式探索 5月中旬恰好是各個大學(xué)召開每年一屆的運動的時間節(jié)點。運動會已成為了大學(xué)校園里一道亮麗的風(fēng)景線,運動會上振奮人心的開幕式、拍手稱贊的比賽、激動人心的頒獎儀式都給參加運動會的同學(xué)們帶來了一次精神上的享受。每一次運動會舉辦的過

    2023年04月13日
    瀏覽(78)
  • 2023 數(shù)學(xué)建模高教社杯 國賽(A題)建模秘籍&文章代碼思路大全

    2023 數(shù)學(xué)建模高教社杯 國賽(A題)建模秘籍&文章代碼思路大全

    鐺鐺!小秘籍來咯! 小秘籍希望大家都能輕松建模呀,國賽也是 讓我們看看A題~ 完整版內(nèi)容在文末領(lǐng)取噢~ 1. 太陽位置計算: 計算太陽高度角(as)和方位角(ys): 太陽高度角: sinas=cosθcosδcosH+sinθsinδ 太陽方位角:sinys=sinθ?sinassinδ cosys=cosascosδsinH? 其中: θ 為地點的

    2024年02月09日
    瀏覽(27)
  • 2023 華數(shù)杯(C題)解析+代碼思路文章全解!特征分析規(guī)劃數(shù)學(xué)建模

    2023 華數(shù)杯(C題)解析+代碼思路文章全解!特征分析規(guī)劃數(shù)學(xué)建模

    母親是嬰兒生命中最重要的人之一,她不僅為嬰兒提供營養(yǎng)物質(zhì)和身體保護(hù),還為嬰兒提供情感支持和安全感。研究顯示,母親的心理狀態(tài)會對嬰兒的發(fā)展產(chǎn)生重要影響。本研究目標(biāo)是利用這些數(shù)據(jù),建立嬰兒睡眠質(zhì)量與母親身心指標(biāo)之間的關(guān)聯(lián)模型。我們收集了母親的人口統(tǒng)計學(xué)

    2024年02月14日
    瀏覽(16)
  • 2023 數(shù)學(xué)建模高教社杯 國賽(D題)養(yǎng)殖場經(jīng)營||建模秘籍&文章代碼思路大全

    2023 數(shù)學(xué)建模高教社杯 國賽(D題)養(yǎng)殖場經(jīng)營||建模秘籍&文章代碼思路大全

    鐺鐺!小秘籍來咯! 小秘籍希望大家都能輕松建模呀,國賽也會持續(xù)給大家放松思路滴~ 抓緊小秘籍,我們出發(fā)吧~ 來看看國賽D題的題目~ 完整版內(nèi)容在文末領(lǐng)取噢~ 湖羊養(yǎng)殖場是一家以湖羊為主要養(yǎng)殖對象的養(yǎng)殖場,湖羊是國家級綿羊保護(hù)品種,具有優(yōu)良的生長特性和適應(yīng)性

    2024年02月09日
    瀏覽(19)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包