国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Python獲取豆丁文檔數(shù)據(jù)內(nèi)容, 保存word文檔

2年前作者：茜茜是帥哥分類：Toy博客閱讀(22)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了Python獲取豆丁文檔數(shù)據(jù)內(nèi)容, 保存word文檔。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

前言

嗨嘍，大家好呀~這里是愛看美女的茜茜吶

Python獲取豆丁文檔數(shù)據(jù)內(nèi)容, 保存word文檔,python爬蟲,python,word,開發(fā)語言,pycharm

開發(fā)環(huán)境:

python 3.8
pycharm

模塊使用:

requests --> pip install requests
re
base64
docx --> pip install python-docx

第三方模塊安裝方法：

win + R 輸入cmd 輸入安裝命令 pip install 模塊名

(如果你覺得安裝速度比較慢, 你可以切換國(guó)內(nèi)鏡像源)

準(zhǔn)備工作

在寫代碼之前，你需要先在Baidu開發(fā)者平臺(tái)申請(qǐng)權(quán)限，

Python獲取豆丁文檔數(shù)據(jù)內(nèi)容, 保存word文檔,python爬蟲,python,word,開發(fā)語言,pycharm

步驟如下：

1. 登錄百度智能云

沒有Baidu賬號(hào)的注冊(cè)一個(gè)；
第一次進(jìn)入會(huì)有這樣一個(gè)頁面，你自己隨意填

Python獲取豆丁文檔數(shù)據(jù)內(nèi)容, 保存word文檔,python爬蟲,python,word,開發(fā)語言,pycharm

2. 通過界面右上角進(jìn)入控制臺(tái)

Python獲取豆丁文檔數(shù)據(jù)內(nèi)容, 保存word文檔,python爬蟲,python,word,開發(fā)語言,pycharm

3. 進(jìn)入控制臺(tái)后點(diǎn)擊左上角的菜單欄

Python獲取豆丁文檔數(shù)據(jù)內(nèi)容, 保存word文檔,python爬蟲,python,word,開發(fā)語言,pycharm

3. 選中產(chǎn)品服務(wù)

搜索人臉識(shí)別

Python獲取豆丁文檔數(shù)據(jù)內(nèi)容, 保存word文檔,python爬蟲,python,word,開發(fā)語言,pycharm

4. 點(diǎn)擊創(chuàng)建應(yīng)用

Python獲取豆丁文檔數(shù)據(jù)內(nèi)容, 保存word文檔,python爬蟲,python,word,開發(fā)語言,pycharm

應(yīng)用名稱隨便填

接口選擇默認(rèn)

應(yīng)用歸屬選個(gè)人

應(yīng)用描述隨便填

然后點(diǎn)擊立即創(chuàng)建

Python獲取豆丁文檔數(shù)據(jù)內(nèi)容, 保存word文檔,python爬蟲,python,word,開發(fā)語言,pycharm

5. 創(chuàng)建完畢后點(diǎn)擊返回應(yīng)用列表

重點(diǎn)點(diǎn)擊領(lǐng)取免費(fèi)資源

Python獲取豆丁文檔數(shù)據(jù)內(nèi)容, 保存word文檔,python爬蟲,python,word,開發(fā)語言,pycharm

6. 進(jìn)行實(shí)名認(rèn)證后領(lǐng)取服務(wù)類型里面的所有內(nèi)容

實(shí)名認(rèn)證需要一定時(shí)間

Python獲取豆丁文檔數(shù)據(jù)內(nèi)容, 保存word文檔,python爬蟲,python,word,開發(fā)語言,pycharm

7. 領(lǐng)取完畢之后回到應(yīng)用列表

Python獲取豆丁文檔數(shù)據(jù)內(nèi)容, 保存word文檔,python爬蟲,python,word,開發(fā)語言,pycharm

復(fù)制API Key和Secret Key里的內(nèi)容，用于后期的接口認(rèn)證

?? ?? ?? 更多精彩機(jī)密、教程，盡在下方，趕緊點(diǎn)擊了解吧~

素材、視頻教程、完整代碼、插件安裝教程我都準(zhǔn)備好了，直接在文末名片自取就可

Python獲取豆丁文檔數(shù)據(jù)內(nèi)容, 保存word文檔,python爬蟲,python,word,開發(fā)語言,pycharm

代碼實(shí)現(xiàn)步驟

發(fā)送請(qǐng)求, 模擬瀏覽器對(duì)于文檔頁面url地址發(fā)送請(qǐng)求
獲取數(shù)據(jù), 獲取服務(wù)器返回響應(yīng)數(shù)據(jù)
解析數(shù)據(jù), 提取我們需要的內(nèi)容:

sid參數(shù) / 文檔頁數(shù) / 文檔名稱

構(gòu)建文檔圖片鏈接
保存數(shù)據(jù), 把文檔圖片內(nèi)容保存下來

代碼展示

# 導(dǎo)入數(shù)據(jù)請(qǐng)求模塊
import requests
# 導(dǎo)入正則模塊
import re
import base64
from docx import Document

doc = Document()


def Content(content):
    url = "https://****/oauth/2.0/token?grant_type=client_credentials&client_id=xxxx&client_secret=xxxx"
    payload = ""
    headers = {
        'Content-Type': 'application/json',
        'Accept': 'application/json'
    }
    response = requests.request("POST", url, headers=headers, data=payload)
    access_token = response.json()['access_token']
    '''
    通用文字識(shí)別（高精度版）
    '''
    request_url = "https://****/rest/2.0/ocr/v1/accurate_basic"
    # 二進(jìn)制方式打開圖片文件
    # f = open('img\\1 計(jì)算機(jī)概述1.jpg', 'rb')
    img = base64.b64encode(content)
    params = {"image":img}
    request_url = request_url + "?access_token=" + access_token
    headers = {'content-type': 'application/x-www-form-urlencoded'}
    json_data = requests.post(request_url, data=params, headers=headers).json()
    words_result = '\n'.join([i['words'] for i in json_data['words_result']])
    print(words_result)

# 模擬瀏覽器 --> 字典數(shù)據(jù)類型 --> 鍵:值
headers = {
    # User-Agent 用戶代理 表示瀏覽器基本身份信息
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'
}
# 請(qǐng)求鏈接
url = 'https://****/p-3282300896.html'
# 發(fā)送請(qǐng)求
response = requests.get(url=url, headers=headers)

# 獲取網(wǎng)頁數(shù)據(jù)
html_data = response.text
# 提取sid參數(shù)
sid = re.findall('flash_param_hzq:"(.*?)",', html_data)[0]
# 提取名字
name = re.findall('productName:"(.*?)",', html_data)[0]
# 提取頁碼
num = re.findall('<em>(\d+)</em>頁</span>', html_data)[0]
# 構(gòu)建完整圖片鏈接
content_list = []
for page in range(1, int(num)+1):
    # 字符串格式化方法
    img = f'http://221.122.117.73/docinpic.jsp?sid={sid}&file=3282300896&width=942&pageno={page}'
    # 發(fā)送請(qǐng)求, 獲取二進(jìn)制數(shù)據(jù)<圖片內(nèi)容>
    img_content = requests.get(url=img, headers=headers).content
    words = Content(img_content)
    doc.add_paragraph(words)

doc.save(f'{name}.docx')

正則表達(dá)式提取數(shù)據(jù)內(nèi)容

re.findall(‘?dāng)?shù)據(jù)’, ‘地方’) 調(diào)用re模塊里面findall方法

查找所有我們需要的數(shù)據(jù)內(nèi)容

尾語

感謝你觀看我的文章吶~本次航班到這里就結(jié)束啦 ??

希望本篇文章有對(duì)你帶來幫助 ??，有學(xué)習(xí)到一點(diǎn)知識(shí)~

躲起來的星星??也在努力發(fā)光，你也要努力加油（讓我們一起努力叭）。

Python獲取豆丁文檔數(shù)據(jù)內(nèi)容, 保存word文檔,python爬蟲,python,word,開發(fā)語言,pycharm

最后，宣傳一下呀~??????更多源碼、資料、素材、解答、交流皆點(diǎn)擊下方名片獲取呀????文章來源地址http://www.zghlxwxcb.cn/news/detail-544714.html

到了這里，關(guān)于Python獲取豆丁文檔數(shù)據(jù)內(nèi)容, 保存word文檔的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

【python】使用docx獲取word文檔的標(biāo)題等級(jí)、大綱等級(jí)和編號(hào)等級(jí)
在Microsoft Word中：【標(biāo)題X】是一個(gè)樣式，一般來說，【標(biāo)題1】樣式的大綱級(jí)別是1級(jí)。大綱級(jí)別一般用于頁面導(dǎo)航和生成目錄?？梢杂益I文字-段落里查看/設(shè)置大綱的級(jí)別。設(shè)置成【x級(jí)】后左側(cè)導(dǎo)航欄就會(huì)顯示。編號(hào)等級(jí)就是大家熟知的項(xiàng)目編號(hào)，常用于正文。基本沒有一
2024年02月03日
瀏覽(22)
Python爬蟲——BeautifulSoup，獲取HTML中文檔，標(biāo)簽等內(nèi)容
將復(fù)雜的HTML文檔轉(zhuǎn)換成一個(gè)復(fù)雜的樹形結(jié)構(gòu)，每個(gè)結(jié)點(diǎn)都是一個(gè)Python對(duì)象，所有對(duì)象可以分為四種： Tag NavigableString BeautifulSoup Comment 首先要引入該函數(shù)，再打開相應(yīng)的html文件讀取其中的內(nèi)容，在使用BeautiSoup對(duì)其進(jìn)行解析，解析的時(shí)候要使用相應(yīng)類型的解析器html.parser bs當(dāng)中
2024年02月06日
瀏覽(28)
python創(chuàng)建word文檔并向word中寫數(shù)據(jù)
? ? ? ? python創(chuàng)建word文檔需要用到docx庫，安裝命令如下： ? ? ? ? 注意，安裝的是python-docx。 ? ? ? ? 使用方法有很多，這里只介紹創(chuàng)建文檔并向文檔中寫入數(shù)據(jù)。 ? ? ? ? 存在一個(gè)csv文件，格式如下： ? ? ? ? 現(xiàn)在需要讀取其中的username和content字段，并按照username和co
2024年04月14日
瀏覽(30)
python采集數(shù)據(jù)保存csv, 文件內(nèi)容亂碼了怎么解決?
如果你的 Python 程序采集到的數(shù)據(jù)在保存成 CSV 格式的文件時(shí)出現(xiàn)了亂碼，那么可嘗試以下解決方法： 1. 在打開 CSV 文件時(shí)指定編碼方式你可以使用 Python 中的 open() 函數(shù)打開 CSV 文件，并在 open() 函數(shù)中指定文件編碼方式為 CSV 文件原始編碼方式。如果 CSV 文件原始編碼方式為
2024年02月16日
瀏覽(20)
Python — 獲取電腦串口數(shù)據(jù)并保存到txt文件
打開設(shè)備管理器，雙擊端口設(shè)備，點(diǎn)擊端口設(shè)置，這里面的參數(shù)需要與下面代碼中的參數(shù)保持一致。注意事項(xiàng)： 1、設(shè)置匹配的波特率； 2、設(shè)置對(duì)應(yīng)的串口號(hào)；以下是一段Python代碼，可以讀取 Windows 電腦上串口的數(shù)據(jù)并將其保存到一個(gè)文本文件中：請(qǐng)注意，上述代碼中的
2024年02月11日
瀏覽(22)
數(shù)據(jù)爆炸，Python一鍵獲取阿里法拍的爆款商品數(shù)據(jù)，并保存到數(shù)據(jù)庫！
阿里法拍是中國(guó)大陸一個(gè)知名的在線拍賣網(wǎng)站，它提供了各種商品和服務(wù)的拍賣、固定價(jià)交易和一口價(jià)銷售。如果您想要從阿里法拍網(wǎng)站中獲取商品的信息，比如商品名稱、價(jià)格、圖片等信息，則可以使用Python編寫一個(gè)代碼獲取這些數(shù)據(jù)。在實(shí)現(xiàn)前，請(qǐng)確保您已經(jīng)安裝以下
2024年02月09日
瀏覽(18)
快樂學(xué)Python，數(shù)據(jù)分析之使用爬蟲獲取網(wǎng)頁內(nèi)容
在上一篇文章中，我們了解了爬蟲的原理以及要實(shí)現(xiàn)爬蟲的三個(gè)主要步驟：下載網(wǎng)頁-分析網(wǎng)頁-保存數(shù)據(jù)。下面，我們就來看一下：如何使用Python下載網(wǎng)頁。瀏覽器畫網(wǎng)頁的流程，是瀏覽器將用戶輸入的網(wǎng)址告訴網(wǎng)站的服務(wù)器，然后網(wǎng)站的服務(wù)器將網(wǎng)址對(duì)應(yīng)的網(wǎng)頁返回給瀏覽
2024年01月17日
瀏覽(20)
chatgpt賦能python：Python如何打開Word文檔？
Python 是一種強(qiáng)大的編程語言，可以幫助我們完成各種重復(fù)性工作，其中包括自動(dòng)化文件的處理。在這篇文章中，我們將學(xué)習(xí)如何使用 Python 打開 Word 文檔。本文將介紹三種不同的方式：使用 Python 原生模塊、使用第三方庫 PyWin32 和使用另一種第三方庫 python-docx。 Python 原生模塊
2024年02月03日
瀏覽(18)
Python+docx實(shí)現(xiàn)python對(duì)word文檔的編輯
? ? ? ? 該模塊可以通過python代碼來對(duì)word文檔進(jìn)行大批量的編輯。docx它提供了一組功能豐富的函數(shù)和方法，用于創(chuàng)建、修改和讀取Word文檔。下面是 docx 模塊中一些常用的函數(shù)和方法的介紹：安裝：pip install docx ???????????????? 通過遍歷? doc.paragraphs? 來獲取文檔中
2024年02月16日
瀏覽(23)
【python腳本系列】python腳本2——PDF轉(zhuǎn)word文檔
只需2行代碼，輕松將PDF轉(zhuǎn)換成Word 機(jī)器學(xué)習(xí)算法那些事 2023-05-05 18:58 發(fā)表于廣東編輯：數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)之美可將 PDF 轉(zhuǎn)換成 docx 文件的 Python 庫。該項(xiàng)目通過 PyMuPDF 庫提取 PDF 文件中的數(shù)據(jù)，然后采用 python-docx 庫解析內(nèi)容的布局、段落、圖片、表格等，最后自動(dòng)生成 docx 文
2024年02月02日
瀏覽(23)