python調(diào)用百度ai將圖片/pdf識(shí)別為表格excel

2年前作者：飛得更高肥尾沙鼠分類：Toy博客閱讀(21)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了python調(diào)用百度ai將圖片/pdf識(shí)別為表格excel。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

表格文字識(shí)別(異步接口)

圖片轉(zhuǎn)excel

百度ai官方文檔：https://ai.baidu.com/ai-doc/OCR/Ik3h7y238
使用的是表格文字識(shí)別(異步接口)，同步接口已經(jīng)下線

python調(diào)用百度ai將圖片/pdf識(shí)別為表格excel,python基礎(chǔ),python,百度,人工智能

import requests
import json
import base64
import time
'''
文檔：https://ai.baidu.com/ai-doc/OCR/Ik3h7y238
'''

# 獲取access_token地址：https://console.bce.baidu.com/ai/#/ai/ocr/app/list
def get_access_token():
    client_id = "xxxxxxxxxxxxxxxxxx" # 你的apikey
    client_secret = "xxxxxxxxxxxxxxxxxxxxxx" # 你的Secret Key
    host = 'https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id={}&client_secret={}'.format(
        client_id, client_secret)
    response = requests.get(host).text
    data = json.loads(response)
    access_token = data['access_token']
    return access_token

# 獲取識(shí)別結(jié)果
def get_info(access_token):
    request_url = "https://aip.baidubce.com/rest/2.0/solution/v1/form_ocr/request"
    # 二進(jìn)制方式打開圖片文件
    f = open('1.jpg', 'rb')
    img = base64.b64encode(f.read())  # base64編碼
    params = {"image": img}
    request_url = request_url + "?access_token=" + access_token
    headers = {'content-type': 'application/x-www-form-urlencoded'}
    response = requests.post(request_url, data=params, headers=headers)
    # if response:
    #     print(response.json())
    data_1 = response.json()
    return data_1


# 獲取excel

def get_excel(requests_id, access_token):
    headers = {'content-type': 'application/x-www-form-urlencoded'}
    pargams = {
        'request_id': requests_id,
        'result_type': 'excel'
    }
    url = 'https://aip.baidubce.com/rest/2.0/solution/v1/form_ocr/get_request_result'
    url_all = url + "?access_token=" + access_token
    res = requests.post(url_all, headers=headers, params=pargams)  # 訪問鏈接獲取excel下載頁
    info_1 = res.json()['result']['ret_msg']
    excel_url = res.json()['result']['result_data']
    excel_1 = requests.get(excel_url).content
    print(excel_1)
    with open('識(shí)別結(jié)果.xls', 'wb+') as f:
        f.write(excel_1)
    print(info_1)


def main():
    print('正在處理中請(qǐng)稍后')
    access_token = get_access_token()
    data_1 = get_info(access_token)
    try:
        requests_id = data_1['result'][0]['request_id']
        if requests_id != '':
            print('識(shí)別完成')
    except:
        print('識(shí)別錯(cuò)誤')
    print('正在獲取excel')
    time.sleep(10)  # 延時(shí)十秒讓網(wǎng)頁圖片轉(zhuǎn)excel完畢，excel量多的話，轉(zhuǎn)化會(huì)慢，可以延時(shí)長(zhǎng)一點(diǎn)
    get_excel(requests_id, access_token)


main()

表格文字識(shí)別V2

圖片/pdf轉(zhuǎn)excel通用

import requests
import json
import base64

CLIENT_ID = "xxxxxxxxxxxxxxxxx"  # 你的apikey,需要修改
CLIENT_SECRET = "xxxxxxxxxxxxxxxxxxxxx"  # 你的Secret Key，需要修改


# 獲取access_token
def get_access_token():
    auth_url = 'https://aip.baidubce.com/oauth/2.0/token'
    params = {
        'grant_type': 'client_credentials',
        'client_id': CLIENT_ID,
        'client_secret': CLIENT_SECRET,
    }
    response = requests.post(auth_url, data=params)
    data = response.json()
    access_token = data.get('access_token')
    if not access_token:
        raise "請(qǐng)輸入正確的client_id 和 client_secret"
    return access_token


def save_excel(b64_excel, excel_name):
    # 將base64編碼的excel文件解碼并保存為本地文件
    excel = base64.b64decode(b64_excel)
    with open(excel_name, 'wb') as f:
        f.write(excel)


def to_excel(file_path, excel_name):
    access_token = get_access_token()
    request_url = "https://aip.baidubce.com/rest/2.0/ocr/v1/table"

    # 以二進(jìn)制方式打開圖片文件，并將其轉(zhuǎn)換為base64編碼
    with open(file_path, 'rb') as f:
        file = base64.b64encode(f.read())
    ext = file_path.split('.')[-1]
    if ext in ['jpg', 'jpeg', 'png', 'bmp']:
        # 圖片格式
        data = {
            "image": file,
            "return_excel": 'true',
        }
    elif ext == 'pdf':
        # pdf格式
        data = {
            "pdf_file": file,
            "return_excel": 'true',
        }
    headers = {'content-type': 'application/x-www-form-urlencoded'}

    # 發(fā)送POST請(qǐng)求進(jìn)行表格文字識(shí)別
    response = requests.post(request_url, params={'access_token': access_token}, data=data, headers=headers)
    if response.ok:
        data = response.json()
        # 將返回的excel文件保存到本地
        save_excel(data.get('excel_file', ''), excel_name)
        print('轉(zhuǎn)換完成')
    else:
        print('轉(zhuǎn)換失敗')


if __name__ == '__main__':
    img_path = '1.png'  # 要轉(zhuǎn)換的圖片文件名
    pdf_path = 'table.pdf'  # 要轉(zhuǎn)換的pdf文件名
    to_excel(file_path=img_path, excel_name='out_pic.xlsx')  # 轉(zhuǎn)換后的excel文件名
    to_excel(file_path=pdf_path, excel_name='out_pdf.xlsx')  # 轉(zhuǎn)換后的excel文件名

python調(diào)用百度ai將圖片/pdf識(shí)別為表格excel,python基礎(chǔ),python,百度,人工智能文章來源地址http://www.zghlxwxcb.cn/news/detail-656047.html

到了這里，關(guān)于python調(diào)用百度ai將圖片/pdf識(shí)別為表格excel的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

用python實(shí)現(xiàn)調(diào)用百度圖片搜索的API
前言：這段代碼是一個(gè)簡(jiǎn)單的圖片爬蟲程序它可以通過輸入，在百度圖片中搜索相關(guān)圖片，并返回一張隨機(jī)的圖片。代碼使用Flask框架搭建了一個(gè)簡(jiǎn)單的Web應(yīng)用，將用戶輸入的作為參數(shù)傳遞給爬蟲程序，然后從百度圖片中獲取相關(guān)圖片的URL 并隨機(jī)選擇一張返回
2024年02月11日
瀏覽(17)
Python 擴(kuò)展教程(1): 調(diào)用百度AI
? ? ? ?自有計(jì)算機(jī)以來，人們就想讓計(jì)算機(jī)具有人的感知、意識(shí)、概念、思維、行為，代替人的工作。AI (Artificial Interligence)是計(jì)算機(jī)科學(xué)的一個(gè)分支，專注研究、開發(fā)、模擬、擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用。 ? ? ? ?從研究領(lǐng)域和方法上， AI分為?模式識(shí)別、自
2024年02月03日
瀏覽(13)
【NLP教程】用python調(diào)用百度AI開放平臺(tái)進(jìn)行情感傾向分析
目錄一、背景二、操作步驟 2.1 創(chuàng)建應(yīng)用 2.2 獲取token 2.3 情感傾向分析三、其他情感分析四、講解視頻 Hi，大家！我是 @馬哥python說，一名10年程序猿。今天我來演示一下：通過百度AI開放平臺(tái)，利用python調(diào)用百度接口進(jìn)行中文情感傾向分析，并得出情感極性分為積極、消
2023年04月25日
瀏覽(27)
Java 生成各種 PDF 實(shí)戰(zhàn)方案（圖片、模板、表格）
本篇文章的重點(diǎn)還是在講通過java生成pdf，其實(shí)如果是單純的模板填充挺簡(jiǎn)單的，但是又要填充模板還要?jiǎng)討B(tài)生成表格就比較麻煩了，因?yàn)槿绻谀０逯挟嫳砀竦目蛉ド傻脑挘^模板框的位置就會(huì)隱藏，我剛接到需求的時(shí)候也是有點(diǎn)難受，在網(wǎng)上也是找了大量的資料，研究
2024年02月02日
瀏覽(23)
基于百度云的 AI 接口調(diào)用
??人工智能（Artificial Intelligence），英文縮寫為AI。它是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。 ??人工智能是計(jì)算機(jī)科學(xué)的一個(gè)分支，它企圖了解智能的實(shí)質(zhì)，并生產(chǎn)出一種新的能以人類智能相似的方式做出反應(yīng)
2024年01月21日
瀏覽(15)
百度飛漿OCR識(shí)別表格入門python實(shí)踐
百度飛槳（PaddlePaddle）是百度推出的一款深度學(xué)習(xí)平臺(tái)，旨在為開發(fā)者提供強(qiáng)大的深度學(xué)習(xí)框架和工具。飛槳提供了包括OCR（光學(xué)字符識(shí)別）在內(nèi)的多種功能，可以幫助開發(fā)者在各種應(yīng)用中實(shí)現(xiàn)高效的文本識(shí)別。官網(wǎng)鏈接：https://www.paddlepaddle.org.cn/。初次使用，安裝： pip i
2024年02月09日
瀏覽(17)
最簡(jiǎn)單的人臉檢測(cè)（免費(fèi)調(diào)用百度AI開放平臺(tái)接口）
遠(yuǎn)程調(diào)用百度AI開放平臺(tái)的web服務(wù)，快速完成人臉識(shí)別這里分類和匯總了欣宸的全部原創(chuàng)(含配套源碼)：https://github.com/zq2599/blog_demos 在檢測(cè)人臉數(shù)量、位置、性別、口罩等場(chǎng)景時(shí)，可以考慮使用百度開放平臺(tái)提供的web接口，一個(gè)web請(qǐng)求就能完成檢測(cè)得到結(jié)果，本篇記錄了從申
2024年02月12日
瀏覽(28)
百度智能AI接口：黑白圖片轉(zhuǎn)彩色圖片系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
?博主介紹：黃菊華老師《Vue.js入門與商城開發(fā)實(shí)戰(zhàn)》《微信小程序商城開發(fā)》圖書作者，CSDN博客專家，在線教育專家，CSDN鉆石講師；專注大學(xué)生畢業(yè)設(shè)計(jì)教育和輔導(dǎo)。所有項(xiàng)目都配有從入門到精通的基礎(chǔ)知識(shí)視頻課程，免費(fèi) 項(xiàng)目配有對(duì)應(yīng)開發(fā)文檔、開題報(bào)告、任務(wù)書、
2024年02月04日
瀏覽(16)
調(diào)用百度文心AI作畫API實(shí)現(xiàn)中文-圖像跨模態(tài)生成
喬冠華，女，西安工程大學(xué)電子信息學(xué)院，2020級(jí)碩士研究生，張宏偉人工智能課題組。研究方向：機(jī)器視覺與人工智能。電子郵件：1078914066@qq.com 文心ERNIE-ViLG，一款適合中文的跨模態(tài)AI繪畫大模型。論文地址：https://arxiv.org/pdf/2112.15283.pdf 體驗(yàn)連接：https://wenxin.baidu.com/ern
2024年02月03日
瀏覽(22)
【itext7】itext7操作PDF文檔之添加段落文本內(nèi)容、添加List列表、添加Image圖片、添加Table表格
這篇文章，主要介紹itext7操作PDF文檔之添加段落文本內(nèi)容、添加List列表、添加Image圖片、添加Table表格。目錄一、itext7操作PDF內(nèi)容 1.1、添加段落文本內(nèi)容 1.2、添加列表內(nèi)容 1.3、添加圖片 1.4、添加表格（1）列寬采用點(diǎn)單位（pt點(diǎn)單位）（2）采用百分比單位（%百分比） it
2024年02月16日
瀏覽(17)