???♂? 個人主頁:@艾派森的個人主頁
???作者簡介:Python學(xué)習(xí)者
?? 希望大家多多支持,我們一起進(jìn)步!??
如果文章對你有幫助的話,
歡迎評論 ??點(diǎn)贊???? 收藏 ??加關(guān)注+
目錄
前言
一、Python處理Excel
二、批量處理Excel文件并轉(zhuǎn)為csv文件
三、往期推薦
?文章來源地址http://www.zghlxwxcb.cn/news/detail-685423.html
前言
? ? ? ? 今天一位正在國企實(shí)習(xí)的朋友突然私信找到我,說領(lǐng)導(dǎo)派了個離譜的活,大概就是需要將一個大文件夾里面的excel文件進(jìn)行簡單處理后再轉(zhuǎn)為csv格式的文件,然后這個大文件里面有五個二級文件夾,這五個二級文件夾里面都有一個三級文件夾,然后每個三級文件夾里面都有14-18個四級文件夾,每個四級文件夾里面有31個excel文件和極少量csv文件夾。聽起來層級是不是特別饒,而且加起來總共有2000多個excel文件。處理的話是將表格中的時間列格式進(jìn)行轉(zhuǎn)換,最后存儲為csv文件。這要是人工一個一個文件弄,這得累死人,這種重復(fù)的工作當(dāng)然是交給腳本啦!
一、Python處理Excel
-
Python處理Excel的好處
1.批量操作:當(dāng)要處理眾多Excel文件時,例如出現(xiàn)重復(fù)性的手工勞動,那么使用Python就可以實(shí)現(xiàn)批量掃描文件、自動化進(jìn)行處理,利用代碼代替手工重復(fù)勞動,實(shí)現(xiàn)自動化,是Python第一個比Excel強(qiáng)大的地方
2.大型文件,當(dāng)Excel文件超過幾十兆、甚至上百兆時,打開文件很慢、處理文件更加慢,這時候若使用Python,會發(fā)現(xiàn)處理幾十兆、幾百兆甚至幾GB都是沒有問題的
3.當(dāng)使用Excel進(jìn)行復(fù)雜的計(jì)算時,會使用VBA,但是VBA本身是過時并且復(fù)雜的語言,Python是當(dāng)前最簡單且容易實(shí)現(xiàn)的一門語言,用Python能夠處理比VBA難度更高的業(yè)務(wù)邏輯
4.Python是通用語言,不僅可以處理Excel,使用Python就可以得到很多額外的功能,例如:爬蟲、發(fā)布網(wǎng)頁的Web服務(wù)、與數(shù)據(jù)庫進(jìn)行連接、同時結(jié)合word和PPT進(jìn)行處理、加入定時任務(wù)處理、人工智能分析等,各種額外的功能,這是Excel和VBA所不具備的
-
Python處理Excel主要有三大類庫
1.pandas:是Python領(lǐng)域非常重要的,用于數(shù)據(jù)分析和可視化的類庫,在處理Excel中,90%可以利用pandas類庫就可以搞掂,利用pandas就可以讀取Excel、處理Excel和輸出Excel,但是pandas也有缺點(diǎn),就是無法做到格式類,例如Excel中合并單元、大量復(fù)雜的樣式(看起來很精美)的時候,用pandas無法搞掂,此時,依然是使用pandas結(jié)合openyxl、xlwings來搞掂需求
2.openpyxl:若電腦上未安裝office時,也可以使用openpyxl,這個類型可以運(yùn)行在linux上,并且也可以實(shí)現(xiàn)操作大部分Excel格式和樣式的功能,使用它配合pandas,也可以完成大部分場景的需求
3.xlwings:比openyxl更加強(qiáng)大,只能運(yùn)行在Windows或者M(jìn)ac系統(tǒng),并且該系統(tǒng)中必須安裝了office才能運(yùn)行,xlwings的原理,就是基于當(dāng)前系統(tǒng)已經(jīng)安裝好的office軟件,來進(jìn)行功能的拓展來操作Excel
-
使用pandas的時候,經(jīng)常會結(jié)合其他類庫,來完成更加復(fù)雜的功能
-
requests, bs4:可以完成爬蟲的功能
-
flask:可以做網(wǎng)頁,把表格展示在網(wǎng)頁上
-
Matplotlib:讀取表格后,進(jìn)行可視化
-
sklearn:進(jìn)行復(fù)雜的數(shù)據(jù)分析時,也可以結(jié)合機(jī)器學(xué)習(xí)Sklearn把讀取的Excel數(shù)據(jù),進(jìn)行數(shù)據(jù)分析和機(jī)器學(xué)習(xí)
-
Python-docx:也可以結(jié)合Python-docx類庫,實(shí)現(xiàn)Excel和word的互通
-
smtplib:也可以使用smtplib,講Excel數(shù)據(jù)發(fā)送郵件出去
-
-
開發(fā)環(huán)境
操作系統(tǒng):使用windows, mac都可以
Python版本:系統(tǒng)中需要安裝Python3.6以上的版本,Python2已經(jīng)過期不建議使用,Python3.6以前的版本功能相對弱,最好就是采用Python3.6以上的版本
開發(fā)工具:有兩個可以選擇,jupyter notebook,是個網(wǎng)頁編輯器,可以運(yùn)行Python,常常用于交互性、探索性的開發(fā);pycharm,用于成熟腳本,或者web服務(wù)的一些開發(fā);這兩個工具可以隨意選擇。
二、批量處理Excel文件并轉(zhuǎn)為csv文件
技術(shù)工具:
Python版本:3.9
代碼編輯器:jupyter notebook
處理思路
? ? ? ? 寫代碼之前我們首先需要針對這個需求在腦子里做出一個流程圖出來,大概就是使用os庫層層遍歷文件夾,當(dāng)遍歷到excel文件這一級路徑時,我們使用pandas讀取excel文件,將time時間列轉(zhuǎn)為時間序列類型并符合要求格式,接著使用pandas將處理后的文件保存為csv文件并輸出在同一路徑下,最后再將原始excel文件進(jìn)行刪除即可。
處理過程
首先看一下文件夾路徑結(jié)構(gòu)
?然后我寫的腳本與sample_data在同一級
具體腳本代碼如下:
import pandas as pd
import os
from datetime import datetime
# 基礎(chǔ)文件夾路徑
base_dir = './sample_data'
# 循環(huán)遍歷到每一個excel文件并修改其文件類型為csv
for first_floor in os.listdir(base_dir): # 遍歷第一層
second_floor_dir = base_dir+'/'+first_floor # 獲取第二層的文件路徑
for second_floor in os.listdir(second_floor_dir): # 遍歷第二層
third_floor_dir = base_dir+'/'+first_floor+'/'+second_floor # 獲取第三層的文件路徑
for third_floor in os.listdir(third_floor_dir): # 遍歷第三層
fourth_floor_dir = base_dir+'/'+first_floor+'/'+second_floor+'/'+third_floor # 獲取第四層的文件路徑
for file_dir in os.listdir(fourth_floor_dir): # 遍歷第四層
file_name = file_dir.split('.')[0] # 獲取excel文件名稱
file_suffix = file_dir.split('.')[1] # 獲取excel文件后綴
print(fourth_floor_dir)
if file_suffix=='xlsx' or file_suffix=='xls': # 判斷文件是否是excel文件
df = pd.read_excel(fourth_floor_dir+'/'+file_dir) # 讀取excel文件
df['Time'] = pd.to_datetime(df['Time'])
df['Time'] = df['Time'].apply(lambda x:datetime.strftime(x,'%Y-%m-%d %H:%M:%S'))
df.to_csv(fourth_floor_dir+'/'+file_name+'.csv',index=False) # 將excel文件保存為csv文件
os.remove(fourth_floor_dir+'/'+file_dir) # 刪除原來的excel文件
????????首先定義基礎(chǔ)文件夾路徑,接著使用os.listdir()獲取文件夾列表,嵌套四層循環(huán)即可到達(dá)excel文件的路徑下,然后使用字符串切割獲取文件名和后綴,判斷后綴是否為excel文件,是的話就使用pandas讀取數(shù)據(jù),然后轉(zhuǎn)換列類型并轉(zhuǎn)為要求格式,最后保存為csv文件并刪除原來excel文件。運(yùn)行之后就大功告成啦!
????????最后還得到了朋友的肯定,其實(shí)學(xué)Python并不一定要去做程序員,像這種辦公軟件(excel、PPT、word)在公司里都是必備技能,但是當(dāng)要處理的文件太多或者都是一些重復(fù)性的工作,那此時你用Python寫個自動化腳本來做,省時又省力,提高工作效率,同時還能獲得領(lǐng)導(dǎo)的欣賞。
?
三、往期推薦
Python提取pdf中的表格數(shù)據(jù)(附實(shí)戰(zhàn)案例)
使用Python自動發(fā)送郵件
Python操作ppt和pdf基礎(chǔ)
Python操作word基礎(chǔ)
Python操作excel基礎(chǔ)
使用Python一鍵提取PDF中的表格到Excel文章來源:http://www.zghlxwxcb.cn/news/detail-685423.html
?
到了這里,關(guān)于【辦公自動化】使用Python批量處理Excel文件并轉(zhuǎn)為csv文件的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!