国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<mark id="hosxv"><noscript id="hosxv"></noscript></mark>

<sup id="hosxv"></sup>

Python處理大數(shù)據(jù)——csv文件類型的小技巧

2年前作者：aobulaien001分類：Toy博客閱讀(91)違法舉報

這篇具有很好參考價值的文章主要介紹了Python處理大數(shù)據(jù)——csv文件類型的小技巧。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點(diǎn)擊"舉報違法"按鈕提交疑問。

當(dāng)我們遇到一個超大的csv數(shù)據(jù)文件的時候，雙擊打開是不現(xiàn)實(shí)的。即使打開csv，只能看到104萬行的數(shù)據(jù)，后面都是隱藏的，所以打開也是沒有意義的。如果不打開，又無法查看到表的數(shù)據(jù)結(jié)構(gòu)，就無法進(jìn)行下一步的工作，比如數(shù)據(jù)篩選。

csv可以用來處理可變長的數(shù)據(jù)嗎,python,大數(shù)據(jù),開發(fā)語言

一、大數(shù)據(jù)處理工具

對于超百萬行，甚至更大的數(shù)據(jù)，我推薦以下幾種工具：

1、Python：pandas在升級為2.0版本之后，對csv處理速度更快了。以前被人詬病的慢有所改進(jìn)，可以作為首選。

2、SQL或者Access，SQL可視化好，可以清楚地看到數(shù)據(jù)結(jié)構(gòu)與內(nèi)容，速度也非?？?，但需要簡單學(xué)習(xí)一下SQL語言。

3、power query，excel自帶工具，簡單快捷，不需要額外生產(chǎn)力。但用起來處理數(shù)據(jù)的感覺有些吃力，不如前兩個。

二、Python處理大數(shù)據(jù)技巧

1、讀取時不要輕易使用encoding參數(shù)

此參數(shù)對應(yīng)兩個常用值，gbk、utf-8，對應(yīng)下面截圖中兩種格式，如果格式不對會報錯誤。意思為：'gbk’編解碼器無法解碼位置2中的字節(jié)0xbf:非法的多字節(jié)序列。

csv可以用來處理可變長的數(shù)據(jù)嗎,python,大數(shù)據(jù),開發(fā)語言

如果是普通數(shù)據(jù)量較小的表格，可以直接調(diào)用參數(shù)，如果表格很大，打不開的情況下，更別說改完格式另存為了，所以盡量先不填此參數(shù)（但一般默認(rèn)都是gbk）

csv可以用來處理可變長的數(shù)據(jù)嗎,python,大數(shù)據(jù),開發(fā)語言

2、異形表頭

在沒有打開表的情況下，我們無法得知表格是否為真正的二維表格，例如下面這種情況，讀取會報錯，意思是識別到第七行有21列。

csv可以用來處理可變長的數(shù)據(jù)嗎,python,大數(shù)據(jù),開發(fā)語言因?yàn)楫?dāng)讀取到第四行和第五行的時候，會默認(rèn)只有一列表格，而到第7行的時候，卻又變成了21列，故pandas判斷這不是一個正常二維數(shù)據(jù)結(jié)構(gòu)。

csv可以用來處理可變長的數(shù)據(jù)嗎,python,大數(shù)據(jù),開發(fā)語言

為了避免此種情況。要利用讀取數(shù)據(jù)的參數(shù)delimiter=“\t”，這樣數(shù)據(jù)就被強(qiáng)制轉(zhuǎn)換成一列了，你就能看到你想要讀取的數(shù)據(jù)在第幾列了，再將此參數(shù)刪掉，再用參數(shù)header=2就可以搞定了。

data = pd.read_csv(r"C:\Users\ZWD\Desktop\測試\示例.csv",dtype_backend="pyarrow",``delimiter="\t")

csv可以用來處理可變長的數(shù)據(jù)嗎,python,大數(shù)據(jù),開發(fā)語言

綜上所述：完整代碼如下

   ``data = pd.read_csv(file,dtype_backend="pyarrow",header=2)``print(data.head(10))

csv可以用來處理可變長的數(shù)據(jù)嗎,python,大數(shù)據(jù),開發(fā)語言

三、內(nèi)存溢出

當(dāng)讀取特別大的表時，會提示內(nèi)存溢出的問題，csv格式較少遇到，xlsx格式可能較多，可以使用下面的方法進(jìn)行嘗試。

1. 分塊讀取文件

我們可以將文件分成多個塊，逐塊讀取，避免加載整個文件。例如:

chunksize = 100000``for df in pd.read_excel(filez,sheet_name=sheet,chunksize=chunksize)``# 對分塊進(jìn)行處理

2. 指定行數(shù)范圍讀取

可以只讀取文件的某些行，避免讀取不需要的行。例如:

df = pd.read_excel(file,sheet_name=sheet,skiprows=100000,nrows=100000)`  `# 跳過前10萬行，讀取50萬行

3. 選擇需要的列讀取

通過usecols參數(shù)只選擇需要的列，避免讀取無用的數(shù)據(jù)列。

df = pd.read_excel(file,sheet_name=sheet,usecols=["col1","col2","col3"])``# 讀取想要阿列

---------------------------END---------------------------

題外話

csv可以用來處理可變長的數(shù)據(jù)嗎,python,大數(shù)據(jù),開發(fā)語言

感興趣的小伙伴，贈送全套Python學(xué)習(xí)資料，包含面試題、簡歷資料等具體看下方。

??CSDN大禮包??：全網(wǎng)最全《Python學(xué)習(xí)資料》免費(fèi)贈送??！（安全鏈接，放心點(diǎn)擊）

一、Python所有方向的學(xué)習(xí)路線

Python所有方向的技術(shù)點(diǎn)做的整理，形成各個領(lǐng)域的知識點(diǎn)匯總，它的用處就在于，你可以按照下面的知識點(diǎn)去找對應(yīng)的學(xué)習(xí)資源，保證自己學(xué)得較為全面。

csv可以用來處理可變長的數(shù)據(jù)嗎,python,大數(shù)據(jù),開發(fā)語言

二、Python必備開發(fā)工具

工具都幫大家整理好了，安裝就可直接上手！ csv可以用來處理可變長的數(shù)據(jù)嗎,python,大數(shù)據(jù),開發(fā)語言

三、最新Python學(xué)習(xí)筆記

當(dāng)我學(xué)到一定基礎(chǔ)，有自己的理解能力的時候，會去閱讀一些前輩整理的書籍或者手寫的筆記資料，這些筆記詳細(xì)記載了他們對一些技術(shù)點(diǎn)的理解，這些理解是比較獨(dú)到，可以學(xué)到不一樣的思路。

csv可以用來處理可變長的數(shù)據(jù)嗎,python,大數(shù)據(jù),開發(fā)語言

四、Python視頻合集

觀看全面零基礎(chǔ)學(xué)習(xí)視頻，看視頻學(xué)習(xí)是最快捷也是最有效果的方式，跟著視頻中老師的思路，從基礎(chǔ)到深入，還是很容易入門的。

csv可以用來處理可變長的數(shù)據(jù)嗎,python,大數(shù)據(jù),開發(fā)語言

五、實(shí)戰(zhàn)案例

紙上得來終覺淺，要學(xué)會跟著視頻一起敲，要動手實(shí)操，才能將自己的所學(xué)運(yùn)用到實(shí)際當(dāng)中去，這時候可以搞點(diǎn)實(shí)戰(zhàn)案例來學(xué)習(xí)。

csv可以用來處理可變長的數(shù)據(jù)嗎,python,大數(shù)據(jù),開發(fā)語言

六、面試寶典

csv可以用來處理可變長的數(shù)據(jù)嗎,python,大數(shù)據(jù),開發(fā)語言

csv可以用來處理可變長的數(shù)據(jù)嗎,python,大數(shù)據(jù),開發(fā)語言

簡歷模板

??CSDN大禮包??：全網(wǎng)最全《Python學(xué)習(xí)資料》免費(fèi)贈送??！（安全鏈接，放心點(diǎn)擊）

若有侵權(quán)，請聯(lián)系刪除文章來源地址http://www.zghlxwxcb.cn/news/detail-839827.html

到了這里，關(guān)于Python處理大數(shù)據(jù)——csv文件類型的小技巧的文章就介紹完了。如果您還想了解更多內(nèi)容，請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請點(diǎn)擊違法舉報進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

【辦公自動化】使用Python批量處理Excel文件并轉(zhuǎn)為csv文件
???♂? 個人主頁：@艾派森的個人主頁 ???作者簡介：Python學(xué)習(xí)者 ?? 希望大家多多支持，我們一起進(jìn)步！?? 如果文章對你有幫助的話，歡迎評論 ??點(diǎn)贊???? 收藏 ??加關(guān)注+ 目錄前言一、Python處理Excel 二、批量處理Excel文件并轉(zhuǎn)為csv文件三、往期推薦 ? ? ? ? ?
2024年02月10日
瀏覽(21)
【100天精通python】Day27：文件與IO操作_CSV文件處理
目錄 ?專欄導(dǎo)讀? ?1.?CSV文件格式簡介 2?csv模塊的使用方法 3 讀寫CSV文件的示例
2024年02月14日
瀏覽(20)
Python中對CSV數(shù)據(jù)預(yù)處理
CSV（Comma Separated Values）是一種常用的數(shù)據(jù)格式，它是以逗號作為分隔符的純文本文件，通常用于存儲大量的數(shù)據(jù)。在數(shù)據(jù)分析和機(jī)器學(xué)習(xí)領(lǐng)域，CSV數(shù)據(jù)預(yù)處理是一個必不可少的步驟。在本篇博客中，我們將介紹Python中對CSV數(shù)據(jù)預(yù)處理的所有步驟。在Python中，我們可以使用
2024年02月10日
瀏覽(23)
【數(shù)據(jù)處理】Pandas讀取CSV文件示例及常用方法（入門）
查看讀取前10行數(shù)據(jù) 2067 向前填充指定列的插值填充使用某數(shù)據(jù)填充指定列的空值示例: 類似切片 array([‘SE’, ‘cv’, ‘NW’, ‘NE’], dtype=object) 類似數(shù)據(jù)庫查詢中的groupby查詢先添加新的一列按月將數(shù)據(jù)劃分聚合，對指定的列按月劃分求平均值等 min 最小值 max 最大值 sum
2024年02月06日
瀏覽(1673)
Python中導(dǎo)入csv文件數(shù)據(jù)
Python中的csv模塊是一種用于讀取和寫入csv文件的模塊，csv可以用于將數(shù)據(jù)從文件或者其他來源導(dǎo)入到Python中進(jìn)行分析和處理。在這篇文章中，我們將全面介紹Python中如何導(dǎo)入csv文件，并將從多個方面進(jìn)行詳細(xì)探討，包括讀取和寫入csv文件、處理csv文件中的缺失值和特殊字符，
2024年02月05日
瀏覽(20)
【Python】python把數(shù)據(jù)轉(zhuǎn)換為csv文件
目錄 python把數(shù)據(jù)轉(zhuǎn)換為csv文件 python把數(shù)據(jù)轉(zhuǎn)換為txt文件將數(shù)據(jù)轉(zhuǎn)換為CSV格式文件可以使用Python內(nèi)置的csv模塊進(jìn)行操作，以下是一段簡單的示例代碼：
2024年02月16日
瀏覽(17)
python爬蟲——保存數(shù)據(jù)為.csv文件
1、導(dǎo)包 2、創(chuàng)建或打開文件，設(shè)置文件形式 3、設(shè)置列名 4、創(chuàng)建DictWriter對象 5、寫入表頭 6、數(shù)據(jù)寫入使用writerow方法寫入行數(shù)據(jù) ? ? ? ?
2024年02月11日
瀏覽(91)
python-數(shù)據(jù)可視化-下載數(shù)據(jù)-CSV文件格式
數(shù)據(jù)以兩種常見格式存儲： CSV 和 JSON comma-separated values 0 USW00025333 1 SITKA AIRPORT, AK US 2 2018-01-01 3 0.45 4 5 48 6 38 csv.reader() ：將前面存儲的文件對象作為實(shí)參傳遞給它，創(chuàng)建一個與該文件相關(guān)聯(lián)的閱讀器對象 next() 返回文件中的下一行第一次調(diào)用該函數(shù)，返回第一行，依次增加
2024年02月10日
瀏覽(26)
python的小技巧
type() 函數(shù)只接受一個參數(shù) 【1】前提元素個數(shù)和取出的存放要一致元素個數(shù)！=存放個數(shù)就需要拆包在從序列元素中獲取元素時，只能使用一個單星號語法，用于解包可迭代對象中剩余的元素。【2】拆包為參數(shù) *在Python中被稱為unpacking操作符，用于將一個可迭代對象
2024年02月05日
瀏覽(14)
Python 將CSV文件數(shù)據(jù)存入Mysql數(shù)據(jù)庫
我們有一個名為student.csv的文件，里面包含有學(xué)生的學(xué)號、姓名、性別等信息，想要基于Python將CSV文件中的信息寫入MySQL數(shù)據(jù)庫的student_info表中。下面給出具體實(shí)現(xiàn)代碼。首先引入所需要的庫。 1、get_data函數(shù)打開文件csv文件，通過open方法打開文件（python文件實(shí)現(xiàn)了迭代器協(xié)
2024年02月11日
瀏覽(14)

<strike id="44tz6"></strike>

<strike id="44tz6"></strike>

<dfn id="44tz6"><mark id="44tz6"></mark></dfn>