国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Python處理大數(shù)據(jù)——csv文件類型的小技巧

這篇具有很好參考價值的文章主要介紹了Python處理大數(shù)據(jù)——csv文件類型的小技巧。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報違法"按鈕提交疑問。

當(dāng)我們遇到一個超大的csv數(shù)據(jù)文件的時候,雙擊打開是不現(xiàn)實(shí)的。即使打開csv,只能看到104萬行的數(shù)據(jù),后面都是隱藏的,所以打開也是沒有意義的。如果不打開,又無法查看到表的數(shù)據(jù)結(jié)構(gòu),就無法進(jìn)行下一步的工作,比如數(shù)據(jù)篩選。

csv可以用來處理可變長的數(shù)據(jù)嗎,python,大數(shù)據(jù),開發(fā)語言

一、大數(shù)據(jù)處理工具

對于超百萬行,甚至更大的數(shù)據(jù),我推薦以下幾種工具:

1、Python:pandas在升級為2.0版本之后,對csv處理速度更快了。以前被人詬病的慢有所改進(jìn),可以作為首選。

2、SQL或者Access,SQL可視化好,可以清楚地看到數(shù)據(jù)結(jié)構(gòu)與內(nèi)容,速度也非???,但需要簡單學(xué)習(xí)一下SQL語言。

3、power query,excel自帶工具,簡單快捷,不需要額外生產(chǎn)力。但用起來處理數(shù)據(jù)的感覺有些吃力,不如前兩個。

二、Python處理大數(shù)據(jù)技巧

1、讀取時不要輕易使用encoding參數(shù)

此參數(shù)對應(yīng)兩個常用值,gbk、utf-8,對應(yīng)下面截圖中兩種格式,如果格式不對會報錯誤。意思為:'gbk’編解碼器無法解碼位置2中的字節(jié)0xbf:非法的多字節(jié)序列。

csv可以用來處理可變長的數(shù)據(jù)嗎,python,大數(shù)據(jù),開發(fā)語言

如果是普通數(shù)據(jù)量較小的表格,可以直接調(diào)用參數(shù),如果表格很大,打不開的情況下,更別說改完格式另存為了,所以盡量先不填此參數(shù)(但一般默認(rèn)都是gbk)

csv可以用來處理可變長的數(shù)據(jù)嗎,python,大數(shù)據(jù),開發(fā)語言

2、異形表頭

在沒有打開表的情況下,我們無法得知表格是否為真正的二維表格,例如下面這種情況,讀取會報錯,意思是識別到第七行有21列。

csv可以用來處理可變長的數(shù)據(jù)嗎,python,大數(shù)據(jù),開發(fā)語言因?yàn)楫?dāng)讀取到第四行和第五行的時候,會默認(rèn)只有一列表格,而到第7行的時候,卻又變成了21列,故pandas判斷這不是一個正常二維數(shù)據(jù)結(jié)構(gòu)。

csv可以用來處理可變長的數(shù)據(jù)嗎,python,大數(shù)據(jù),開發(fā)語言

為了避免此種情況。要利用讀取數(shù)據(jù)的參數(shù)delimiter=“\t”,這樣數(shù)據(jù)就被強(qiáng)制轉(zhuǎn)換成一列了,你就能看到你想要讀取的數(shù)據(jù)在第幾列了,再將此參數(shù)刪掉,再用參數(shù)header=2就可以搞定了。

data = pd.read_csv(r"C:\Users\ZWD\Desktop\測試\示例.csv",dtype_backend="pyarrow",``delimiter="\t")

csv可以用來處理可變長的數(shù)據(jù)嗎,python,大數(shù)據(jù),開發(fā)語言

綜上所述:完整代碼如下

   ``data = pd.read_csv(file,dtype_backend="pyarrow",header=2)``print(data.head(10))

csv可以用來處理可變長的數(shù)據(jù)嗎,python,大數(shù)據(jù),開發(fā)語言

三、內(nèi)存溢出

當(dāng)讀取特別大的表時,會提示內(nèi)存溢出的問題,csv格式較少遇到,xlsx格式可能較多,可以使用下面的方法進(jìn)行嘗試。

1. 分塊讀取文件

我們可以將文件分成多個塊,逐塊讀取,避免加載整個文件。例如:

chunksize = 100000``for df in pd.read_excel(filez,sheet_name=sheet,chunksize=chunksize)``# 對分塊進(jìn)行處理

2. 指定行數(shù)范圍讀取

可以只讀取文件的某些行,避免讀取不需要的行。例如:

df = pd.read_excel(file,sheet_name=sheet,skiprows=100000,nrows=100000)`  `# 跳過前10萬行,讀取50萬行

3. 選擇需要的列讀取

通過usecols參數(shù)只選擇需要的列,避免讀取無用的數(shù)據(jù)列。

df = pd.read_excel(file,sheet_name=sheet,usecols=["col1","col2","col3"])``# 讀取想要阿列
---------------------------END---------------------------

題外話

csv可以用來處理可變長的數(shù)據(jù)嗎,python,大數(shù)據(jù),開發(fā)語言

感興趣的小伙伴,贈送全套Python學(xué)習(xí)資料,包含面試題、簡歷資料等具體看下方。

??CSDN大禮包??:全網(wǎng)最全《Python學(xué)習(xí)資料》免費(fèi)贈送??!(安全鏈接,放心點(diǎn)擊)

一、Python所有方向的學(xué)習(xí)路線

Python所有方向的技術(shù)點(diǎn)做的整理,形成各個領(lǐng)域的知識點(diǎn)匯總,它的用處就在于,你可以按照下面的知識點(diǎn)去找對應(yīng)的學(xué)習(xí)資源,保證自己學(xué)得較為全面。

csv可以用來處理可變長的數(shù)據(jù)嗎,python,大數(shù)據(jù),開發(fā)語言
csv可以用來處理可變長的數(shù)據(jù)嗎,python,大數(shù)據(jù),開發(fā)語言

二、Python必備開發(fā)工具

工具都幫大家整理好了,安裝就可直接上手!csv可以用來處理可變長的數(shù)據(jù)嗎,python,大數(shù)據(jù),開發(fā)語言

三、最新Python學(xué)習(xí)筆記

當(dāng)我學(xué)到一定基礎(chǔ),有自己的理解能力的時候,會去閱讀一些前輩整理的書籍或者手寫的筆記資料,這些筆記詳細(xì)記載了他們對一些技術(shù)點(diǎn)的理解,這些理解是比較獨(dú)到,可以學(xué)到不一樣的思路。

csv可以用來處理可變長的數(shù)據(jù)嗎,python,大數(shù)據(jù),開發(fā)語言

四、Python視頻合集

觀看全面零基礎(chǔ)學(xué)習(xí)視頻,看視頻學(xué)習(xí)是最快捷也是最有效果的方式,跟著視頻中老師的思路,從基礎(chǔ)到深入,還是很容易入門的。

csv可以用來處理可變長的數(shù)據(jù)嗎,python,大數(shù)據(jù),開發(fā)語言

五、實(shí)戰(zhàn)案例

紙上得來終覺淺,要學(xué)會跟著視頻一起敲,要動手實(shí)操,才能將自己的所學(xué)運(yùn)用到實(shí)際當(dāng)中去,這時候可以搞點(diǎn)實(shí)戰(zhàn)案例來學(xué)習(xí)。

csv可以用來處理可變長的數(shù)據(jù)嗎,python,大數(shù)據(jù),開發(fā)語言

六、面試寶典

csv可以用來處理可變長的數(shù)據(jù)嗎,python,大數(shù)據(jù),開發(fā)語言

csv可以用來處理可變長的數(shù)據(jù)嗎,python,大數(shù)據(jù),開發(fā)語言

簡歷模板csv可以用來處理可變長的數(shù)據(jù)嗎,python,大數(shù)據(jù),開發(fā)語言

??CSDN大禮包??:全網(wǎng)最全《Python學(xué)習(xí)資料》免費(fèi)贈送??!(安全鏈接,放心點(diǎn)擊)

若有侵權(quán),請聯(lián)系刪除文章來源地址http://www.zghlxwxcb.cn/news/detail-839827.html

到了這里,關(guān)于Python處理大數(shù)據(jù)——csv文件類型的小技巧的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【辦公自動化】使用Python批量處理Excel文件并轉(zhuǎn)為csv文件

    【辦公自動化】使用Python批量處理Excel文件并轉(zhuǎn)為csv文件

    ???♂? 個人主頁:@艾派森的個人主頁 ???作者簡介:Python學(xué)習(xí)者 ?? 希望大家多多支持,我們一起進(jìn)步!?? 如果文章對你有幫助的話, 歡迎評論 ??點(diǎn)贊???? 收藏 ??加關(guān)注+ 目錄 前言 一、Python處理Excel 二、批量處理Excel文件并轉(zhuǎn)為csv文件 三、往期推薦 ? ? ? ? ?

    2024年02月10日
    瀏覽(21)
  • 【100天精通python】Day27:文件與IO操作_CSV文件處理

    目錄 ?專欄導(dǎo)讀? ?1.?CSV文件格式簡介 2?csv模塊的使用方法 3 讀寫CSV文件的示例

    2024年02月14日
    瀏覽(20)
  • Python中對CSV數(shù)據(jù)預(yù)處理

    CSV(Comma Separated Values)是一種常用的數(shù)據(jù)格式,它是以逗號作為分隔符的純文本文件,通常用于存儲大量的數(shù)據(jù)。在數(shù)據(jù)分析和機(jī)器學(xué)習(xí)領(lǐng)域,CSV數(shù)據(jù)預(yù)處理是一個必不可少的步驟。在本篇博客中,我們將介紹Python中對CSV數(shù)據(jù)預(yù)處理的所有步驟。 在Python中,我們可以使用

    2024年02月10日
    瀏覽(23)
  • 【數(shù)據(jù)處理】Pandas讀取CSV文件示例及常用方法(入門)

    【數(shù)據(jù)處理】Pandas讀取CSV文件示例及常用方法(入門)

    查看讀取前10行數(shù)據(jù) 2067 向前填充 指定列的插值填充 使用某數(shù)據(jù)填充指定列的空值 示例: 類似切片 array([‘SE’, ‘cv’, ‘NW’, ‘NE’], dtype=object) 類似數(shù)據(jù)庫查詢中的groupby查詢 先添加新的一列按月將數(shù)據(jù)劃分 聚合,對指定的列按月劃分求平均值等 min 最小值 max 最大值 sum

    2024年02月06日
    瀏覽(1673)
  • Python中導(dǎo)入csv文件數(shù)據(jù)

    Python中的csv模塊是一種用于讀取和寫入csv文件的模塊,csv可以用于將數(shù)據(jù)從文件或者其他來源導(dǎo)入到Python中進(jìn)行分析和處理。在這篇文章中,我們將全面介紹Python中如何導(dǎo)入csv文件,并將從多個方面進(jìn)行詳細(xì)探討,包括讀取和寫入csv文件、處理csv文件中的缺失值和特殊字符,

    2024年02月05日
    瀏覽(20)
  • 【Python】python把數(shù)據(jù)轉(zhuǎn)換為csv文件

    目錄 python把數(shù)據(jù)轉(zhuǎn)換為csv文件 python把數(shù)據(jù)轉(zhuǎn)換為txt文件 將數(shù)據(jù)轉(zhuǎn)換為CSV格式文件可以使用Python內(nèi)置的csv模塊進(jìn)行操作,以下是一段簡單的示例代碼:

    2024年02月16日
    瀏覽(17)
  • python爬蟲——保存數(shù)據(jù)為.csv文件

    python爬蟲——保存數(shù)據(jù)為.csv文件

    1、導(dǎo)包 2、創(chuàng)建或打開文件,設(shè)置文件形式 3、設(shè)置列名 4、創(chuàng)建DictWriter對象 5、寫入表頭 6、數(shù)據(jù)寫入 使用writerow方法寫入行數(shù)據(jù) ? ? ? ?

    2024年02月11日
    瀏覽(91)
  • python-數(shù)據(jù)可視化-下載數(shù)據(jù)-CSV文件格式

    python-數(shù)據(jù)可視化-下載數(shù)據(jù)-CSV文件格式

    數(shù)據(jù)以兩種常見格式存儲: CSV 和 JSON comma-separated values 0 USW00025333 1 SITKA AIRPORT, AK US 2 2018-01-01 3 0.45 4 5 48 6 38 csv.reader() :將前面存儲的文件對象作為實(shí)參傳遞給它,創(chuàng)建一個與該文件相關(guān)聯(lián)的閱讀器對象 next() 返回文件中的下一行 第一次調(diào)用該函數(shù),返回第一行,依次增加

    2024年02月10日
    瀏覽(26)
  • python的小技巧

    python的小技巧

    type() 函數(shù)只接受一個參數(shù) 【1】前提元素個數(shù)和取出的存放要一致 元素個數(shù)!=存放個數(shù)就需要拆包 在從序列元素中獲取元素時,只能使用一個單星號語法,用于解包可迭代對象中剩余的元素。 【2】 拆包為參數(shù) *在Python中被稱為unpacking操作符,用于將一個可迭代對象

    2024年02月05日
    瀏覽(14)
  • Python 將CSV文件數(shù)據(jù)存入Mysql數(shù)據(jù)庫

    Python 將CSV文件數(shù)據(jù)存入Mysql數(shù)據(jù)庫

    我們有一個名為student.csv的文件,里面包含有學(xué)生的學(xué)號、姓名、性別等信息,想要基于Python將CSV文件中的信息寫入MySQL數(shù)據(jù)庫的student_info表中。 下面給出具體實(shí)現(xiàn)代碼。 首先引入所需要的庫。 1、get_data函數(shù)打開文件csv文件, 通過open方法打開文件(python文件實(shí)現(xiàn)了迭代器協(xié)

    2024年02月11日
    瀏覽(14)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包