python導(dǎo)出數(shù)據(jù)為parquet格式

2年前作者：國(guó)強(qiáng)_dev分類：Toy博客閱讀(17)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了python導(dǎo)出數(shù)據(jù)為parquet格式。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

import duckdb
import pandas as pd
from sqlalchemy import create_engine

# 定義連接到您的 MySQL 或 PostgreSQL 數(shù)據(jù)庫(kù)的參數(shù)
db_type = 'mysql' ?# 或 'postgresql'
user = 'your_username'
password = 'your_password'
host = 'your_host'
port = 'your_port'
database = 'your_database'
table_name = 'your_table'

# 創(chuàng)建 SQLAlchemy 引擎
if db_type == 'mysql':
? ? engine = create_engine(f'mysql+pymysql://{user}:{password}@{host}:{port}/{database}')
else: ?# postgresql
? ? engine = create_engine(f'postgresql+psycopg2://{user}:{password}@{host}:{port}/{database}')

# 從 MySQL/PostgreSQL 讀取數(shù)據(jù)
with engine.connect() as conn:
? ? query = f'SELECT * FROM {table_name}'
? ? df = pd.read_sql(query, conn)

# 使用 DuckDB
con = duckdb.connect(database=':memory:')
con.execute(f'CREATE TABLE {table_name} AS SELECT * FROM df')
con.execute(f'COPY {table_name} TO \'output.parquet\' (FORMAT \'parquet\')')

print("數(shù)據(jù)已成功導(dǎo)出為 Parquet 格式")
?文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-822535.html

到了這里，關(guān)于python導(dǎo)出數(shù)據(jù)為parquet格式的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

用sqoop導(dǎo)出hive parquet 分區(qū)表到mysql
確保你已經(jīng)安裝并配置好了Sqoop工具，并且可以連接到Hadoop集群和MySQL數(shù)據(jù)庫(kù)。創(chuàng)建一個(gè)MySQL表來(lái)存儲(chǔ)導(dǎo)出的數(shù)據(jù)。請(qǐng)確保MySQL表的結(jié)構(gòu)與Hive Parquet分區(qū)表的結(jié)構(gòu)匹配。使用Sqoop的export命令來(lái)執(zhí)行導(dǎo)出操作。以下是一個(gè)示例命令：替換 mysql_host、database_name、mysql_username 和 mysq
2024年02月14日
瀏覽(18)
hive文件存儲(chǔ)格式orc和parquet詳解
hive支持的文件類型：textfile、sequencefile（二進(jìn)制序列化文件）、rcfile（行列式文件）、parquet、orcfile（優(yōu)化的行列式文件）帶有描述式的行列式存儲(chǔ)文件。將數(shù)據(jù)分組切分，一組包含很多行，每一行再按例進(jìn)行存儲(chǔ)。 orc文件結(jié)合了行式和列式存儲(chǔ)結(jié)構(gòu)的優(yōu)點(diǎn)，在有大數(shù)據(jù)量掃
2024年02月03日
瀏覽(37)
在Hive/Spark上執(zhí)行TPC-DS基準(zhǔn)測(cè)試 (PARQUET格式）
在上一篇文章：《在Hive/Spark上運(yùn)行執(zhí)行TPC-DS基準(zhǔn)測(cè)試 (ORC和TEXT格式）》中，我們介紹了如何使用 hive-testbench 在Hive/Spark上執(zhí)行TPC-DS基準(zhǔn)測(cè)試，同時(shí)也指出了該項(xiàng)目不支持parquet格式。如果我們想要生成parquet格式的測(cè)試數(shù)據(jù)，就需要使用其他工具了。本文選擇使用另外一個(gè)開(kāi)源
2024年02月12日
瀏覽(43)
ERP導(dǎo)出（自定義格式表格）R報(bào)表開(kāi)發(fā)代碼
按照正常流程新建程序，畫(huà)面修改上傳，程序下載修改導(dǎo)入JAVA包，在global.import下 ? ? 在global.variable下添加全局變量 ? ? 在DIALOG?ATTRIBUTES下添加查詢欄位邏輯 ? ? 在process下的process.count_progress下添加調(diào)用方法邏輯 ? ? 寫(xiě)自己的方法，供上面調(diào)用 ?
2024年02月12日
瀏覽(24)
Python 如何將運(yùn)行結(jié)果導(dǎo)出為 CSV 格式?
在 Python 中,我們常常會(huì)遇到需要將運(yùn)行結(jié)果以 CSV 格式導(dǎo)出以供其他語(yǔ)言或工具使用的情況。本文將介紹如何使用 Python 將結(jié)果導(dǎo)出為 CSV 格式的兩種主要方法。 csv 模塊是 Python 自帶的用于讀寫(xiě) CSV 文件的模塊。我們可以這樣使用它導(dǎo)出 CSV: 這會(huì)生成如下 data.csv 文件: 如果我們
2024年02月12日
瀏覽(17)
dbeaver導(dǎo)出數(shù)據(jù)為excel格式
dbeaver導(dǎo)出excel 目前數(shù)據(jù)的可選擇只有這幾種恰好沒(méi)有我們需要的excel模式,而我們需要數(shù)據(jù)一般都需要excel的所以我們可以通過(guò)以下步驟得到我們的excel格式的數(shù)據(jù)集: 1.直接選csv模式,至于csv有陌生的小伙伴可以理解:CSV（Comma-Separated Values）是一種簡(jiǎn)單的文本文件格式，用于存
2024年01月17日
瀏覽(17)
poi實(shí)現(xiàn)excel文件導(dǎo)入導(dǎo)出(基本數(shù)據(jù)導(dǎo)出、含格式導(dǎo)出、含批注導(dǎo)出、含圖片圖表導(dǎo)出)——springboot
本文主要是介紹springboot + poi實(shí)現(xiàn)基本的excel文件導(dǎo)入導(dǎo)出，包含數(shù)據(jù)導(dǎo)出導(dǎo)入時(shí)數(shù)據(jù)的其他需求校驗(yàn)，導(dǎo)出含有批注信息、導(dǎo)出含有圖片信息、導(dǎo)出含有圖表信息等的介紹等等，主要是一個(gè)demo盡可能簡(jiǎn)單明了的來(lái)介紹相關(guān)功能即可。有什么問(wèn)題可以在留言哦！并在文章末尾附
2024年02月08日
瀏覽(29)
【python】pyarrow.parquet+pandas：讀取及使用parquet文件
??Parquet是一種用于列式存儲(chǔ) 和壓縮數(shù)據(jù) 的文件格式，廣泛應(yīng)用于大數(shù)據(jù)處理和分析中。Python提供了多個(gè)庫(kù)來(lái)處理Parquet文件，例如pyarrow和fastparquet。 ??本文將介紹如何使用pyarrow.parquet+pandas庫(kù)操作Parquet文件。 ?? pyarrow.parquet 模塊，可以讀取和寫(xiě)入Parquet文件，以及進(jìn)行
2024年02月21日
瀏覽(23)
Java使用poi導(dǎo)出excel針對(duì)不同數(shù)據(jù)列配置設(shè)置不同單元格格式(適用于通用導(dǎo)出excel數(shù)據(jù))
公司大部分業(yè)務(wù)都是查詢相關(guān)的業(yè)務(wù), 所以建了一個(gè)項(xiàng)目專門(mén)做數(shù)據(jù)查詢, 數(shù)據(jù)中轉(zhuǎn)等抽象通用的業(yè)務(wù), 有一天給我安排了一個(gè)功能, 做excel導(dǎo)出, 配置好查詢sql和表頭字段映射后即可導(dǎo)出excel, 無(wú)需修改代碼后來(lái)因?yàn)閷?dǎo)出數(shù)據(jù)要求保留幾位小數(shù)或者轉(zhuǎn)換成百分比等設(shè)置單元格格
2024年02月07日
瀏覽(26)
beeline連接hive的導(dǎo)出數(shù)據(jù)格式的參數(shù)及設(shè)置
參考語(yǔ)句參數(shù)說(shuō)明參數(shù) 說(shuō)明 –incremental=[true/false] 從Hive 2.3版本往后默認(rèn)是true，在它之前是默認(rèn)為false。當(dāng)設(shè)置為false時(shí)，為了最佳的展示列寬，完整的結(jié)果集會(huì)在展示之前被收集然后緩存起來(lái)。當(dāng)設(shè)置為true時(shí)，結(jié)果集一旦被抓取到就會(huì)立即展示，為了在展示列的填充額外
2024年02月07日
瀏覽(19)