1.DrissionPage自動化Python爬蟲工具采集飛豬網(wǎng)機(jī)票航班數(shù)據(jù)約1-5萬條存入.csv文件作為數(shù)據(jù)集;
2.使用pandas+numpy或MapReduce對數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,生成最終的.csv文件并上傳到hdfs;
3.使用hive數(shù)倉技術(shù)建表建庫,導(dǎo)入.csv數(shù)據(jù)集;
4.離線分析采用hive_sql完成,實時分析利用Flink之Scala、FlinkSQL完成;
5.統(tǒng)計指標(biāo)使用sqoop導(dǎo)入mysql數(shù)據(jù)庫;
6.使用flask+echarts進(jìn)行可視化大屏幕炫酷展示;同時可以預(yù)測航班延誤、起飛架次?。。?/strong>
創(chuàng)新點(diǎn)/特色:
0.全新PyFlink而不是Flink!吊打一切!全網(wǎng)都沒啥教程!屬于最新最屌最流行!
1.DrissionPage自動化Python爬蟲工具,比傳統(tǒng)的selenium、requests強(qiáng)悍很多,7*24小時不間斷瘋狂爬取無壓力;
2.可視化炫酷大屏幕;
3.虛擬機(jī)顯擺敲命令碾壓答辯現(xiàn)場(市面上全是假算法假爬蟲假大數(shù)據(jù)都不帶用虛擬機(jī)的);
4.1000萬海量數(shù)據(jù)集;
5.Flink實時計算+Hive、Hadoop離線計算雙實現(xiàn)有效避免導(dǎo)師噴你;
注意:如果還被噴項目工作量簡單或者課設(shè)級別等理由不讓你過,直接1秒內(nèi)無縫對接選裝推薦系統(tǒng)、后臺管理、前臺系統(tǒng)、預(yù)測算法、知識圖譜等
## 可選裝項目模塊如下:
1.推薦系統(tǒng)(4種深度學(xué)習(xí)推薦算法 協(xié)同過濾基于用戶 基于物品 SVD神經(jīng)網(wǎng)絡(luò) MLP)。附帶AI、支付、短信、lstm情感分析。
2.預(yù)測系統(tǒng)(KNN CNN RNN卷積神經(jīng)預(yù)測 K-means 線性回歸)。
3.知識圖譜neo4j可視化關(guān)系網(wǎng)絡(luò)圖。
4.后臺管理系統(tǒng)。
1.注冊登錄,賬號密碼保存到數(shù)據(jù)庫中
2.首頁,用戶登錄之后會顯示一些關(guān)于航班延誤的介紹
3.展示航班信息,類似于一個表格的形式
4.數(shù)據(jù)可視化,多弄幾個頁面,要有各種各樣的圖表
5.留言,用戶可以在網(wǎng)頁上留言,留言也要保存到數(shù)據(jù)庫中
6.預(yù)測航班延誤的可能(決策樹算法),最好是選擇一個航班,然后告訴用戶是否可能延誤
7.管理(管理員,用戶),管理員可以查看用戶的信息
航班預(yù)測核心代碼如下:文章來源:http://www.zghlxwxcb.cn/news/detail-855276.html
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report
# 讀取航班數(shù)據(jù)集
flight_data = pd.read_csv('flight_data.csv')
# 數(shù)據(jù)預(yù)處理
# 假設(shè)數(shù)據(jù)集包含特征 'departure_delay', 'arrival_delay', 'airline', 'weather', 'weekend' 等
X = flight_data[['departure_delay', 'arrival_delay', 'airline', 'weather', 'weekend']]
y = flight_data['is_delayed'] # is_delayed 是目標(biāo)變量,表示航班是否延誤
# 將分類特征轉(zhuǎn)換為虛擬變量
X = pd.get_dummies(X, columns=['airline', 'weather'])
# 劃分訓(xùn)練集和測試集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 訓(xùn)練隨機(jī)森林分類器模型
rf_model = RandomForestClassifier(n_estimators=100, random_state=42)
rf_model.fit(X_train, y_train)
# 進(jìn)行預(yù)測
y_pred = rf_model.predict(X_test)
# 評估模型性能
accuracy = accuracy_score(y_test, y_pred)
print(f"模型準(zhǔn)確率: {accuracy}")
# 輸出分類報告
print(classification_report(y_test, y_pred))
?文章來源地址http://www.zghlxwxcb.cn/news/detail-855276.html
到了這里,關(guān)于大數(shù)據(jù)畢業(yè)設(shè)計PySpark+Hadoop航班延誤預(yù)測 航班可視化 機(jī)票可視化 機(jī)票爬蟲 航班大數(shù)據(jù) 機(jī)器學(xué)習(xí) 深度學(xué)習(xí) 人工智能 隨機(jī)森林樹 卷積神經(jīng)網(wǎng)絡(luò) 知識圖譜 大數(shù)據(jù)畢業(yè)設(shè)計 計算機(jī)畢業(yè)設(shè)計的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!