2023年美國(guó)大學(xué)生數(shù)學(xué)建模競(jìng)賽
C題 預(yù)測(cè)Wordle的結(jié)果
原題再現(xiàn):
??背景介紹
??Wordle是紐約時(shí)報(bào)目前每天提供的一個(gè)流行謎題。玩家通過(guò)在六次或更短時(shí)間內(nèi)猜出一個(gè)至五個(gè)字母的單詞來(lái)解決這個(gè)謎題,每次猜測(cè)都會(huì)得到反饋。在這個(gè)版本中, 每個(gè)猜測(cè)必須是一個(gè)實(shí)際的英文單詞。不允許猜測(cè)不被比賽認(rèn)可的單詞。Wordle繼續(xù)受到歡迎,該游戲現(xiàn)在有60多種語(yǔ)言的版本。
??紐約時(shí)報(bào)》網(wǎng)站矢于Wordle的說(shuō)明指出,在你提交你的單詞后,瓷磚的顏色會(huì)改變。黃色的瓷磚表示該瓷磚中的字母在單詞中,但它的位置不對(duì)。綠色瓷磚表示該瓷磚中的字母在單詞中,并且在正確的位置?;疑呐票硎驹撆浦械淖帜父静辉谶@個(gè)詞中( 見(jiàn)附件2) 2。圖1是一個(gè)解決方案的例子,其中正確的結(jié)果是在三次嘗試中找到的。
??玩家可以在普通模式或"困難模式"下進(jìn)行游戲。Wordle的"困難模式"使游戲更加困難,它要求玩家一旦在一個(gè)詞中找到一個(gè)正確的字母(瓷磚是黃色或綠色的),這些字母必須在隨后的猜測(cè)中使用。圖1中的例子是在困難模式下進(jìn)行的。
??許多( 但不是所有)用戶在Twitter.上報(bào)告他們的分?jǐn)?shù)。針對(duì)這個(gè)問(wèn)題,MCM生成了一個(gè)2022年1月7日至12月31日的每日結(jié)果文件(見(jiàn)附件1)。這個(gè)文件包括日期、競(jìng)賽編號(hào)、當(dāng)天的單詞、當(dāng)天報(bào)告分?jǐn)?shù)的人數(shù)、使用困難模式的玩家人數(shù),以及在一次、兩次、三次、四次、五次、六次中猜中單詞或無(wú)法解出謎題的百分比(用X表示)。例如,在圖2中,2022年7月20日的單詞是"TRITE",其結(jié)果是通過(guò)挖掘Twitter得到的。盡管圖2中的百分比之和為100%,但在某些情況下,由于四舍五入,這可能不是真的。
??《紐約時(shí)報(bào)》要求你對(duì)這份文件中的結(jié)果做-一個(gè)分析,以回答幾個(gè)問(wèn)題。報(bào)告結(jié)果的數(shù)量每天都在變化。建立一個(gè)模型來(lái)解釋這種變化,并使用你的模型為2023年3月1日的報(bào)告結(jié)果數(shù)量建立-一個(gè)預(yù)測(cè)區(qū)間。詞語(yǔ)的任何屬性是否影響到報(bào)告的在困難模式下進(jìn)行的分?jǐn)?shù)的百分比?如果是,如何影響?如果沒(méi)有,為什么沒(méi)有?
??對(duì)于一個(gè)給定的未來(lái)日期的解字,建立一個(gè)模型,使你能預(yù)測(cè)報(bào)告結(jié)果的分布。換句話說(shuō),預(yù)測(cè)未來(lái)某一天的(1、 2、3、4、5、6、X)的相關(guān)百分比。你的模型和預(yù)測(cè)有哪些不確定因素?請(qǐng)舉一個(gè)具體的例子,說(shuō)明你對(duì)2023年3月1日EERIE這個(gè)詞的預(yù)測(cè)。你對(duì)你的模型的預(yù)測(cè)有多大信心?
??開(kāi)發(fā)并總結(jié)一個(gè)模型,按難度對(duì)題司[進(jìn)分類。找出與每個(gè)分類相的給定單詞的屬性。使用你的模型,EERIE這個(gè)詞的難度如何?討論一下你的分類模型的準(zhǔn)確性。
??列出并描述這個(gè)數(shù)據(jù)集的一些其他有趣的特征。
??最后,在寫給《紐約時(shí)報(bào)》謎題編輯的一到兩頁(yè)的信中總結(jié)你的成果。
整體求解過(guò)程概述(摘要)
??Wordle是紐約時(shí)報(bào)每天更新的猜謎游戲。本文研究了游戲中不同組合結(jié)構(gòu)的詞情與猜詞數(shù)量的關(guān)系,建立了基于時(shí)間和報(bào)告數(shù)的非平穩(wěn)時(shí)間序列周期差分運(yùn)算(ARIMA)模型、基于詞頻難度的套索模型和樸素貝葉斯分類預(yù)測(cè)模型。
??對(duì)于問(wèn)題1,我們首先繪制了時(shí)間與報(bào)告結(jié)果數(shù)量的堆疊面積圖,發(fā)現(xiàn)報(bào)告結(jié)果的數(shù)量在不同時(shí)間段存在顯著差異。其次,根據(jù)單詞字母的組成結(jié)構(gòu),劃分不同單詞的屬性,由于重復(fù)元素的出現(xiàn),增加了困難模式的玩家數(shù)量。報(bào)告的結(jié)果數(shù)量在不同的時(shí)間段內(nèi)波動(dòng)很大。根據(jù)基于時(shí)間和我們建立的報(bào)告結(jié)果數(shù)量的非平穩(wěn)時(shí)間序列的ARIMA(自回歸積分移動(dòng)平均)模型,2023年3月1日處于困難模式的玩家數(shù)量的報(bào)告結(jié)果范圍。報(bào)告的結(jié)果將達(dá)到 17400 和 19780 之間,置信度為 95%。
??針對(duì)問(wèn)題2,基于問(wèn)題1得到的詞屬性因子,根據(jù)詞的元素是否重復(fù)、詞的元素是否相鄰,構(gòu)建樸素貝葉斯詞頻分類模型。通過(guò)對(duì)第一次、兩次、三次、四次、五次、六次解謎的人數(shù)以及無(wú)法解謎的人數(shù)進(jìn)行描述性統(tǒng)計(jì)分析和相關(guān)性分析,結(jié)合樸素貝葉斯模型求解結(jié)果,得出1月2023日“詭異”一詞的預(yù)測(cè)結(jié)果, 獲得0年,即第一次、第二次、第三次、第四次、第五次、第六次解謎的人中無(wú)法解謎的比例分別為2%、6%、15%、26%、38%、16%和10%。
??對(duì)于問(wèn)題3,我們制定了詞難度規(guī)則,根據(jù)規(guī)則建立了決策樹(shù)模型,并采用詞頻分類法對(duì)原始數(shù)據(jù)進(jìn)行分析。最后,我們得出結(jié)論,“怪異”是第七個(gè)難度,屬于“aabca”的形式。詞中元素是否重復(fù)以外的因素根據(jù)詞的組成結(jié)構(gòu)確定,詞的重復(fù)要素根據(jù)它們是否相鄰進(jìn)行劃分,這樣分類結(jié)果合理。其次,進(jìn)行敏感性分析。從敏感性分析的結(jié)果中,我們可以得出以下結(jié)論:模型原始數(shù)據(jù)的準(zhǔn)確率為98%。更改重復(fù)元素的數(shù)量會(huì)降低分類預(yù)測(cè)模型的準(zhǔn)確性,但仍超過(guò) 85%。總的來(lái)說(shuō),該模型相對(duì)穩(wěn)定和準(zhǔn)確。
??對(duì)于問(wèn)題4,根據(jù)單詞的含義和第N次猜謎語(yǔ)的人數(shù)比例(N=1,2,3,4,5,6)和未猜謎語(yǔ)的人數(shù)比例,通過(guò)相關(guān)統(tǒng)計(jì)分析獲得一些單詞的有趣特征。
??此外,根據(jù)團(tuán)隊(duì)的研究結(jié)果,我們給《紐約時(shí)報(bào)》的益智編輯寫了一封信。
模型假設(shè):
??為了簡(jiǎn)化我們的模型并降低復(fù)雜性,我們?cè)诒疚闹羞M(jìn)行了以下主要假設(shè)。一旦所有假設(shè)用于構(gòu)建我們的模型,它們將被重新強(qiáng)調(diào):
??1.每個(gè)玩家在玩游戲時(shí)不受外界環(huán)境的影響,通過(guò)互聯(lián)網(wǎng)或其他方式事先不知道答案。
??理由:基于這一假設(shè),我們能夠充分利用所提供的數(shù)據(jù)集并確保數(shù)據(jù)的獨(dú)立性。這減少了影響游戲結(jié)果的因素,并使結(jié)果更具可解釋性和可靠性。
??2.對(duì)于給定數(shù)據(jù)集中的異常值,我們可以通過(guò)收集信息來(lái)糾正它們,從而使結(jié)果更加準(zhǔn)確。
??理由:異常值通常是由意外情況引起的,這可能會(huì)影響我們的結(jié)果。但是,通過(guò)平滑或在線收集信息來(lái)查看相關(guān)信息,我們可以獲得接近現(xiàn)實(shí)的數(shù)據(jù),從而減少對(duì)后續(xù)分析的影響。
??3.使用的數(shù)據(jù)集代表了所有玩家的水平和所有單詞的難度。
??理由:數(shù)據(jù)集是從大多數(shù)玩家那里生成的,這是全面和有代表性的。
問(wèn)題重述:
??任務(wù) 1
??我們需要建立一個(gè)模型來(lái)表達(dá)和解釋報(bào)告計(jì)數(shù)的每日變化,并使用該模型預(yù)測(cè) 2023 3月1 日的預(yù)測(cè)范圍。然后我們被要求討論單詞的屬性是否對(duì)困難模式下的分?jǐn)?shù)百分比有影響。
??任務(wù) 2
??我們被要求建立一個(gè)模型來(lái)預(yù)測(cè)報(bào)告結(jié)果的分布,給定一個(gè)未來(lái)的日期和一個(gè)單詞作為參數(shù)。該模型中存在許多不確定因素。預(yù)測(cè) 1 年 2023 月 3月1日的單詞“EERIE”,并確定模型預(yù)測(cè)的置信度。
??任務(wù) 3
??該任務(wù)要求我們總結(jié)一個(gè)模型來(lái)對(duì)單詞的難度進(jìn)行分類,定義每個(gè)類別,然后討論單詞 EERIE 的難度,以及模型的準(zhǔn)確性。
??任務(wù) 4
??第四個(gè)問(wèn)題要求我們使用先前建立的模型來(lái)列出數(shù)據(jù)的其他有趣特征,并討論模型的準(zhǔn)確性。
??任務(wù) 5
??第五個(gè)問(wèn)題要求我們給《紐約時(shí)報(bào)》寫一封信,總結(jié)所獲得的結(jié)果。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-448135.html
模型的建立與求解整體論文縮略圖
文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-448135.html
全部論文請(qǐng)見(jiàn)下方“ 只會(huì)建模 QQ名片” 點(diǎn)擊QQ名片即可
部分程序代碼:(代碼和文檔not free)
import pandas as pd
df = pd.read_excel("Problem_C_Data_Wordle2.xlsx",
sheet_name="Sheet2",index_col='Date', dtype={'value': float})
import pandas as pd
from statsmodels.graphics.tsaplots import plot_acf
import pylab as plt
from statsmodels.tsa.arima_model import ARIMA
plt.rc('axes',unicode_minus=False)
plt.rc('font',size=16); plt.rc('font',family='SimHei')
plt.subplot(121); plt.plot(df.value.diff())
plt.title('一次差分')
ax2=plt.subplot(122)
plot_acf(df.value.diff().dropna(), ax=ax2,title='自相關(guān)')
#df.index = df.index.to_timestamp()
#df.index = pd.DatetimeIndex(df.index)
#df.index=df.Date
md=ARIMA(df.value, order=(3,1,0))
mdf=md.fit(disp=0)
print(mdf.summary())
residuals = pd.DataFrame(mdf.resid)
fig, ax = plt.subplots(1,2)
residuals.plot(title="殘差", ax=ax[0])
residuals.plot(kind='kde', title='密度', ax=ax[1])
plt.legend(''); plt.ylabel('')
mdf.plot_predict() #原始數(shù)據(jù)與預(yù)測(cè)值對(duì)比圖
plt.show()
forecast_data = mdf.forecast(70)
forecast_data
#無(wú)重復(fù)字母
import ggplot as gp
import matplotlib as plt
plt.rcParams['font.family'] = ['sans-serif']
plt.rcParams['font.sans-serif'] = ['SimHei']
#rcParams解決的是中文標(biāo)簽的問(wèn)題
print(gp.ggplot(gp.aes(x='Date',y='Number in hard
mode'),data=df11)+gp.geom_point(color='red'))
全部論文請(qǐng)見(jiàn)下方“ 只會(huì)建模 QQ名片” 點(diǎn)擊QQ名片即可
到了這里,關(guān)于2023年美國(guó)大學(xué)生數(shù)學(xué)建模競(jìng)賽C題預(yù)測(cè)Wordle的結(jié)果解題全過(guò)程文檔及程序的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!