在本文中,您將找到我對人工智能和工作的最新研究的總結(jié)(探索人工智能對生產(chǎn)力的影響,同時開啟對長期影響的討論),一個準(zhǔn)實(shí)驗(yàn)方法的示例(通過 ChatGPT 和 Stack Overflow 進(jìn)行說明,了解如何使用簡單的 SQL 查詢從 Stack Overflow 中提取數(shù)據(jù)。
作為與大多數(shù)技術(shù)革命一樣,ChatGPT 的發(fā)布伴隨著新奇和革命性的創(chuàng)新。一方面,在短短兩個月內(nèi),該應(yīng)用程序就擁有 1 億月活躍用戶,打破了歷史上增長最快的消費(fèi)者應(yīng)用程序的記錄。另一方面,高盛的一份報告聲稱,此類技術(shù)可能會取代全球超過 3 億個工作崗位。此外,埃隆·馬斯克 (Elon Musk) 與 1,000 多名技術(shù)領(lǐng)導(dǎo)者和研究人員簽署了一封公開信,敦促暫停最先進(jìn)的人工智能開發(fā) 。
“我們只能看到前方很短的距離,但我們可以看到很多需要做的事情?!卑瑐悺D靈
根據(jù)艾倫·圖靈的引言,本文并不試圖預(yù)測人工智能的遙遠(yuǎn)未來及其影響。然而,我關(guān)注的是影響我們的主要可觀察后果之一:人工智能如何改變我們的編碼方式。
ChatGPT 的誕生改變了世界。至少,作為一個每天都編碼的人,我的世界一夜之間就改變了。我不必花幾個小時在 Google 上尋找正確的解決方案,也不必在 Stack Overflow 上深入研究答案,并使用正確的變量名稱和矩陣維度將解決方案轉(zhuǎn)化為我的確切問題,我可以直接詢問 ChatGPT。ChatGPT不僅會在眨眼之間給我答案,而且答案會適合我的具體情況(例如正確的名稱、數(shù)據(jù)幀尺寸、變量類型等)。我大吃一驚,我的工作效率突然飆升。
因此,我決定探索 ChatGPT 發(fā)布的大規(guī)模影響及其對生產(chǎn)力以及最終對我們工作方式的潛在影響。我定義了三個假設(shè) (Hs),并使用 Stack Overflow 數(shù)據(jù)進(jìn)行了測試。
H1:ChatGPT 減少了 Stack Overflow 上提出的問題數(shù)量。如果 ChatGPT 可以在幾秒鐘內(nèi)解決編碼問題,那么我們可以預(yù)期編碼社區(qū)平臺上的問題會減少,因?yàn)樘岢鰡栴}和獲得答案需要時間。
H2:ChatGPT 提高了所提問題的質(zhì)量。如果 ChatGPT 被大量使用,那么 Stack Overflow 上的剩余問題必須得到更好的記錄,因?yàn)?ChatGPT 可能已經(jīng)有所幫助。
H3:剩下的問題更加復(fù)雜。我們可以預(yù)期剩下的問題更具挑戰(zhàn)性,因?yàn)?ChatGPT 可能無法回答這些問題。因此,為了測試這一點(diǎn),我們正在測試未回答問題的比例是否增加。此外,我還測試每個問題的瀏覽量是否發(fā)生變化。如果每個問題的瀏覽量保持穩(wěn)定,這將是一個額外的跡象,表明剩余問題的復(fù)雜性增加了,并且這一發(fā)現(xiàn)不僅僅是由平臺上的活動減少引起的。
為了測試這些假設(shè),我將利用 Stack Overflow 上突然發(fā)布的 ChatGPT。2022 年 11 月,當(dāng) OpenAI 公開發(fā)布他們的ChatGPT時,沒有其他替代品可用(例如 Google Bard),并且訪問是免費(fèi)的(不限于 OpenAI ChatGPT 4 或 Code Interpreter 等付費(fèi)訂閱)。因此,可以觀察在線編碼社區(qū)在震驚之前和之后的活動如何變化。然而,盡管這種沖擊多么“干凈”,其他影響可能會被混淆,從而質(zhì)疑因果關(guān)系。特別是季節(jié)性(例如發(fā)布后的年末假期)以及問題越新,瀏覽量和找到答案的概率就越低。
理想情況下,為了減輕季節(jié)性等潛在混雜變量的影響并衡量因果效應(yīng),我們希望在沒有 ChatGPT 發(fā)布的情況下觀察世界,這是不可能的(例如因果推理的基本問題)。盡管如此,我將通過利用 ChatGPT 對編碼相關(guān)問題的答案質(zhì)量因一種語言而異而另一種語言不同這一事實(shí)來應(yīng)對這一挑戰(zhàn),并使用準(zhǔn)實(shí)驗(yàn)方法來限制其他因素混淆效果的風(fēng)險(Difference-in -不同之處)。
為此,我將比較 Python 和 R 之間的 Stack Overflow 活動。Python 是一個顯而易見的選擇,因?yàn)樗梢哉f是最
流行的編程語言之一(例如,在 TIOBE 中排名第一)
Python 的大量在線資源為 ChatGPT 等ChatGPT提供了豐富的訓(xùn)練集?,F(xiàn)在,為了與 Python 進(jìn)行比較,我選擇了 R。Python 通常被認(rèn)為是 R 的最佳替代品,而且兩者都是免費(fèi)的。然而,R 不太受歡迎(例如,在 TIOBE 編程社區(qū)索引中排名第 16),因此訓(xùn)練數(shù)據(jù)可能較小,這意味著 ChatGPT 的性能較差。證據(jù)證實(shí)了這種差異(有關(guān)該方法的更多詳細(xì)信息,請參閱方法部分)。因此,R 代表了 Python 的有效反事實(shí)(它受到季節(jié)性影響,但我們可以預(yù)期 ChatGPT 的影響可以忽略不計)。
圖1:ChatGPT對Stack Overflow每周提問數(shù)量的影響
?
上圖顯示了原始的每周數(shù)據(jù)。我們可以看到,在 ChatGPT 3.5 發(fā)布后,Stack Overflow 上每周提出的有關(guān) Python 的問題數(shù)量突然大幅下降 (21.2%),而對 R 的影響則稍小一些(下降了 15.8%)。
這些“定性”觀察得到了統(tǒng)計模型的證實(shí)。稍后描述的計量經(jīng)濟(jì)學(xué)模型發(fā)現(xiàn),Stack Overflow 上的 Python 每周問題平均下降了 937.7 個(95% CI:[-1232.8,-642.55 ];p 值 = 0.000),具有統(tǒng)計顯著性。隨后的分析利用 Diff-in-Diff 方法,進(jìn)一步揭示了問題質(zhì)量的提高(在平臺上通過分?jǐn)?shù)來衡量),同時未回答問題的比例也有所增加(而每個問題的平均瀏覽量似乎有所增加)。不變)。因此,本研究為之前定義的三個假設(shè)提供了證據(jù)。
這些發(fā)現(xiàn)強(qiáng)調(diào)了人工智能在我們工作方式中的深遠(yuǎn)作用。通過解決日常查詢,生成式人工智能使個人能夠?qū)⒕ν度氲礁鼜?fù)雜的任務(wù)上,同時提高他們的生產(chǎn)力。然而,重要的長期潛在不利影響也在討論部分進(jìn)行了討論。
本文的其余部分將介紹數(shù)據(jù)和方法,然后是結(jié)果,并以討論結(jié)束。
數(shù)據(jù)
數(shù)據(jù)是使用Stack Overflow 數(shù)據(jù)瀏覽器門戶上的 SQL 查詢提取的(許可證:CC BY-SA)。這是使用的 SQL 命令:
SELECT Id, CreationDate, Score, ViewCount, AnswerCount
FROM Posts
WHERE Tags LIKE '%<python>%'
AND CreationDate BETWEEN '2022–10–01' AND '2023–04–30'
AND PostTypeId = 1;
然后,我按周匯總數(shù)據(jù)以減少噪音,從而獲得了從 2022 年 10 月 17 日星期一到 2023 年 3 月 19 日的數(shù)據(jù)集,其中包含有關(guān)每周帖子數(shù)量、觀看次數(shù)、每個問題的觀看次數(shù)的信息,每個問題的平均分以及未回答問題的比例。分?jǐn)?shù)由平臺用戶定義,他們可以投票贊成或反對,以判斷問題是否顯示“研究努力;它是否有用且清晰” 。
方法
為了測量因果效應(yīng),我使用了雙重差分模型,這是一種計量經(jīng)濟(jì)學(xué)方法,通常利用隨時間的變化并將處理單位與未處理組進(jìn)行比較。
簡而言之,Diff-in-Diff 模型計算雙重差異以識別因果效應(yīng)。這是一個簡化的解釋。首先,我們的想法是計算兩個簡單的差異:治療組和未治療組(此處分別是 Python 和 R 問題)的前(ChatGPT 發(fā)布之前)和后時期之間的“平均”差異。我們關(guān)心的是處理對處理單元的影響(這里是ChatGPT發(fā)布對Python問題的影響)。然而,如前所述,可能還有另一種影響仍然與治療相混淆(例如季節(jié)性)。為了解決這個問題,該模型的想法是計算雙重差異,以檢查處理組 (Python) 的第一個差異與第二個差異(對照組 R 的差異)有何不同。
這是一個稍微更正式的表示。
參考值的第一個差異:
這里的 i 和 t 分別指的是語言(R 或 Python)和周。While對待是指與Python相關(guān)的問題,Post是指ChatGPT可用的時期。這個簡單的差異可能代表 ChatGPT (β) + 某些時間效應(yīng) λ? 的因果效應(yīng)(例如季節(jié)性)。
控制變量組組的第一個差異:
對照組的簡單差異不包括治療效果(因?yàn)槲唇?jīng)治療),而僅包括 λ。
因此,雙重差分將給出:
假設(shè)兩組的 λ相同(平行趨勢假設(shè),如下所述),雙重差異將使我們能夠識別 β,即因果效應(yīng)。
該模型的本質(zhì)在于平行趨勢假設(shè)。為了斷言因果效應(yīng),我們應(yīng)該相信,如果沒有 ChatGPT,Stack Overflow 上 Python(已處理)和 R(未處理)帖子的演變在處理期間(2022 年 11 月之后)將是相同的。然而,這顯然不可能觀察到,因此無法直接測試(參見因果推理的基本問題)。然而,可以測試沖擊之前的趨勢是否平行,這表明對照組是一個潛在的良好“反事實(shí)”。對數(shù)據(jù)進(jìn)行的兩個不同的安慰劑測試表明,我們不能拒絕 ChatGPT 之前時期的平行趨勢假設(shè)(測試的 p 值分別為 0.722 和 0.397(參見在線附錄 B))。
正式定義:
“i”和“t”分別對應(yīng) Stack Overflow 上問題的主題(i ∈ {R; Python})和周。Y??表示結(jié)果變量:問題數(shù)量 (H1)、平均問題得分 (H2) 和未回答問題的比例 (H3)。Python? 是一個二元
變量,如果問題與 Python 相關(guān),則取值 1,
否則取值 0(與 R 相關(guān))。ChatGPT?是另一個二進(jìn)制變量,
從 ChatGPT 版本及之后的版本開始,其值為 1,
否則為 0。u??是聚集在編碼語言級別 (i) 的錯誤項(xiàng)
。
該模型的本質(zhì)在于平行趨勢假設(shè)。為了斷言因果效應(yīng),我們應(yīng)該相信,如果沒有 ChatGPT,Stack Overflow 上 Python(已處理)和 R(未處理)帖子的演變在處理期間(2022 年 11 月之后)將是相同的。然而,這顯然不可能觀察到,因此無法直接測試(參見因果推理的基本問題)。然而,可以測試沖擊之前的趨勢是否平行,這表明對照組是一個很好的“反事實(shí)”。在這種情況下,兩個不同的安慰劑測試表明,我們不能拒絕 ChatGPT 之前時期的平行趨勢假設(shè)(測試的 p 值分別為 0.722 和 0.397(參見在線附錄 B))。
結(jié)果
H1:ChatGPT 減少了 Stack Overflow 上提出的問題數(shù)量。
如簡介中所述,Diff-in-Diff 模型估計 Stack Overflow 上的 Python 每周問題平均下降了 937.7 個(95% CI:[-1232.8, -642.55];p 值 = 0.000)(參見如下圖2)。這意味著每周的問題數(shù)量下降了 18%。
圖 2:ChatGPT 對每周問題數(shù)量的影響
H2:ChatGPT 提高了所提問題的質(zhì)量。
ChatGPT 可能有助于回答問題(參見 H1)。然而,當(dāng)ChatGPT無法解決問題時,它可能允許人們走得更遠(yuǎn),獲得有關(guān)問題或解決方案某些要素的更多信息。該平臺允許我們測試這個假設(shè),因?yàn)槿绻脩粽J(rèn)為“這個問題顯示了研究成果;有用且清晰”(增加 1 分),或沒有(減少 1 分)。第二次回歸估計問題得分平均增加 0.07 分(95% CI:[-0.0127 , 0.1518 ];p 值:0.095)(見圖 3),即增加 41.2%。
圖 3:ChatGPT 對問題質(zhì)量的影響(作者提供的圖片)
H3:剩下的問題更加復(fù)雜。
現(xiàn)在我們有一些證據(jù)表明 ChatGPT 能夠提供重要的幫助(解決問題并幫助記錄其他問題),我們想確認(rèn)剩下的問題更加復(fù)雜。為此,我們要考慮兩件事。首先,我發(fā)現(xiàn)未回答問題的比例正在上升(沒有答案可能表明問題更加復(fù)雜)。更準(zhǔn)確地說,我發(fā)現(xiàn)未回答的問題比例增加了 2.21 個百分點(diǎn)(95% CI:[ 0.12, 0.30];p 值:0.039)(見圖 4),這意味著增加了 6.8%。其次,我們還發(fā)現(xiàn)每個問題的觀看次數(shù)沒有變化(我們不能拒絕它沒有變化的零假設(shè),p 值為 0.477)。
圖4:ChatGPT對未回答問題比例的影響文章來源:http://www.zghlxwxcb.cn/news/detail-731456.html
討論
這些發(fā)現(xiàn)支持這樣一種觀點(diǎn),即生成式人工智能可以通過處理常規(guī)問題徹底改變我們的工作,使我們能夠?qū)W⒂谛枰獙I(yè)知識的更復(fù)雜的問題,同時提高我們的生產(chǎn)力。文章來源地址http://www.zghlxwxcb.cn/news/detail-731456.html
到了這里,關(guān)于GPT-人工智能如何改變我們的編碼方式的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!