国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

如何高度優(yōu)化適用于企業(yè)的AI (二) 數(shù)據(jù)準(zhǔn)備

1年前作者：KhalidDu分類：Toy博客閱讀(22)違法舉報

這篇具有很好參考價值的文章主要介紹了如何高度優(yōu)化適用于企業(yè)的AI (二) 數(shù)據(jù)準(zhǔn)備。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

我們先從快速瀏覽整個過程

首先, 我們需要數(shù)據(jù), 要盡可能使用CSV/Json格式, 基于這些信息, 我們要讓AI獲取所有所需要的信息來正確的完成它的工作
準(zhǔn)備數(shù)據(jù), 微調(diào)過程需要很長的書劍才能運行, 我們肯定是不希望出現(xiàn)錯誤的, 所以我們使用OpenAI的數(shù)據(jù)準(zhǔn)備工具(CLI tool)來處理我們的數(shù)據(jù), 讓格式正確, 這樣就不會被拒絕
上傳數(shù)據(jù), 告訴OpenAI來制作我們的微調(diào)模型, 同樣的, 我們同樣使用CLI tool來執(zhí)行此操作, 啟動是很快的, 但這可能需要很長時間來處理請求
當(dāng)上面這個過程結(jié)束的時候, 我們會有自己特殊的端點, 然后我們可以使用我們新訓(xùn)練的模型來進行對話了

以上就是這整個過程的工作原理, 下面讓我們一步一步的開始操作

1.Get Data

我們需要一些數(shù)據(jù)來微調(diào)我們的模型, 那第一個問題來了: 微調(diào)模型需要多少數(shù)據(jù)?
OpenAI給出了我們建議:

原文: You should provide at least a fewhundred high-quality examples,ideally vetted by human experts.
翻譯: 你應(yīng)該提供至少幾百個高質(zhì)量的例子, 最好由人類專家審查

更重要是, OpenAI說:

原文: Increasing the number of examples isusually the best and most reliable wayofimproving performance.
翻譯: 增加示例數(shù)量, 通常是提高性能最好最可靠的方法

所以, 以上是微調(diào)模型的原則, 這是絕對要記住的
那有了數(shù)據(jù)量, 我們再來談?wù)剶?shù)據(jù)格式
下面是OpenAI官方給出的要求, 希望數(shù)據(jù)為 Json-L格式, 并給我們一個示例

Json-L是每行都用Json格式化的數(shù)據(jù), 每行都必須是有效的Json, 而且每行都必須以換行符結(jié)尾
當(dāng)然, 你如果不會寫也不要緊, 我們會使用一種特殊的工具來創(chuàng)建它
現(xiàn)在讓我們來使用更簡單的CSV或逗號分隔值數(shù)據(jù), 然后讓OpenAI tool來完成繁重的工作
OpenAI對于我們的數(shù)據(jù)給了一些進一步的標(biāo)準(zhǔn)

原文: Each prompt should end with a separator to showwhere the prompt ends and the completion begins.
翻譯: 每個提示都已分隔符結(jié)尾來顯示提示結(jié)束位置和完成的開始位置
原文: Each completion should start with a whitespace
翻譯: 每個完成都應(yīng)該以空白開始
原文: Each completion should end with a stop sequence toinform the model where the completion ends.
翻譯: 每個完成都應(yīng)該以一個停止序列結(jié)束，以告知模型完成的終點

stop sequence是什么我們暫時還不需要, 等我們后面到項目用的時候再來討論它
壞消息是: 官方并沒有告訴我們到底想要什么, 甚至是什么是停止序列, 什么樣的分隔符, 甚至連個例子都沒有
好消息是: 它提供了工具, ↓

看一下這次訓(xùn)練我準(zhǔn)備的數(shù)據(jù)

prompt里給的是關(guān)鍵詞, completion里給的是回復(fù), 每個數(shù)據(jù)都是來自于真實的數(shù)據(jù)
當(dāng)然, 你也可以不必局限于這個格式, 你也可以直接在下面寫一段總結(jié)式的內(nèi)容, 直接作為 prompt
理想情況下, 我們需要更多的數(shù)據(jù)來訓(xùn)練, 但這里, 我們用這部分?jǐn)?shù)據(jù)來嘗試微調(diào)的工作原理
下面我們開始進行數(shù)據(jù)處理前的準(zhǔn)備
我們將會使用終端來進行數(shù)據(jù)處理, 使用的python3 以及pip(自己安裝)
升級pip到最新版 python3 -m ensurepip --upgrade
安裝OpenAI工具 pip install --upgrade openai

這里要特別說明一下, 我們創(chuàng)建的微調(diào)模型是只有我們自己才能使用的, 所以, OpenAI工具需要我們的API秘鑰
你可以使用export OPENAI_API_KEY="sk-vXXXXXXXXXXXXXXXXXXXXXXXXXXX4QbUMjo"這個命令添加openAI秘鑰

PS: windows系統(tǒng)是不認(rèn)export指令的
所以到這里我們就開始使用CentOS系統(tǒng)了, 上面的操作都在CentOS系統(tǒng)上執(zhí)行一遍

到這個命令為止, 系統(tǒng)并不會返回我們執(zhí)行的結(jié)果, 說明已經(jīng)成功接受了我們的秘鑰

2.Prep Data

截止到當(dāng)前操作, 我們已經(jīng)成功安裝OpenAI CLI并指定上了我們的秘鑰
下面我們開始用它來準(zhǔn)備我們的數(shù)據(jù)
現(xiàn)在, 我已經(jīng)將準(zhǔn)備好的數(shù)據(jù)放到了服務(wù)器上

然后讓我們進入到這個文件夾下, 并執(zhí)行
openai tools fine_tunes.prepare_data -f XXXX.csv
這個命令就是來告訴OpenAI使用微調(diào)工具來準(zhǔn)備我們的數(shù)據(jù), -f標(biāo)識將識別數(shù)據(jù)文件
這里我們遇到了一個問題
我們的終端一直在報: openai: 未找到命令
查閱了一些資料后發(fā)現(xiàn), 可能是由于在使用OpenAI CLI命令時尚未激活虛擬環(huán)境（Virtual Environment）所致
所以我們再來創(chuàng)建一個虛擬環(huán)境

python3 -m venv myenv
source myenv/bin/activate
pip install openai
openai --version

可以看到, 現(xiàn)在確實能夠使用OpenAI CLI了
繼續(xù)重復(fù)上面的命令, 我們又遇到了新的問題

OK, 繼續(xù)安裝pandas

pip install openai pandas

pandas安裝成功, 我們再來試一下

然后下面的, 都選y就可以了

然后就得到了OpenAI CLI給處理好的Jsonl文件

現(xiàn)在我們已經(jīng)準(zhǔn)備好我們的數(shù)據(jù)了, 下面就開始進行模型微調(diào)~

關(guān)注一下, 持續(xù)更新~
如何高度優(yōu)化適用于企業(yè)的AI (二) 數(shù)據(jù)準(zhǔn)備文章來源地址http://www.zghlxwxcb.cn/news/detail-502587.html

到了這里，關(guān)于如何高度優(yōu)化適用于企業(yè)的AI (二) 數(shù)據(jù)準(zhǔn)備的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

從“手寫病例”到“AI家庭醫(yī)生”，人工智能大數(shù)據(jù)如何走進我們的生活？
編?輯：老彭來源：大數(shù)據(jù)架構(gòu)師彭友們好，我是老彭。最近“X疾病”肆虐，彭友們要小心啊，一定要保重身體。老彭去年就老去醫(yī)院，不知道是不是“X疾病”鬧的。上周末我特意找國家衛(wèi)健委沈劍峰沈博士請教，順便敘敘舊，他給我們講了很多很有意思的醫(yī)學(xué)新進展。
2024年04月09日
瀏覽(32)
企業(yè)為什么要做自動化測試？我們該如何學(xué)習(xí)自動化測試？
作為一名大廠測試開發(fā)，編寫自動化腳本，儼然成為一種必備的技能。為什么要做自動化測試？那企業(yè)或者是我們測試人員為什么要做自動化測試呢？如果在前兩年，可能10個測試員有6個都是做的功能測試，但隨著測試技術(shù)的發(fā)展以及測試工作的深入，傳統(tǒng)的手工測試已經(jīng)
2024年02月10日
瀏覽(25)
從 AI 增強到大模型，企業(yè)使用數(shù)據(jù)的方式又將如何變化？
AI（Artificial Intelligence，人工智能）的發(fā)展不過百年，卻已經(jīng)深刻影響著人們的思維和見解，并逐漸關(guān)聯(lián)到每個人生活和工作的方方面面。從最初的規(guī)則引擎和引入統(tǒng)計學(xué)方法，到基于知識表示和推理機制的專家系統(tǒng)，再到神經(jīng)網(wǎng)絡(luò)的提出助推大數(shù)據(jù)背景下深度學(xué)習(xí)和復(fù)雜 A
2024年02月12日
瀏覽(20)
AI寫作的困惑與挑戰(zhàn)：我們?nèi)绾螒?yīng)對？
大家好，小發(fā)貓降重今天來聊聊AI寫作的困惑與挑戰(zhàn)：我們?nèi)绾螒?yīng)對？，希望能給大家提供一點參考。以下是針對論文重復(fù)率高的情況，提供一些修改建議和技巧，可以借助此類工具： AI寫作的困惑與挑戰(zhàn)：我們?nèi)绾螒?yīng)對？隨著AI技術(shù)的飛速發(fā)展，AI寫作助手正在逐漸改變我
2024年04月16日
瀏覽(26)
數(shù)據(jù)之美：如何用數(shù)據(jù)可視化優(yōu)化我們的日常生活？
在這個信息爆炸的時代，我們周圍充斥著各種數(shù)據(jù)，而數(shù)據(jù)可視化正是一種強大的工具，幫助我們更好地理解和利用這些信息。那么，如何將數(shù)據(jù)可視化應(yīng)用在我們的日常生活中呢？讓我們一起探索這個引人入勝的話題。首先，讓我們簡單了解一下數(shù)據(jù)可視化的概念。數(shù)據(jù)可
2024年02月02日
瀏覽(36)
準(zhǔn)備我們心愛的IDEA寫Jsp
JSP學(xué)習(xí) new一個項目：New Project -- Next --Next --Finsh 1. 在WEB-INF下創(chuàng)建一個Lib包將jsp-api.jar復(fù)制進去，并使其生效未生效前：生效過程： 2. 用錘子配置湯姆貓TomCat 點擊+ 號選擇本地的湯姆貓在Deployment中的 + 號選擇Artifat 將多余的名稱刪去，為了方便找到 1. 在web包下創(chuàng)建以.jsp為
2024年02月07日
瀏覽(16)
人工智能 AI 如何讓我們的生活更加便利
每個人都可以從新技術(shù)中獲益，一想到工作或生活更為便利、簡捷且擁有更多空余時間，誰會不為之高興呢？借助人工智能，每天能夠多一些空余時間，或豐富自己的業(yè)余生活，為培養(yǎng)日常興趣愛好增添一點便利。從電子閱讀器到智能家居，再到植物識別應(yīng)用和智能室內(nèi)花園
2024年01月18日
瀏覽(25)
AI時代已來，我們該如何培養(yǎng)創(chuàng)造力
chatGPT 已經(jīng)出來很久了，說實話，22年底的時候還沒怎么在意，而且當(dāng)時注冊賬號因為種種原因，弄國外手機驗證碼老費勁了。直到最近一段時間，真的是被這玩意兒刷屏了，尤其是 GPT-4 的問世。所以買了賬號體驗了一段時間了，是真強，也是真香。還記得當(dāng)時看 GPT-4 演示的
2024年02月03日
瀏覽(98)
如何把Ai繪畫工具放到我們的App中
Scribble Diffusion 是一個簡單的在線服務(wù)，它使用 AI 將粗略的草圖轉(zhuǎn)換為精致的圖像，每一張圖像都是不同的（而且沒有版權(quán)困擾）。簡單來說，我們只需要「用畫筆描繪一張草圖，在輸入描述后稍等片刻」，隨后就會為你生成一幅畫。這幅畫可以多次生成，每次生成的結(jié)果也
2024年02月11日
瀏覽(18)
AI工程師在崛起，我們?nèi)绾巫龅娇焖俎D(zhuǎn)型
W...Y的主頁 ??? 代碼倉庫分享?? 前言：針對目前AI快速發(fā)展，越來越多的程序員遭到裁員的風(fēng)險，AI終將取代程序員的事情好像可以板上釘釘，程序員的行業(yè)已經(jīng)開始走向下坡路，我們的內(nèi)心不免有一些慌亂，但是AI程序員卻在悄悄崛起，并且在不斷的推進，我們應(yīng)該怎么辦
2024年02月05日
瀏覽(20)