国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

如何高度優(yōu)化適用于企業(yè)的AI (二) 數(shù)據(jù)準(zhǔn)備

這篇具有很好參考價值的文章主要介紹了如何高度優(yōu)化適用于企業(yè)的AI (二) 數(shù)據(jù)準(zhǔn)備。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

我們先從快速瀏覽整個過程

  1. 首先, 我們需要數(shù)據(jù), 要盡可能使用CSV/Json格式, 基于這些信息, 我們要讓AI獲取所有所需要的信息來正確的完成它的工作
  2. 準(zhǔn)備數(shù)據(jù), 微調(diào)過程需要很長的書劍才能運行, 我們肯定是不希望出現(xiàn)錯誤的, 所以我們使用OpenAI的數(shù)據(jù)準(zhǔn)備工具(CLI tool)來處理我們的數(shù)據(jù), 讓格式正確, 這樣就不會被拒絕
  3. 上傳數(shù)據(jù), 告訴OpenAI來制作我們的微調(diào)模型, 同樣的, 我們同樣使用CLI tool來執(zhí)行此操作, 啟動是很快的, 但這可能需要很長時間來處理請求
  4. 當(dāng)上面這個過程結(jié)束的時候, 我們會有自己特殊的端點, 然后我們可以使用我們新訓(xùn)練的模型來進行對話了

以上就是這整個過程的工作原理, 下面讓我們一步一步的開始操作

1.Get Data

我們需要一些數(shù)據(jù)來微調(diào)我們的模型, 那第一個問題來了: 微調(diào)模型需要多少數(shù)據(jù)?
OpenAI給出了我們建議:

原文: You should provide at least a fewhundred high-quality examples,ideally vetted by human experts.
翻譯: 你應(yīng)該提供至少幾百個高質(zhì)量的例子, 最好由人類專家審查

更重要是, OpenAI說:

原文: Increasing the number of examples isusually the best and most reliable wayofimproving performance.
翻譯: 增加示例數(shù)量, 通常是提高性能最好最可靠的方法

所以, 以上是微調(diào)模型的原則, 這是絕對要記住的
那有了數(shù)據(jù)量, 我們再來談?wù)剶?shù)據(jù)格式
下面是OpenAI官方給出的要求, 希望數(shù)據(jù)為 Json-L格式, 并給我們一個示例
image.png
Json-L是每行都用Json格式化的數(shù)據(jù), 每行都必須是有效的Json, 而且每行都必須以換行符結(jié)尾
當(dāng)然, 你如果不會寫也不要緊, 我們會使用一種特殊的工具來創(chuàng)建它
現(xiàn)在讓我們來使用更簡單的CSV或逗號分隔值數(shù)據(jù), 然后讓OpenAI tool來完成繁重的工作
OpenAI對于我們的數(shù)據(jù)給了一些進一步的標(biāo)準(zhǔn)

原文: Each prompt should end with a separator to showwhere the prompt ends and the completion begins.
翻譯: 每個提示都已分隔符結(jié)尾來顯示提示結(jié)束位置和完成的開始位置
原文: Each completion should start with a whitespace
翻譯: 每個完成都應(yīng)該以空白開始
原文: Each completion should end with a stop sequence toinform the model where the completion ends.
翻譯: 每個完成都應(yīng)該以一個停止序列結(jié)束,以告知模型完成的終點

stop sequence是什么我們暫時還不需要, 等我們后面到項目用的時候再來討論它
壞消息是: 官方并沒有告訴我們到底想要什么, 甚至是什么是停止序列, 什么樣的分隔符, 甚至連個例子都沒有
好消息是: 它提供了工具, ↓
image.png
看一下這次訓(xùn)練我準(zhǔn)備的數(shù)據(jù)
image.png
prompt里給的是關(guān)鍵詞, completion里給的是回復(fù), 每個數(shù)據(jù)都是來自于真實的數(shù)據(jù)
當(dāng)然, 你也可以不必局限于這個格式, 你也可以直接在下面寫一段總結(jié)式的內(nèi)容, 直接作為 prompt
理想情況下, 我們需要更多的數(shù)據(jù)來訓(xùn)練, 但這里, 我們用這部分?jǐn)?shù)據(jù)來嘗試微調(diào)的工作原理
下面我們開始進行數(shù)據(jù)處理前的準(zhǔn)備
我們將會使用終端來進行數(shù)據(jù)處理, 使用的python3 以及pip(自己安裝)
升級pip到最新版 python3 -m ensurepip --upgrade
安裝OpenAI工具 pip install --upgrade openai
image.png
這里要特別說明一下, 我們創(chuàng)建的微調(diào)模型是只有我們自己才能使用的, 所以, OpenAI工具需要我們的API秘鑰
你可以使用export OPENAI_API_KEY="sk-vXXXXXXXXXXXXXXXXXXXXXXXXXXX4QbUMjo"這個命令添加openAI秘鑰

PS: windows系統(tǒng)是不認(rèn)export指令的
所以到這里我們就開始使用CentOS系統(tǒng)了, 上面的操作都在CentOS系統(tǒng)上執(zhí)行一遍

image.png
到這個命令為止, 系統(tǒng)并不會返回我們執(zhí)行的結(jié)果, 說明已經(jīng)成功接受了我們的秘鑰

2.Prep Data

截止到當(dāng)前操作, 我們已經(jīng)成功安裝OpenAI CLI并指定上了我們的秘鑰
下面我們開始用它來準(zhǔn)備我們的數(shù)據(jù)
現(xiàn)在, 我已經(jīng)將準(zhǔn)備好的數(shù)據(jù)放到了服務(wù)器上
image.png
然后讓我們進入到這個文件夾下, 并執(zhí)行
openai tools fine_tunes.prepare_data -f XXXX.csv
這個命令就是來告訴OpenAI使用微調(diào)工具來準(zhǔn)備我們的數(shù)據(jù), -f標(biāo)識將識別數(shù)據(jù)文件
這里我們遇到了一個問題
我們的終端一直在報: openai: 未找到命令
查閱了一些資料后發(fā)現(xiàn), 可能是由于在使用OpenAI CLI命令時尚未激活虛擬環(huán)境(Virtual Environment)所致
所以我們再來創(chuàng)建一個虛擬環(huán)境

python3 -m venv myenv
source myenv/bin/activate
pip install openai
openai --version

image.png
可以看到, 現(xiàn)在確實能夠使用OpenAI CLI了
繼續(xù)重復(fù)上面的命令, 我們又遇到了新的問題
image.png
OK, 繼續(xù)安裝pandas

pip install openai pandas

image.png
pandas安裝成功, 我們再來試一下
image.png

image.png
然后下面的, 都選y就可以了
image.png

然后就得到了OpenAI CLI給處理好的Jsonl文件

現(xiàn)在我們已經(jīng)準(zhǔn)備好我們的數(shù)據(jù)了, 下面就開始進行模型微調(diào)~

關(guān)注一下, 持續(xù)更新~
如何高度優(yōu)化適用于企業(yè)的AI (二) 數(shù)據(jù)準(zhǔn)備文章來源地址http://www.zghlxwxcb.cn/news/detail-502587.html

到了這里,關(guān)于如何高度優(yōu)化適用于企業(yè)的AI (二) 數(shù)據(jù)準(zhǔn)備的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 從“手寫病例”到“AI家庭醫(yī)生”,人工智能大數(shù)據(jù)如何走進我們的生活?

    從“手寫病例”到“AI家庭醫(yī)生”,人工智能大數(shù)據(jù)如何走進我們的生活?

    編?輯:老彭 來 源:大數(shù)據(jù)架構(gòu)師 彭友們好,我是老彭。最近“X疾病”肆虐,彭友們要小心啊,一定要保重身體。老彭去年就老去醫(yī)院,不知道是不是“X疾病”鬧的 。 上周末我特意找國家衛(wèi)健委沈劍峰沈博士請教,順便敘敘舊,他給我們講了很多很有意思的醫(yī)學(xué)新進展。

    2024年04月09日
    瀏覽(32)
  • 企業(yè)為什么要做自動化測試?我們該如何學(xué)習(xí)自動化測試?

    企業(yè)為什么要做自動化測試?我們該如何學(xué)習(xí)自動化測試?

    作為一名大廠測試開發(fā),編寫自動化腳本,儼然成為一種必備的技能。 為什么要做自動化測試? 那企業(yè)或者是我們測試人員為什么要做自動化測試呢? 如果在前兩年,可能10個測試員有6個都是做的功能測試,但隨著測試技術(shù)的發(fā)展以及測試工作的深入,傳統(tǒng)的手工測試已經(jīng)

    2024年02月10日
    瀏覽(25)
  • 從 AI 增強到大模型,企業(yè)使用數(shù)據(jù)的方式又將如何變化?

    從 AI 增強到大模型,企業(yè)使用數(shù)據(jù)的方式又將如何變化?

    AI(Artificial Intelligence,人工智能)的發(fā)展不過百年,卻已經(jīng)深刻影響著人們的思維和見解,并逐漸關(guān)聯(lián)到每個人生活和工作的方方面面。從最初的規(guī)則引擎和引入統(tǒng)計學(xué)方法,到基于知識表示和推理機制的專家系統(tǒng),再到神經(jīng)網(wǎng)絡(luò)的提出助推大數(shù)據(jù)背景下深度學(xué)習(xí)和復(fù)雜 A

    2024年02月12日
    瀏覽(20)
  • AI寫作的困惑與挑戰(zhàn):我們?nèi)绾螒?yīng)對?

    AI寫作的困惑與挑戰(zhàn):我們?nèi)绾螒?yīng)對?

    大家好,小發(fā)貓降重今天來聊聊AI寫作的困惑與挑戰(zhàn):我們?nèi)绾螒?yīng)對?,希望能給大家提供一點參考。 以下是針對論文重復(fù)率高的情況,提供一些修改建議和技巧,可以借助此類工具: AI寫作的困惑與挑戰(zhàn):我們?nèi)绾螒?yīng)對? 隨著AI技術(shù)的飛速發(fā)展,AI寫作助手正在逐漸改變我

    2024年04月16日
    瀏覽(26)
  • 數(shù)據(jù)之美:如何用數(shù)據(jù)可視化優(yōu)化我們的日常生活?

    數(shù)據(jù)之美:如何用數(shù)據(jù)可視化優(yōu)化我們的日常生活?

    在這個信息爆炸的時代,我們周圍充斥著各種數(shù)據(jù),而數(shù)據(jù)可視化正是一種強大的工具,幫助我們更好地理解和利用這些信息。那么,如何將數(shù)據(jù)可視化應(yīng)用在我們的日常生活中呢?讓我們一起探索這個引人入勝的話題。 首先,讓我們簡單了解一下數(shù)據(jù)可視化的概念。數(shù)據(jù)可

    2024年02月02日
    瀏覽(36)
  • 準(zhǔn)備我們心愛的IDEA寫Jsp

    準(zhǔn)備我們心愛的IDEA寫Jsp

    JSP學(xué)習(xí) new一個項目:New Project -- Next --Next --Finsh 1. 在WEB-INF下創(chuàng)建一個Lib包 將jsp-api.jar復(fù)制進去,并使其生效 未生效前: 生效過程: 2. 用錘子配置湯姆貓TomCat 點擊+ 號 選擇本地的湯姆貓 在Deployment中的 + 號 選擇Artifat 將多余的名稱刪去,為了方便找到 1. 在web包下創(chuàng)建以.jsp為

    2024年02月07日
    瀏覽(16)
  • 人工智能 AI 如何讓我們的生活更加便利

    人工智能 AI 如何讓我們的生活更加便利

    每個人都可以從新技術(shù)中獲益,一想到工作或生活更為便利、簡捷且擁有更多空余時間,誰會不為之高興呢?借助人工智能,每天能夠多一些空余時間,或豐富自己的業(yè)余生活,為培養(yǎng)日常興趣愛好增添一點便利。從電子閱讀器到智能家居,再到植物識別應(yīng)用和智能室內(nèi)花園

    2024年01月18日
    瀏覽(25)
  • AI時代已來,我們該如何培養(yǎng)創(chuàng)造力

    chatGPT 已經(jīng)出來很久了,說實話,22年底的時候還沒怎么在意,而且當(dāng)時注冊賬號因為種種原因,弄國外手機驗證碼老費勁了。 直到最近一段時間,真的是被這玩意兒刷屏了,尤其是 GPT-4 的問世。所以買了賬號體驗了一段時間了,是真強,也是真香。還記得當(dāng)時看 GPT-4 演示的

    2024年02月03日
    瀏覽(98)
  • 如何把Ai繪畫工具放到我們的App中

    如何把Ai繪畫工具放到我們的App中

    Scribble Diffusion 是一個簡單的在線服務(wù),它使用 AI 將粗略的草圖轉(zhuǎn)換為精致的圖像,每一張圖像都是不同的(而且沒有版權(quán)困擾)。簡單來說,我們只需要「用畫筆描繪一張草圖,在輸入描述后稍等片刻」,隨后就會為你生成一幅畫。這幅畫可以多次生成,每次生成的結(jié)果也

    2024年02月11日
    瀏覽(18)
  • AI工程師在崛起,我們?nèi)绾巫龅娇焖俎D(zhuǎn)型

    AI工程師在崛起,我們?nèi)绾巫龅娇焖俎D(zhuǎn)型

    W...Y的主頁 ??? 代碼倉庫分享?? 前言:針對目前AI快速發(fā)展,越來越多的程序員遭到裁員的風(fēng)險,AI終將取代程序員的事情好像可以板上釘釘,程序員的行業(yè)已經(jīng)開始走向下坡路,我們的內(nèi)心不免有一些慌亂,但是AI程序員卻在悄悄崛起,并且在不斷的推進,我們應(yīng)該怎么辦

    2024年02月05日
    瀏覽(20)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包