一、簡介
1.1 在NLP日常工作中,我們需要按幾個(gè)步驟進(jìn)行數(shù)據(jù)處理和模型訓(xùn)練。
1. 先收集數(shù)據(jù): 通過爬蟲或者其它工具,將數(shù)據(jù)結(jié)構(gòu)化保存到數(shù)據(jù)庫中。
2. 數(shù)據(jù)預(yù)處理: 其中大部分都是無標(biāo)簽數(shù)據(jù),對(duì)于無標(biāo)簽數(shù)據(jù)的可以用無監(jiān)督做預(yù)訓(xùn)練模型,也可以用經(jīng)過整理后進(jìn)行標(biāo)注變成有標(biāo)簽數(shù)據(jù)。
3. 數(shù)據(jù)標(biāo)注: 對(duì)于NLP的標(biāo)注,我們常用的標(biāo)注包括文本分類,命名實(shí)體識(shí)別,文本摘要等。
4. 模型訓(xùn)練:對(duì)打好標(biāo)簽的數(shù)據(jù)進(jìn)行訓(xùn)練,參數(shù)調(diào)優(yōu)等
5. 模型評(píng)估: 對(duì)測試數(shù)據(jù)或開發(fā)數(shù)據(jù)進(jìn)行評(píng)估,判斷模型好壞
6. 不斷重復(fù)1-5步,優(yōu)化模型和數(shù)據(jù),提高模型性能。
圖1、流程圖
1.2 通常完成這些步驟耗時(shí)數(shù)周的時(shí)間,所以我們需要整合相關(guān)功能到自動(dòng)化的平臺(tái)。
本文使用的是工具有:
label-studio: 數(shù)據(jù)標(biāo)注工具
transformers: 高度集成的模型訓(xùn)練套件
TextBrewer: 哈工大模型蒸餾工具
flask: 自定義一些api,把標(biāo)注和模型訓(xùn)練串聯(lián)起來
二、label-studio
2.1 label-studio扮演的角色文章來源:http://www.zghlxwxcb.cn/news/detail-673968.html
如下圖,label-studio用文章來源地址http://www.zghlxwxcb.cn/news/detail-673968.html
到了這里,關(guān)于安利一個(gè)開源的好工具Label Studio, 閉環(huán)數(shù)據(jù)標(biāo)注和模型訓(xùn)練的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!