国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

收藏丨30個大語言模型訓練相關的數(shù)據(jù)集分享

這篇具有很好參考價值的文章主要介紹了收藏丨30個大語言模型訓練相關的數(shù)據(jù)集分享。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

上一期我們分享了《ChatGPT數(shù)據(jù)集之謎》一文,從模型角度切入,按六大分類(維基百科、書籍、期刊、Reddit鏈接、Common Crawl、其他),分析梳理了2018年到2022年初從GPT-1到Gopher的現(xiàn)代大語言模型相關的所有訓練數(shù)據(jù)集域、token數(shù)量等詳情。

今天我們繼續(xù)以這6大分類為脈絡,從公開數(shù)據(jù)集角度切入,整理了OpenDataLab已上架的、不同分類對應的的可用于大語言模型的預訓練、指令微調等數(shù)據(jù)資源,希望能為大家節(jié)省部分數(shù)據(jù)準備時間,和帶來啟發(fā)。

大語言模型數(shù)據(jù)集分類:

收藏丨30個大語言模型訓練相關的數(shù)據(jù)集分享

分類參考:《ChatGPT數(shù)據(jù)集之謎》和網(wǎng)絡整理

一、維基百科類

No.1

Identifying Machine-Paraphrased Plagiarism

● 發(fā)布方:德國伍珀塔爾大學 · 布爾諾孟德爾大學

● 發(fā)布時間:2021

● 簡介
該數(shù)據(jù)集用于訓練和評估用于檢測機器釋義文本的模型。訓練集包含從 8,024 篇維基百科(英文)文章(4,012 篇原文,4,012 篇使用 SpinBot API 釋義)中提取的 200,767 段(98,282 篇原文,102,485 篇釋義)。測試集分為 3 個子集:一個來自 arXiv 研究論文的預印本,一個來自畢業(yè)論文,另一個來自 Wikipedia 文章。此外,還使用了不同的 Marchine-paraphrasing 方法。

● 下載地址
https://opendatalab.org.cn/Identifying_Machine-Paraphrased_etc

No.2

Benchmark for Neural Paraphrase Detection

● 發(fā)布方:德國伍珀塔爾大學
● 發(fā)布時間:2021

● 簡介
這是神經(jīng)釋義檢測的基準,用于區(qū)分原始內容和機器生成的內容。訓練:從 4,012 篇(英文)維基百科文章中提取 1,474,230 個對齊的段落(98,282 個原始段落,1,375,948 個用 3 個模型和 5 個超參數(shù)配置進行釋義的段落,每個 98,282 個)。

● 下載地址
https://opendatalab.org.cn/Benchmark_for_Neural_Paraphrase_etc

No.3

NatCat

● 發(fā)布時間:2021

● 簡介
來自三個在線資源的通用文本分類數(shù)據(jù)集 (NatCat):Wikipedia、Reddit 和 Stack Exchange。這些數(shù)據(jù)集由源自社區(qū)自然發(fā)生的手動管理的文檔-類別對組成。

● 下載地址
https://opendatalab.org.cn/NatCat

No.4

Quoref

● 發(fā)布方:艾倫人工智能研究所 · 華盛頓大學

● 發(fā)布時間:2019

● 簡介
Quoref 是一個 QA 數(shù)據(jù)集,用于測試閱讀理解系統(tǒng)的共指推理能力。在這個跨度選擇基準包含來自維基百科的 4.7K 段落中的 24K 問題,系統(tǒng)必須先解決硬共指,然后才能在段落中選擇適當?shù)目缍葋砘卮饐栴}。

● 下載地址
https://opendatalab.com/Quoref

No.5

QuAC (Question Answering in Context)

● 發(fā)布方:艾倫人工智能研究所 · 華盛頓大學 · 斯坦福大學 · 馬薩諸塞大學阿默斯特分校

● 發(fā)布時間:2018

● 簡介
上下文問答是一個大規(guī)模的數(shù)據(jù)集,由大約 14K 眾包問答對話和總共 98K 問答對組成。數(shù)據(jù)實例包括兩個群眾工作者之間的交互式對話:(1)提出一系列自由形式問題以盡可能多地了解隱藏的維基百科文本的學生,以及(2)通過提供簡短摘錄來回答問題的老師(跨越)來自文本。

● 下載地址
https://opendatalab.org.cn/QuAC

No.6

TriviaQA

● 發(fā)布方:華盛頓大學 · 艾倫人工智能研究所

● 發(fā)布時間:2017

● 簡介
TriviaQA 是一個現(xiàn)實的基于文本的問答數(shù)據(jù)集,其中包括來自維基百科和網(wǎng)絡的 662K 文檔中的 950K 問答對。該數(shù)據(jù)集比斯坦福問答數(shù)據(jù)集(SQuAD)等標準 QA 基準數(shù)據(jù)集更具挑戰(zhàn)性,因為問題的答案可能無法通過跨度預測直接獲得,而且上下文很長。TriviaQA 數(shù)據(jù)集由人工驗證和機器生成的 QA 子集組成。

● 下載地址
https://opendatalab.com/TriviaQA

No.7

WikiQA (Wikipedia open-domain Question Answering)

● 發(fā)布方:微軟研究院

● 發(fā)布時間:2015

● 簡介
WikiQA 語料庫是一組公開可用的問題和句子對,收集和注釋用于研究開放域問答。為了反映一般用戶的真實信息需求,使用必應查詢日志作為問題來源。每個問題都鏈接到一個可能有答案的維基百科頁面。由于 Wikipedia 頁面的摘要部分提供了有關該主題的基本且通常最重要的信息,因此本部分中的句子被用作候選答案。該語料庫包括 3,047 個問題和 29,258 個句子,其中 1,473 個句子被標記為相應問題的答案句。

● 下載地址
https://opendatalab.com/WikiQA

二、書籍類

No.8

The Pile

● 發(fā)布方:EleutherAI

● 發(fā)布時間:2020

● 簡介
The Pile 是一個 825 GiB 多樣化的開源語言建模數(shù)據(jù)集,由 22 個較小的高質量數(shù)據(jù)集組合在一起組成。

● 下載地址
https://openxlab.org.cn/datasets?keywords=pile&lang=zh-CN

No.9

BookCorpus

● 發(fā)布方:多倫多大學 · 麻省理工學院

● 發(fā)布時間:2015

● 簡介
BookCorpus是由未出版的作者撰寫的大量免費小說書籍,其中包含16種不同子流派 (例如,浪漫,歷史,冒險等) 的11,038本書 (約74m句子和1g單詞)。

● 下載地址
https://opendatalab.org.cn/BookCorpus

No.10

EXEQ-300k

● 發(fā)布方:北京大學 · 賓夕法尼亞州立大學 · 中山大學

● 發(fā)布時間:2020

● 簡介
EXEQ-300k 數(shù)據(jù)集包含 290,479 個詳細問題以及來自數(shù)學堆棧交換的相應數(shù)學標題。該數(shù)據(jù)集可用于從詳細的數(shù)學問題中生成簡潔的數(shù)學標題。

● 下載地址
https://opendatalab.org.cn/EXEQ-300k

三、期刊類

No.11

Pubmed

● 發(fā)布方:馬里蘭大學

● 發(fā)布時間:2008

● 簡介
Pubmed 數(shù)據(jù)集包含來自 PubMed 數(shù)據(jù)庫的 19717 篇與糖尿病相關的科學出版物,分為三類之一。引文網(wǎng)絡由 44338 個鏈接組成。數(shù)據(jù)集中的每個出版物都由字典中的 TF/IDF 加權詞向量描述,該字典由 500 個唯一詞組成。

● 下載地址
https://opendatalab.org.cn/Pubmed

No.12

PubMed Paper Reading Dataset

● 發(fā)布方:伊利諾伊大學厄巴納香檳分校 · 滴滴實驗室 · 倫斯勒理工學院 · 北卡羅來納大學教堂山分校 · 華盛頓大學

● 發(fā)布時間:2019

● 簡介
該數(shù)據(jù)集從 PubMed 收集了 14,857 個實體、133 個關系以及對應于標記化文本的實體。它包含 875,698 個訓練對、109,462 個開發(fā)對和 109,462 個測試對。

● 下載地址
https://opendatalab.org.cn/PubMed_Paper_Reading_Dataset

No.13

PubMed RCT (PubMed 200k RCT)

● 發(fā)布方:Adobe Research · 麻省理工學院

● 發(fā)布時間:2017

● 簡介
PubMed 200k RCT 是基于 PubMed 的用于順序句子分類的新數(shù)據(jù)集。該數(shù)據(jù)集由大約 200,000 個隨機對照試驗摘要組成,總計 230 萬個句子。每個摘要的每個句子都使用以下類別之一標記其在摘要中的角色:背景、目標、方法、結果或結論。發(fā)布此數(shù)據(jù)集的目的是雙重的。首先,用于順序短文本分類(即對出現(xiàn)在序列中的短文本進行分類)的大多數(shù)數(shù)據(jù)集都很小:作者希望發(fā)布一個新的大型數(shù)據(jù)集將有助于為這項任務開發(fā)更準確的算法。其次,從應用的角度來看,研究人員需要更好的工具來有效地瀏覽文獻。自動對摘要中的每個句子進行分類將有助于研究人員更有效地閱讀摘要,尤其是在摘要可能很長的領域,例如醫(yī)學領域。

● 下載地址
https://opendatalab.org.cn/PubMed_RCT

No.14

MedHop

● 發(fā)布方:倫敦大學學院 · Bloomsbury AI

● 發(fā)布時間:2018

● 簡介
與 WikiHop 格式相同,MedHop 數(shù)據(jù)集基于 PubMed 的研究論文摘要,查詢是關于藥物對之間的相互作用。必須通過結合來自藥物和蛋白質的一系列反應的信息來推斷出正確的答案。

● 下載地址
https://opendatalab.org.cn/MedHop

No.15

ArxivPapers

● 發(fā)布方:Facebook · 倫敦大學學院 · DeepMind

● 發(fā)布時間:2020

● 簡介
ArxivPapers 數(shù)據(jù)集是 2007 年至 2020 年間在 arXiv.org 上發(fā)表的超過 104K 篇與機器學習相關的未標記論文集合。該數(shù)據(jù)集包括大約 94K 篇論文(可以使用 LaTeX 源代碼),這些論文采用結構化形式,其中論文分為標題、摘要、部分、段落和參考文獻。此外,該數(shù)據(jù)集包含從 LaTeX 論文中提取的超過 277K 表。由于論文許可,數(shù)據(jù)集作為元數(shù)據(jù)和開源管道發(fā)布,可用于獲取和轉換論文。

● 下載地址
https://opendatalab.org.cn/ArxivPapers

No.16

unarXive

● 發(fā)布方:Karlsruhe Institute of Technology

● 發(fā)布時間:2020

● 簡介
包含出版物全文、帶注釋的文本引用和元數(shù)據(jù)鏈接的學術數(shù)據(jù)集。unarXive 數(shù)據(jù)集包含 100 萬篇純文本論文 6300 萬引文上下文 3900 萬參考字符串 1600 萬個連接的引文網(wǎng)絡 數(shù)據(jù)來自 1991 年至 2020/07 年期間 arXiv 上的所有 LaTeX 源,因此質量高于生成的數(shù)據(jù)從 PDF 文件。此外,由于所有施引論文均以全文形式提供,因此可以提取任意大小的引文上下文。數(shù)據(jù)集的典型用途是引文推薦中的方法 引文上下文分析 參考字符串解析 生成數(shù)據(jù)集的代碼是公開的。

● 下載地址
https://opendatalab.org.cn/unarXive

No.17

arXiv Summarization Dataset

● 發(fā)布方:Georgetown University · Adobe Research

● 發(fā)布時間:2018

● 簡介
這是一個用于評估研究論文摘要方法的數(shù)據(jù)集。

● 下載地址
https://opendatalab.org.cn/arXiv_Summarization_Dataset

No.18

SCICAP

● 發(fā)布方:賓夕法尼亞州立大學

● 發(fā)布時間:2021

● 簡介
SciCap一種基于計算機科學arXiv論文的大型圖形字幕數(shù)據(jù)集,2010年發(fā)表,2020年。SCICAP包含超過416k個圖形,這些圖形集中在從290,000多篇論文中提取的一個顯性圖形類型-圖形圖。

● 下載地址
https://opendatalab.org.cn/SCICAP

No.19

MathMLben (Formula semantics benchmark)

● 發(fā)布方:康斯坦茨大學 · 美國國家標準技術研究所

● 發(fā)布時間:2017

● 簡介
MathMLben 是用于數(shù)學格式轉換(LaTeX ? MathML ? CAS)的評估工具的基準。它包含從 NTCIR 11/12 arXiv 和 Wikipedia 任務/數(shù)據(jù)集、NIST 數(shù)學函數(shù)數(shù)字圖書館 (DLMF) 和使用 AnnoMathTeX 公式和標識符名稱推薦系統(tǒng) (https://annomathtex.wmflabs.組織)。

● 下載地址
https://opendatalab.org.cn/MathMLben

四、Reddit內容聚合社區(qū)類

No.20

OpenWebText

● 發(fā)布方:華盛頓大學 · Facebook AI Research

● 發(fā)布時間:2019

● 簡介
OpenWebText 是 WebText 語料庫的開源再造。該文本是從 Reddit 上共享的 URL 中提取的 Web 內容,至少獲得了 3 次贊成(38GB)。

● 下載地址
https://opendatalab.org.cn/OpenWebText

五、Common Crawl網(wǎng)絡爬蟲開放數(shù)據(jù)庫

No.21

C4 (Colossal Clean Crawled Corpus)

● 發(fā)布方:Google Research

● 發(fā)布時間:2020

● 簡介
C4 是 Common Crawl 的網(wǎng)絡爬蟲語料庫的一個巨大的、干凈的版本。它基于 Common Crawl 數(shù)據(jù)集:https://commoncrawl.org。它用于訓練 T5 文本到文本的 Transformer 模型??梢詮?allennlp 以預處理的形式下載數(shù)據(jù)集。

● 下載地址
https://opendatalab.com/C4

No.22

Common Crawl

● 發(fā)布方:法國國家信息與自動化研究所 · 索邦大學

● 發(fā)布時間:2019

● 簡介
Common Crawl 語料庫包含在 12 年的網(wǎng)絡爬取過程中收集的 PB 級數(shù)據(jù)。語料庫包含原始網(wǎng)頁數(shù)據(jù)、元數(shù)據(jù)提取和文本提取。Common Crawl 數(shù)據(jù)存儲在 Amazon Web Services 的公共數(shù)據(jù)集和全球多個學術云平臺上。

● 下載地址
https://opendatalab.org.cn/Common_Crawl

六、其他類

代碼數(shù)據(jù)集

No.23

CodeSearchNet

● 發(fā)布方:微軟研究院 · GitHub

● 發(fā)布時間:2020

● 簡介
CodeSearchNet 語料庫是一個大型函數(shù)數(shù)據(jù)集,其中包含來自 GitHub 上的開源項目的用 Go、Java、JavaScript、PHP、Python 和 Ruby 編寫的相關文檔。CodeSearchNet 語料庫包括:* 總共 600 萬個方法 * 其中 200 萬個方法具有相關文檔(文檔字符串、JavaDoc 等) * 指示找到數(shù)據(jù)的原始位置(例如存儲庫或行號)的元數(shù)據(jù)。

● 下載地址
https://opendatalab.org.cn/CodeSearchNet

No.24

StaQC

● 發(fā)布方:俄亥俄州立大學 · 華盛頓大學 · 富士通研究所

● 發(fā)布時間:2018

● 簡介
StaQC(Stack Overflow 問題代碼對)是迄今為止最大的數(shù)據(jù)集,大約有 148K Python 和 120K SQL 域問題代碼對,它們是使用 Bi-View Hierarchical Neural Network 從 Stack Overflow 中自動挖掘出來的。

● 下載地址
https://opendatalab.org.cn/StaQC

No.25

CodeExp

● 發(fā)布方:北京航空航天大學 · 微軟研究院 · 多倫多大學

● 發(fā)布時間:2022

● 簡介
我們提供了一個python代碼-docstring語料庫CodeExp,其中包含 (1) 2.3的大分區(qū) 百萬原始代碼-docstring對,(2) 一個介質 158,000對的分區(qū)從 使用學習的過濾器的原始語料庫,以及 (3) 具有嚴格的人類13,000對的分區(qū) 注釋。我們的數(shù)據(jù)收集過程利用了從人類那里學到的注釋模型 自動過濾高質量的注釋 來自原始GitHub數(shù)據(jù)集的代碼-docstring對。

● 下載地址
https://opendatalab.org.cn/CodeExp

No.26

ETH Py150 Open

● 發(fā)布方:印度科學理工學院 · Google AI Research

● 發(fā)布時間:2020

● 簡介
來自 GitHub 的 740 萬個 Python 文件的大規(guī)模去重語料庫。

● 下載地址
https://opendatalab.org.cn/ETH_Py150_Open

論壇數(shù)據(jù)集

No.27

Federated Stack Overflow

● 發(fā)布方:Google Research

● 發(fā)布時間:2022

● 簡介
數(shù)據(jù)由所有問題和答案的正文組成。Body被解析成句子,任何少于 100 個句子的用戶都會從數(shù)據(jù)中刪除。最少的預處理如下進行:小寫文本, 對 HTML 符號進行轉義, 刪除非ASCII符號, 單獨的標點符號作為單獨的標記(撇號和連字符除外), 去除多余的空白, 用特殊標記替換 URLS。此外,還提供以下元數(shù)據(jù):創(chuàng)建日期 問題標題 問題標簽 問題分數(shù) 類型(“問題”或“答案”)。

● 下載地址
https://opendatalab.org.cn/Federated_Stack_Overflow

No.28

QUASAR (QUestion Answering by Search And Reading)

● 發(fā)布方:卡內基梅隆大學

● 發(fā)布時間:2017

● 簡介
搜索和閱讀問答(QUASAR)是一個由QUASAR-S和QUASAR-T組成的大規(guī)模數(shù)據(jù)集。這些數(shù)據(jù)集中的每一個都旨在專注于評估旨在理解自然語言查詢、大量文本語料庫并從語料庫中提取問題答案的系統(tǒng)。具體來說,QUASAR-S 包含 37,012 個填空題,這些問題是使用實體標簽從流行的網(wǎng)站 Stack Overflow 收集的。QUASAR-T 數(shù)據(jù)集包含從各種互聯(lián)網(wǎng)資源收集的 43,012 個開放域問題。該數(shù)據(jù)集中每個問題的候選文檔是從基于 Apache Lucene 的搜索引擎中檢索的,該搜索引擎構建在 ClueWeb09 數(shù)據(jù)集之上。

● 下載地址
https://opendatalab.org.cn/QUASAR

No.29

GIF Reply Dataset

● 發(fā)布方:卡內基梅隆大學

● 發(fā)布時間:2017

● 簡介
發(fā)布的 GIF 回復數(shù)據(jù)集包含 1,562,701 次 Twitter 上的真實文本 - GIF 對話。在這些對話中,使用了 115,586 個獨特的 GIF。元數(shù)據(jù),包括 OCR 提取的文本、帶注釋的標簽和對象名稱,也可用于該數(shù)據(jù)集中的一些 GIF。

● 下載地址
https://opendatalab.org.cn/GIF_Reply_Dataset

視頻字幕數(shù)據(jù)集

No.30

TVC (TV show Captions)

● 發(fā)布方:北卡羅來納大學教堂山分校

● 發(fā)布時間:2020

● 簡介
電視節(jié)目 Caption 是一個大規(guī)模的多模態(tài)字幕數(shù)據(jù)集,包含 261,490 個字幕描述和 108,965 個短視頻片段。TVC 是獨一無二的,因為它的字幕也可以描述對話/字幕,而其他數(shù)據(jù)集中的字幕僅描述視覺內容。

● 下載地址
https://opendatalab.org.cn/TVC

以上就是本次分享,因為篇幅有限,更多數(shù)據(jù)集,請訪問OpenDataLab官網(wǎng):https://opendatalab.org.cn/文章來源地址http://www.zghlxwxcb.cn/news/detail-446153.html

到了這里,關于收藏丨30個大語言模型訓練相關的數(shù)據(jù)集分享的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉載,請注明出處: 如若內容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包