首先考慮企業(yè)已經擁有的、或者可以使用的、符合要求的數(shù)據和數(shù)據集。接下來,你需要決策點透明度,以及信號值來評估可用性、可行性和業(yè)務效果等因素,或者潛在表現(xiàn)與競爭對手相比的數(shù)據等。
為了解決訓練數(shù)據短缺和質量差的難題,微軟研究院發(fā)布了一個專門用于生成高質量合成數(shù)據的的AI Agent——Agent Instruct。
商湯科技等機構聯(lián)合開源了百億級圖文交錯數(shù)據集OmniCorpus,規(guī)模是現(xiàn)有數(shù)據集的15倍,包含86億張圖像和16,960億個文本標記。OmniCorpus數(shù)據集在多語言、多類型數(shù)據抓取上進行了優(yōu)化,提高了內容提取的質量和完整性。通過人工反饋和自動過濾規(guī)則,確保了數(shù)據集的高質量。在VQA和Image Captioning等測試中,基于OmniCorpus預訓練的模型表現(xiàn)出色,對訓練多模態(tài)大模型有重要幫助。
弱智吧的數(shù)據真的這么厲害嗎?持著好奇和懷疑的態(tài)度,我們仔細閱讀了這篇論文,「弱智吧的數(shù)據碾壓其他數(shù)據」這個結論有待深入討論和探索。我們提出以下幾個疑問:
在大模型領域英語一直是訓練數(shù)據最重要的語言,但由于中英文的結構和文化差異,直接將英文數(shù)據集翻譯成中文并不理想。所以,為了填補高質量中文數(shù)據集的空白,研究人員開發(fā)出了COIG-CQIA數(shù)據集。
澳大利亞維多利亞州日前宣布正式推出維多利亞州數(shù)字孿生(DTV)平臺,旨在提供相關數(shù)據的可視化、探索和規(guī)劃。