返回

LLM大模型训练数据(台湾社会综合数据类400G)
HK$39,999.00
產品名稱: 台灣社會綜合數據集概述: 該數據集包含了台灣社會多個領域的豐富內容,包括本地新聞、行業人物、最新的社會制度與法律、學術研究、文化人文以及金融數據,包括文本,圖片,音頻,視頻等數據。 數據涵蓋了1850年至2024年,為大型語言模型(LLM)和AI演算法提供了豐富的訓練資源,適用於文本生成、情感分析、知識問答等自然語言處理任務。 資料格式: 文字檔: 採用.txt、.csv 和.json 格式,支援結構化和非結構化文本,便於導入LLM訓練框架中使用。 元資料: 提供詳細的元資料文件,涵蓋來源、時間、作者等信息,格式為.csv 和.json。 註釋資料: 提供部分標註資料集,包含實體辨識、情緒分析等任務的註釋,格式為.json 或.xml。 含少量影像、影片、音訊檔案。 交付流程: 購買: 使用者可以在平台上選擇並購買該資料集。 付款: 完成付款後,用戶將收到下載連結或資料交付方式的通知。 資料交付: 使用者可以將資料下載至本機儲存設備,資料集將完整交付。 發布日期: 2024年9月19日
數量
加入購物車
更多詳情
產品名稱:
台灣社會綜合資料集
概述:
該數據集包含了台灣社會多個領域的豐富內容,包括本地新聞、行業人物、最新的社會制度與法律、學術研究、文化人文以及金融數據,包括文本,圖片,音頻,視頻等數據。
數據涵蓋了1850年至2024年,為大型語言模型(LLM)和AI演算法提供了豐富的訓練資源,適用於文本生成、情感分析、知識問答等自然語言處理任務。
資料格式:
- 文字檔案:採用.txt、.csv 和.json 格式,支援結構化和非結構化文本,方便導入LLM訓練框架中使用。
- 元資料:提供詳細的元資料文件,涵蓋來源、時間、作者等信息,格式為.csv 和.json。
- 註釋資料:提供部分標註資料集,包含實體辨識、情緒分析等任務的註釋,格式為.json 或.xml。
含少量影像、影片、音訊檔案。
數據採集和來源:
此資料集來自台灣社會的多個權威資源,包括:
- 新聞檔案:收錄1850年至2024年期間的台灣本地新聞報道,涵蓋政治、社會和經濟等領域的重大事件。
- 業界人物:匯集了台灣各行業的重要人物數據,包括企業、金融、文化、科技等領域的領導人物。
- 法律文件:包含台灣最新的法律、社會制度和政府公告,為法律研究和社會科學提供資料支援。
- 學術文獻:來自台灣大學、研究機構的學術論文和研究報告,涵蓋多個學術領域。
- 人文與文化資料:反映台灣的文化遺產、藝術評論和社會變遷,展現台灣獨特的文化風格。
- 金融數據:包括台灣的經濟數據、市場指數、金融報告等,為金融研究提供了寶貴的數據支持。
資料預處理與訓練方法:
- 預處理:資料在導入前經過嚴格的清理和標準化處理,確保資料的高質量,並且符合隱私和安全規定。
- 訓練方法:資料優化用於Transformer、GPT等LLM架構的訓練,提供具體的微調方法以支援多種任務,包括文字生成和知識擷取。
- 增強技術:包含文字資料的擴充技術,如同義詞替換、文字變換和句子重排,提升模型訓練的多樣性和穩健性。
最新情況:
- 2024年更新:資料集包含2024年最新數據,幫助模型反映台灣最新的社會、經濟和法律動態。
- 持續更新支援:透過定期更新,購買者可以獲得最新的社會和法律數據,確保數據集與台灣社會的最新變化保持一致。
交付流程:
- 購買:用戶可以在平台上選擇並購買該資料集。
- 付款:完成付款後,用戶將收到下載連結或資料交付方式的通知。
- 資料交付:使用者可以將資料下載至本機儲存設備,資料集將完整交付。
發布日期:
2024年9月19日
更新套件:
- 版本控制:資料集採用版本控制,提供定期的更新包。
- 更新頻率:每年兩次更新,或根據高級訂閱用戶的需求進行個人化更新。