返回

LLM大模型训练数据(新加坡社会综合类500G)
HK$39,999.00
產品名稱: 新加坡社會綜合資料集概述: 該資料集涵蓋了新加坡社會的多個領域,包括本地新聞、行業人物、社會制度與法律、學術研究、文化人文和金融數據,包括文本,圖片,音頻,視頻等數據。 資料時間跨度為1850年至2024年,為大型語言模型(LLM)和AI演算法提供豐富的訓練資料資源,適用於自然語言處理任務,如文字生成、情緒分析和知識檢索等。 資料格式: 文字檔案: 資料格式為.txt、.csv 和.json,支援結構化和非結構化文本,方便整合到LLM訓練框架中使用。 元資料: 包含詳細的元數據,如來源、作者、時間等信息,格式為.csv 和.json。 註釋資料: 部分資料集提供預先註釋的文本,用於實體識別、主題分類等任務,格式為.json 或.xml。 含少量影像、影片、音訊等檔案。 交付流程: 購買: 使用者可以在平台上選擇並購買資料集。 付款: 完成付款後,用戶將收到下載連結或資料傳輸說明。 資料交付: 使用者可以將資料下載到本機儲存設備,完成資料取得。 發布日期: 2024年9月19日
數量
加入購物車
更多詳情
產品名稱:
新加坡社會綜合資料集(1850–2024.9)
概述:
該數據集涵蓋了新加坡社會的多個領域,包括本地新聞、行業人物、社會制度與法律、學術研究、文化人文和金融數據,包括文本,圖片,音頻,視頻等數據。
資料時間跨度為1850年至2024年,為大型語言模型(LLM)和AI演算法提供豐富的訓練資料資源,適用於自然語言處理任務,如文字生成、情緒分析和知識檢索等。
資料格式:
- 文字檔案:資料格式為.txt、.csv 和.json,支援結構化和非結構化文本,方便整合到LLM訓練框架中使用。
- 元資料:包含詳細的元數據,如來源、作者、時間等信息,格式為.csv 和.json。
- 註釋資料:部分資料集提供預先註釋的文本,用於實體識別、主題分類等任務,格式為.json 或.xml。
數據採集和來源:
此資料集來自新加坡多個權威資源,包括:
- 新聞檔案:收錄新加坡從1850年至2024年的本地新聞報道,涵蓋社會、政治、經濟等重要事件。
- 產業人物:涵蓋新加坡各產業的重要人物傳記數據,涉及商業、科技、金融、文化等領域。
- 法律文件:包括最新的法律法規和政府公告,提供最新的社會和法律背景資訊。
- 學術文獻:收集自新加坡大學和研究機構的學術論文,涵蓋多學科研究領域。
- 人文與文化數據:涵蓋新加坡的文化遺產、藝術評論、社會變遷等內容,展現其多元文化的獨特性。
- 金融數據:包括新加坡的金融數據、市場報告和經濟趨勢分析,為金融研究提供寶貴的數據支援。
資料預處理與訓練方法:
- 預處理:資料經過嚴格的清理和標準化處理,確保資料的完整性和合規性,且符合隱私保護和資料安全標準。
- 訓練方法:優化用於支援主流LLM架構,如Transformer、GPT,提供適用於特定任務的微調指南,如自動化文字產生和問答系統。
- 資料增強:資料集透過擴展技術(如同義詞替換、句子重排)來增加多樣性,提升模型訓練的穩健性。
最新情況:
- 2024年更新:資料集包含2024年的最新數據,確保模型可以反映新加坡最新的社會、經濟和法律環境。
- 持續更新支援:資料集支援持續的更新,以確保與新加坡社會的最新發展保持同步,用戶可以透過訂閱獲取最新的更新包。
交付流程:
- 購買:用戶可以在平台上選擇並購買資料集。
- 付款:完成付款後,用戶將收到下載連結或資料傳輸說明。
- 資料交付:使用者可以將資料下載到本機儲存設備,完成資料擷取。
發布日期:
2024年9月19日
更新套件:
- 版本控制:資料集版本清晰,每次更新都附帶版本號,確保使用者隨時取得最新資料。
- 更新頻率:定期更新,每年兩次,或根據使用者需求提供更頻繁的更新。