返回

LLM大模型训练数据(澳门社会综合数据类 870G)
HK$39,999.00
澳門社會綜合數據集概述: 該數據集全面涵蓋了澳門社會的各個方面,內容包括本地新聞、行業人物、最新的社會制度與法律、學術研究、文化人文以及金融中心數據,包括文本,圖片,音頻,視頻等數據。 。時間跨度為1850年至2024年,適用於大型語言模型(LLM)和AI演算法的訓練,支援文本生成、知識問答、情感分析等多種自然語言處理任務。 資料格式: 文字檔案: 資料格式為.txt、.csv 和.json,支援結構化和非結構化文本,便於匯入到LLM訓練框架中使用。 元資料: 提供詳細的元數據,如來源、時間、作者等信息,格式為.csv 和.json。 註釋資料: 部分資料集提供預先註釋的標註,如實體識別和文字分類,格式為.json 或.xml。 含少量影像、影片、音訊檔案。 交付流程: 購買: 用戶在平台上選擇並購買資料包。 付款: 完成付款後,用戶將收到下載連結或資料傳輸說明。 資料交付: 使用者可以將資料下載到本機儲存設備,完成資料取得。 發售日期: 2024年9月19日(229G) 2025年3月19日(更新至最新870G)
數量
加入購物車
更多詳情
澳門社會綜合資料集(1850–2024)
概述:
該數據集全面涵蓋了澳門社會的各個方面,內容包括本地新聞、行業人物、最新的社會制度與法律、學術研究、文化人文以及金融中心數據,包括文本,圖片,音頻,視頻等數據。 。時間跨度為1850年至2024年,適用於大型語言模型(LLM)和AI演算法的訓練,支援文本生成、知識問答、情感分析等多種自然語言處理任務。
資料格式:
- 文字檔案:資料格式為.txt、.csv 和.json,支援結構化和非結構化文本,以便於匯入到LLM訓練框架中使用。
- 元資料:提供詳細的元數據,如來源、時間、作者等信息,格式為.csv 和.json。
- 註釋資料:部分資料集提供預先註釋的標註,如實體識別和文字分類,格式為.json 或.xml。
數據採集和來源:
資料集源自澳門各大權威資源,包括:
- 新聞檔案:收集自1850年至2024年的澳門本地報紙和新聞報道,涵蓋政治、社會、經濟領域的重大事件。
- 產業人物:涵蓋澳門各行各業的著名人物的傳記數據,包括金融、文化、政治等領域的重要人物。
- 法律文件:收錄澳門最新的法律法規、政府公告以及社會制度,為法律和社會研究提供了豐富的數據支援。
- 學術文獻:匯集澳門的學術論文和研究成果,涵蓋多學科領域。
- 文化與人文資料:涵蓋澳門的文化遺產、藝術評論與社會變遷,展現澳門獨特的人文風貌。
- 金融數據:包括澳門金融中心的數據,如經濟報告、市場指數等,提供豐富的金融研究基礎。
資料預處理與訓練方法:
- 預處理:資料集經過標準化處理,包括文字清理、去重、敏感資訊過濾等步驟,確保資料的高品質和合規性。
- 訓練方法:優化用於主流LLM訓練框架,如transformer、GPT等。資料包隨附微調指南,支援聊天機器人、摘要生成等特定應用。
- 資料增強:資料集透過技術手段進行增強,如文字釋義、同義詞替換和隨機句子排序,確保模型訓練的多樣性。
最新情況:
- 2024年數據更新:數據集包含最新的2024年數據,確保模型能夠捕捉澳門最新的社會、法律和經濟動態。
- 持續更新支援:資料集支援定期更新,購買者可透過訂閱取得最新的修補程式包,確保資料的時效性。
交付流程:
- 購買:用戶在平台上選擇並購買資料包。
- 付款:完成付款後,用戶將收到下載連結或資料傳輸說明。
- 資料交付:使用者可以將資料下載到本機儲存設備,完成資料擷取。
發布日期:
2024年9月19日
2025年3月19日(更新至最新870G)
更新套件:
- 版本控制:資料集版本控制清晰,隨時提供新資料的增量更新包。
- 更新頻率:一年兩次更新,或依使用者需求客製化更新服務。