返回

LLM大模型训练数据(香港社会综合类900G)
HK$39,999.00
產品名稱: 香港社會綜合資料包(1850–2024) 概述: 該資料集是精心整理的集合,涵蓋了香港社會的多個領域,包括本地新聞、行業人物、法律制度、學術、人文學科以及金融數據,包括文本,圖片,音頻,視頻等數據。時間跨度長達兩個世紀(1850–2024)。它為大型語言模型(LLM)及AI演算法的訓練提供了豐富的資源,適用於文本生成、情緒分析和知識檢索等任務。 資料格式: 文字檔案: 結構化和非結構化文本,格式包括.txt、.csv 和.json,便於整合到LLM訓練框架中。 元資料: 包含元資料如發布日期、作者資訊和來源詳細信息,格式為.csv 和.json。 註: 預先註釋的資料集,用於自然語言處理任務,包括實體識別和主題分類(.json 或.xml 格式)。 含少量影像、影片、音訊檔案。 交付流程: 完成購買後,系統自動將資料包下載連結發送你的郵箱中,在下載連結中直接下載提取即可。 如購買多個資料包/金額較大(超過10萬港幣),可分批下單支付,或聯絡客服取得大額付款方式(例如企業支付寶、企業轉帳、虛擬貨幣等)。 發布日期:2024年9月19號
數量
加入購物車
更多詳情
產品名稱:
香港社會綜合資料集(1850–2024)
概述:
該數據集是精心整理的集合,涵蓋了香港社會的多個領域,包括本地新聞、行業人物、法律制度、學術、人文學科以及金融數據,包括文本,圖片,音頻,視頻等數據。時間跨度長達兩個世紀(1850–2024)。它為大型語言模型(LLM)及AI演算法的訓練提供了豐富的資源,適用於文本生成、情緒分析和知識檢索等任務。
資料格式:
- 文字檔案:結構化和非結構化文本,格式包括.txt、.csv 和.json,便於整合到LLM訓練框架中。
- 元資料:包含元資料如發布日期、作者資訊和來源詳細信息,格式為.csv 和.json。
- 註釋:預先註釋的資料集,用於自然語言處理任務,包括實體識別和主題分類(.json 或.xml 格式)。
數據採集和來源:
此資料集從權威來源收集,包括:
- 新聞檔案:本地報紙和媒體,涵蓋了從1850年到2024年的政治、社會和經濟事件。
- 行業人物:香港各行業的關鍵人物傳記數據,包括商業、金融和政治領域。
- 法律文件:最新的香港法律、法規和政府公告,提供法律和社會背景資訊。
- 學術收藏:香港大學和智庫的學術文章和研究報告。
- 人文與文化資料:反映香港文化發展的人文文本、藝術評論與社會趨勢。
- 金融數據:來自香港金融中心的歷史和即時數據,包括股票市場指數和經濟報告。
資料預處理和訓練方法:
- 預處理:資料經過嚴格的清理、標準化和標記化處理,確保過濾敏感資訊並遵守隱私法規。
- 訓練方法:針對transformer、GPT等最新LLM架構進行最佳化,資料集包含特定用例的微調說明,如聊天機器人開發、摘要產生或情緒分析。
- 增強技術:為提高資料的穩健性,資料集還包括擴充技術,如釋義、同義詞替換和句子重排。
最新情況:
- 2024年更新:資料集包含2024年的最新數據,確保透過此資料集訓練的模型能夠反映香港最新的法律、經濟和社會環境。
- 持續更新支援:提供定期更新,確保資料集與香港不斷發展的社會格局保持同步,購買者可以透過訂閱或直接下載獲得更新。
交付流程:
- 購買:用戶可在平台上選擇該資料集。
- 付款:透過安全支付流程完成交易。
- 交付:付款確認後,用戶將收到下載連結或資料傳輸說明,交付方式將根據用戶儲存裝置進行客製化。
發布日期:
2024年9月19日
更新套件:
- 版本控制:資料集採用版本控制發布,並提供新資料的更新包。
- 更新頻率:更新包將每半年發布一次,或根據高級訂閱用戶的請求進行更新。