
Cursor軟件生態代碼數據 1500G|給類似Cursor軟件大模型訓練專用|全新AI大模型訓練數據包|支持企業定制合作|LLM訓練數據包
HK$1.00 - HK$99,999.00
Cursor AI 軟件生態代碼數據(1500G)是為“會寫完整可用軟件”的 LLM/代碼助手打造的訓練數據包。不同於只收集單倉源碼的通用語料,本數據圍繞真實開發全流程,補齊第三方服務調用、依賴管理、錯誤修復、文檔—實現對齊等生態知識,適合打造類似 Cursor 這類“可落地”的軟件模型與智能開發代理(Agent)。
數據規模:≈1500G
價格:HKD 99,000(9.9W)
上線時間:9 月 21 日(現已開售)
支持:企業定制擴容 / 行業專用包
數據包特點
生態級覆蓋:不止源碼,涵蓋第三方 API/SDK 使用知識、依賴與構建、配置與部署要點。
可執行導向:圍繞“能跑通”的目標組織與標註,有助於提升編譯/運行通過率與 API 調用成功率。
高質量清洗:去重、脫敏、許可掃描與結構化標識,便於直接用於預訓練/指令微調。
專為代碼模型:更適配 Code LLM、Agent、IDE Copilot、RAG+執行 等場景。
一、產品概述
資料規模:≈1500G
價格:HKD 99,000(9.9 萬)
上線時間:9 月 21 日(屆時官網可自助下單)
官網:Neuronicx.com
支援:企業客製擴容/行業專用包
二、核心價值
生態級覆蓋:不只原始碼,還涵蓋第三方 API/SDK 使用知識、相依與建置、配置與部署要點。
可執行導向:以「能跑通」為目標組織與標註,有助提升編譯/運行通過率與 API 呼叫成功率。
高品質清理:去重複、脫敏、授權掃描與結構化標註,便於直接用於預訓練/指令微調。
為程式碼模型而設:更契合 Code LLM、Agent、IDE Copilot、RAG+執行 等場景。
三、資料內容構成(示例維度)
程式碼與相依
多語言原始碼:Python/JS/TS/Go/Rust/Java/C#/Bash 等
相依與建置:
requirements.txt
、package.json
、go.mod
、Dockerfile、CI 配置等配置與環境:常見服務連線配置模板與實務(已脫敏)
第三方服務知識
API/SDK 文件要點 ↔ 程式碼呼叫示例對齊
常用生態:支付/訊息/儲存/搜尋/AI 推理/雲平台(如 Stripe、Telegram Bot、OpenAI、AWS 等)的呼叫範式與錯誤處理模式
OpenAPI/GraphQL 等介面結構與客戶端呼叫範例
工程化與品質
任務/提交訊息 ↔ 程式碼變更(commit/PR 摘要與 diff 配對)
常見錯誤日誌 ↔ 修復補丁(error→fix patterns)
單元測試樣例與覆蓋率標記(抽樣維度)
指令到程式碼的對映(訓練友好)
需求/指令 → 程式碼片段/補丁 的成對樣本(便於 SFT)
工具/CLI 呼叫與腳手架生成軌跡(利於 Agent 規劃—執行)
說明:具體第三方品牌僅作「生態範式」示例,所有資料來源均遵循合規蒐集與脫敏處理。
四、AI数据標註與清理流程(關鍵環節)
結構化標註:語言、領域/場景、功能(驗證、支付、儲存、訊息等)、第三方服務、複雜度、可執行性標籤
去重複與歸併:語義與 AST 雙重去重複,去鏡像、去垃圾檔
合規審查:SPDX 授權識別;金鑰/帳號/PII 全量脫敏
品質抽測:編譯/運行抽樣驗證,錯誤與修復模式對齊標註
風險過濾:毒性與不當內容過濾,符合企業安全與合規要求
五、適用場景
打造類似 Cursor 的 IDE 智慧體/程式碼助理
程式碼 LLM 預訓練/指令微調(SFT)、RAG+執行、Agent 規劃—呼叫—除錯鏈路學習
企業內部「應用生成器」、低門檻自動化開發工具
行業專用軟體模型(電商、內容、客服、資料工具等)
六、交付與整合
交付方式:S3/OSS 直鏈、專線傳輸或加密硬碟寄送
檔案格式:JSONL/Parquet(樣本與標註)、
tar.gz
/Git bundle(程式碼與資源)配套資料:樣例解析腳本、訓練/微調參考配置、資料字典
相容性:可用於多數主流訓練框架與向量/檢索系統;支援與你現有語料做去重複對齊
七、版本與定價
標準版 1500G:HKD 99,000(一次性授權,含交付支援)
企業客製版(選配):
體量擴展與行業專包(如支付、電商、社交、SaaS)
新增特定第三方生態與呼叫樣例
提供「需求→程式碼→測試/部署」更強成對資料
註:客製版按範圍報價,簽署 NDA 與資料使用協議後啟動。
八、AI数据包購買流程
官網下單(或聯絡企業業務)
簽署《資料使用與合規協議》
開通下載/傳輸通道並交付資料說明書
技術對接與交付確認(含校驗與補傳保障)
九、合規與使用授權
資料來源包含:開源/自研/授權資料,嚴格脫敏與授權識別;不含敏感個資與金鑰。
僅限合法合規用途;禁止用於惡意軟體生成、入侵/攻擊場景。
授權為不可轉售的商業使用授權;如需轉授權或聯營分發,歡迎洽談企業合作條款。
十、常見問題(FAQ)
Q1:能否先評估效果?
A:可申請小樣本試用片段(簽署 NDA 後提供),用於驗證訓練/微調流程與指標口徑。
Q2:與通用程式碼語料有何不同?
A:本資料強調**「生態與可執行性」**:第三方服務呼叫範式、相依/建置、錯誤—修復模式與文件—實作對齊,這些都是「能寫成可用軟體」的關鍵補全。
Q3:是否包含專有/私有程式碼?
A:不包含。來源合規且已脫敏;同時提供授權識別中繼資料,方便企業內審。