
Cursor 生態代碼訓練數據「超級擴容包」(≥10TB / 10,000+GB)|大模型訓練語料|輔助第一版Cursor數據包
HK$1.00 - HK$199,000.00
產品介紹
Cursor 生態代碼訓練數據「超級擴容包」(≥10TB / 10,000+GB)
專為能“寫出可運行軟件”的類 Cursor 模型(代碼補全/生成/修復/Agent)持續訓練而打造的大規模高質量語料。 我們已與相關數據提供方達成授權,新增大體量可調用數據源,現已上架並支持自助下單。
價格
標準版 1500G:HKD 99,000(9.9W) (第一版,非本鏈接產品)
超級擴容包 ≥10TB:HKD 199,000(19.9W)(本鏈接產品與第一版數據不重復,但輔助第一版)
核心價值
生態級覆蓋:不止源碼,涵蓋 API/SDK 使用、依賴管理、配置與部署要點。
可執行導向:面向“能跑通”組織與標註,提升編譯/運行通過率與 API 成功率。
高質量清洗:去重、脫敏、許可掃描與結構化標識,可直接用於預訓練/SFT。
專為代碼模型:更適配 Code LLM、Agent、IDE Copilot、RAG+執行等場景。
數據內容構成(示例維度)
代碼與依賴:多語言源碼(Python/JS/TS/Go/Java/C# 等)、構建與依賴文件(requirements.txt、package.json、go.mod、Dockerfile、CI 配置)、環境與連接模板(已脫敏)。
第三方服務知識:API/SDK 要點 ↔ 代碼示例對齊;常見生態(如支付/消息/存儲/搜索/AI/雲平臺)的調用範式與錯誤處理;OpenAPI/GraphQL 結構與客戶端樣例。
工程化與質量:任務/提交信息 ↔ 變更 diff;常見錯誤日誌 ↔ 修復補丁;單測樣例與覆蓋率(抽樣)。
訓練友好映射:需求/指令 → 代碼片段/補丁 的成對樣本;工具/CLI 調用與腳手架生成軌跡。
Cursor生態程式碼訓練數據 超級擴容包 ≥10TB
專為能「寫出可運行軟體」的類 Cursor 模型(程式碼補全/生成/修復/Agent)打造。
在 1500G 標準版基礎上,新增 ≥10TB(10,000+GB)超級擴容包,已完成授權接入,支援自助下單與企業客製。
價格
標準版 1500G:HKD 99,000(9.9W)
超級擴容包 ≥10TB:HKD 199,000(19.9W)
一、產品概述
本數據不只「單倉原始碼」,而是圍繞真實開發全流程,涵蓋第三方服務呼叫、相依與建置、錯誤修復、文件—實作對齊等生態知識,更貼近 IDE/Agent 的可執行場景。適合打造類 Cursor 的「可落地」軟體模型與智慧開發代理。
數據規模:≥10TB(擴容包)
官網下單:Neuronicx.com
支援:企業客製擴容/行業專用包(電商、內容、客服、SaaS 等)
二、核心價值
生態級覆蓋:不只原始碼,涵蓋 API/SDK 使用、相依管理、設定與部署要點。
可執行導向:面向「能跑通」的組織與標註,提升編譯/運行通過率與 API 成功率。
高品質清洗:去重、脫敏、授權掃描與結構化標記,可直接用於預訓練/SFT。
專為 Code LLM:更適配 Code LLM、Agent、IDE Copilot、RAG+執行等場景。
三、數據內容構成(示例)
程式碼與相依:多語言原始碼(Python/JS/TS/Go/Java/C# 等)、建置與相依檔(
requirements.txt
、package.json
、go.mod
、Dockerfile、CI 設定)、環境與連線樣板(已脫敏)。第三方服務知識:API/SDK 要點 ↔ 程式碼範例對齊;常見生態(支付/訊息/儲存/搜尋/AI/雲)呼叫範式與錯誤處理;OpenAPI/GraphQL 結構與客戶端樣例。
工程化與品質:任務/提交資訊 ↔ 變更 diff;常見錯誤日誌 ↔ 修復補丁;單元測試樣例與覆蓋率(抽樣)。
訓練友好映射:需求/指令 → 程式碼片段/補丁 的成對樣本;工具/CLI 呼叫與腳手架生成軌跡。
四、標註與清洗流程(關鍵環節)
結構化標籤(語言/領域/功能/第三方服務/複雜度/可執行性) → 語義與 AST 雙重去重 → 授權識別與全量脫敏 → 編譯/運行抽測 → 毒性與不當內容過濾。
五、交付與整合
交付:S3/OSS 直鏈、專線或加密硬碟寄送
格式:JSONL/Parquet(樣本與標註)、
tar.gz
/Git bundle(程式碼與資源)配套:示例解析腳本、訓練/微調參考配置、數據字典
相容:主流訓練框架與檢索系統;支援與你現有語料做去重對齊
六、版本與定價
標準版 1500G:HKD 99,000(一次性授權,含交付支持) (第一版,非本鏈接產品)
超級擴容包 ≥10TB:HKD 199,000(本鏈接產品與第一版數據不重復,但輔助第一版)
適合繼續預訓練(CPT)與大規模 SFT,增強長上下文與多技術棧覆蓋
可選行業專包/生態增強(新增特定第三方呼叫樣例)
提供更強的「需求 → 程式碼 → 測試/部署」成對數據
客製版依範圍報價,簽署 NDA 與《數據使用與合規協議》後啟動。
七、購買流程
官網下單(或聯絡企業銷售) → 2) 簽署《數據使用與合規協議》 → 3) 開通下載/傳輸並交付數據說明書 → 4) 技術對接與交付確認(含校驗與補傳保障)。
八、合規與授權
來源包含開源/自研/授權數據,嚴格脫敏與授權識別;不含敏感個資與金鑰。僅限合法合規用途,禁止用於惡意軟體生成、入侵/攻擊。授權為不可轉售的商業授權;如需轉授權/聯營分發,請洽談企業條款。
常見問題(精要)
能否先評估效果? 可申請小樣本試用片段(簽 NDA 後提供)。
與通用程式碼語料有何不同? 強調「生態+可執行性」:第三方服務呼叫範式、相依/建置、錯誤—修復模式、文件—實作對齊。
是否含私有程式碼? 不含;附授權識別中繼資料便於企業內審;支援按月/季度增量更新服務。