字節跳動人工智能團隊 Seed Team 向 HuggingFace 提交拉取請求準備推出 Seed-OSS 模型,現在字節跳動已經發布 Seed-OSS-36B 系列模型。
Seed 系列模型已經被字節跳動用于豆包聊天機器人等產品,此次開源的 Seed-OSS 可能是字節跳動基于 Seed 專門準備的開源版本,目前尚不清楚 Seed 與 Seed-OSS 之間有多大差距。
此次發布的 Seed-OSS-36B 版有以下權重:
- Seed-OSS-36B-Base 含合成數據
- Seed-OSS-36B-Base 不含合成數據
- Seed-OSS-36B-Instruct
其中合成數據版通過額外的指令數據進行訓練可以提供更高的基準測試分數,也可以被視為是更高效的通用模型;不含合成數據版則為 AI 模型研究者提供一個無偏見且適合基礎研究工作的干凈模型。
Seed-OSS-36B-Instruct 版則是進行額外訓練并優先考慮任務執行和指令遵循,這與其他版本的基礎模型相比有著明顯區別,開發者可以根據自己的需要選擇不同的模型。
采用 Apache-2.0 許可證發布:
此次字節跳動發布的 Seed-OSS-36B 系列采用行業主流的 Apache-2.0 許可證,這意味著無論是開發者還是企業都可以免費使用模型、修改模型或基于該模型進行改進并重新分發,可以用于商業應用而不需要向字節跳動支付任何許可費用。
模型技術架構設計:
Seed-OSS-36B 結合因果語言建模、分組查詢注意力機制、SwiGLU 激活函數、RMSNorm 及 RoPE 位置編碼等成熟設計,36B 參數分布于 64 個層級,支持 155,000 個詞的詞匯量。
還有個顯著特點是該模型支持更大的上下文窗口,最大可以支持 512K 上下文,這相當于處理 1600 頁文本,適合處理長文檔和復雜推理鏈。
Seed-OSS-36B 的創新特點是引入了思維預算,允許開發者設置模型在回答前進行的推理量,不同的推理量可能影響模型智能程度或結果準確性,但更低的推理量可以獲得更好的性能(響應速度更快)。
以上就是“字節跳動推出開源AI模型Seed-OSS-36B 支持高達512K上下文可以處理極長的內容”的詳細內容,想要了解更多IT圈內資訊歡迎持續關注編程學習網。
掃碼二維碼 獲取免費視頻學習資料
- 本文固定鏈接: http://www.wangchenghua.com/post/13425/
- 轉載請注明:轉載必須在正文中標注并保留原文鏈接
- 掃碼: 掃上方二維碼獲取免費視頻資料