一個新模型的誕生
自主研發繁體中文大型語言模型的路徑
自主研發繁體中文大型語言模型的路徑
步驟1 | 步驟2 | 步驟3 | 步驟4 | 步驟5 | 步驟6 | 步驟7 | 步驟8 | 步驟9 | 步驟10 |
---|---|---|---|---|---|---|---|---|---|
了解大型語言模型應用場景與規模 | 處理文本數據 | 編寫注意力機制 | 從零開始實現 GPT 模型 | 在未標記數據上進行預訓練 | 文本分類的微調 | 結合人類反饋的微調 | 安全對齊 | 基準驗測 | 實務中使用大型語言模型 |
了解大型語言模型應用場景與規模 設定目標要用的規模大小,例如: 7B、13B、70B、130B、220B | 處理繁體中文文本資料 專業領域的資料清洗與整理 | 編寫注意力機制 檢驗資料與模型的困惑度 | 從零開始實現 GPT 模型 (或是其他基礎模型再加工) | 在未標記資料/數據上進行預訓練 | 文本分類的微調 領域深化/模型特化的形塑 | 結合人類反饋的微調 使用繁體中文測試集評估/抑制偏見 | 安全對齊/使用繁體中文測試集測驗檢定 | 基準驗測/使用繁體中文測試集測驗檢定 | 大語言模型的落地與產品化 改變知識的檢索與提供方式 與工具增強協作的應用 智慧型決策與任務的代理 |
台灣在地團隊、領域同業或研究機構現況:
TW-Bench(AGIB.tw) 主持人:Teemo資料整理日期:2024/10/14
不定期更新進度,歡迎聯繫聯絡人補充或更新內容.