一個新模型的誕生

自主研發繁體中文大型語言模型的路徑

步驟1	步驟2	步驟3	步驟4	步驟5	步驟6	步驟7	步驟8	步驟9	步驟10
了解大型語言模型應用場景與規模	處理文本數據	編寫注意力機制	從零開始實現 GPT 模型	在未標記數據上進行預訓練	文本分類的微調	結合人類反饋的微調	安全對齊	基準驗測	實務中使用大型語言模型
了解大型語言模型應用場景與規模設定目標要用的規模大小，例如： 7B、13B、70B、130B、220B	處理繁體中文文本資料專業領域的資料清洗與整理	編寫注意力機制檢驗資料與模型的困惑度	從零開始實現 GPT 模型 (或是其他基礎模型再加工)	在未標記資料/數據上進行預訓練	文本分類的微調領域深化/模型特化的形塑	結合人類反饋的微調使用繁體中文測試集評估/抑制偏見	安全對齊/使用繁體中文測試集測驗檢定	基準驗測/使用繁體中文測試集測驗檢定	大語言模型的落地與產品化改變知識的檢索與提供方式與工具增強協作的應用智慧型決策與任務的代理

台灣在地團隊、領域同業或研究機構現況：

TW-Bench（AGIB.tw）主持人：Teemo

台灣AI教學共創實驗室主持人：林穎俊

藥學．要學：AI驅動的個人化精準學習主持人：進良Thomas

LLMezify-大型語言模型科普公開課計畫孵大學 X-University

TAIDE（國科會）執行長：李育杰

Taiwan-LLaMa & Chatbot Arena 主持人：林彥廷

數位發展部評測中心窗口：柯維然

中華民國台灣開源語言資料集社群主持人：謝昆霖

聯發創新基地窗口：陳宜昌

資料整理日期：2025/08/23

不定期更新進度，歡迎聯繫聯絡人補充或更新內容.