近年來 ,許多大語言模型相繼問世,但這些模型在面對臺灣使用者時,多半僅透過生硬的翻譯來表達,無法真正體現臺灣豐富且多元的文化特色,也經常讓使用者感到不夠自然。
大語言模型不僅僅是解決問題的一項工具,更是作為知識與文化的載體,我們期望能夠引導模型更精準的呈現反映臺灣獨有的知識、語言用法及文化背景,提升對臺灣在地化表達和文化細節的敏感度。
我們建立測試資料集不僅僅只是為了改善 AI 對繁體中文的處理能力,更是想建立一套有公正、公開、有民眾參與制度的測試資料集,讓這套測試資料集作為一個重要參考,成為未來 AI 開發者在設計和調整模型時的重要參考依據。
我們提出一種能夠涵蓋多方面向及觀點的方法來構建此測試資料集,計劃邀請各領域專家參與討論,進一步完善這套方法論。
透過開放公眾參與的策略,結合實體工作坊活動與網站平台,邀請來自不同背景的民眾及專家共同貢獻,從生活化的常識到專業領域的測試資料。
由公眾參與開放式審議資料集,民主化測試資料集建置的過程,也會定期以CC0授權的方式釋出明題與暗題,確保開放的基準能夠被持續改進。
本專案不會使用模型生成基準測試資料,確保沒有模型污染真實資料的問題。
基準測試資料集會每年定期公開在 Github & Hugging Face。
本網站,作為介紹資料集以及建立公眾參與機制的管道。
本專案提供的測試資料集,是 AI 開發者和研究人員重要的參考資源,專門針對「臺灣在地化現況」進行深入評估。不僅涵蓋對模型「基礎直覺」能力的測試,也延伸至「進階專業知識」和「高等推論」的能力評估。透過清晰的評測指標,開發者和研究人員可以從而識別模型的強項和弱點,以提升模型的應 用價值。
透過專業領域的學者和從業人員參與討論,共同制定出適合於特定實際場域落地的AI應用基準。使 AI 開發者得以利用專案提供的測試資料集,不僅識別出模型在理論與實際應用間的差距,還能夠根據實際場域的特定需求和挑戰,加速模型從概念驗證到實際部署的過程。