TW-Bench 給大語言模型的台灣考題

近年來 ,許多大語言模型相繼問世,但這些模型在面對臺灣使用者時,多半僅透過生硬的翻譯來表達,無法真正體現臺灣豐富且多元的文化特色,也經常讓使用者感到不夠自然。

大語言模型不僅僅是解決問題的一項工具,更是作為知識與文化的載體,我們期望能夠引導模型更精準的呈現反映臺灣獨有的知識、語言用法及文化背景,提升對臺灣在地化表達和文化細節的敏感度。

我們建立測試資料集不僅僅只是為了改善 AI 對繁體中文的處理能力,更是想建立一套有公正、公開、有民眾參與制度的測試資料集,讓這套測試資料集作為一個重要參考,成為未來 AI 開發者在設計和調整模型時的重要參考依據。


本專案主旨為創建一套屬於臺灣人的 Benchmark,圍繞以下三大核心展開計劃:

【建立符合臺灣在地化現狀的基準】

 我們提出一種能夠涵蓋多方面向及觀點的方法來構建此測試資料集,計劃邀請各領域專家參與討論,進一步完善這套方法論。

【建立多元且可持續更新測試資料集的機制】

 透過開放公眾參與的策略,結合實體工作坊活動與網站平台,邀請來自不同背景的民眾及專家共同貢獻,從生活化的常識到專業領域的測試資料。

【建立透明且公正的評測制度】

 由公眾參與開放式審議資料集,民主化測試資料集建置的過程,也會定期以CC0授權的方式釋出明題與暗題,確保開放的基準能夠被持續改進。


規劃做法:

本專案不會使用模型生成基準測試資料,確保沒有模型污染真實資料的問題。

基準測試資料集會每年定期公開在 Github & Hugging Face。

本網站,作為介紹資料集以及建立公眾參與機制的管道。


可應用之情境

【情境一:AI 開發者及研究人員的參考依據】

 本專案提供的測試資料集,是 AI 開發者和研究人員重要的參考資源,專門針對「臺灣在地化現況」進行深入評估。不僅涵蓋對模型「基礎直覺」能力的測試,也延伸至「進階專業知識」和「高等推論」的能力評估。透過清晰的評測指標,開發者和研究人員可以從而識別模型的強項和弱點,以提升模型的應 用價值。

【情境二:評估 AI 在實際場域的落地應用】

 透過專業領域的學者和從業人員參與討論,共同制定出適合於特定實際場域落地的AI應用基準。使 AI 開發者得以利用專案提供的測試資料集,不僅識別出模型在理論與實際應用間的差距,還能夠根據實際場域的特定需求和挑戰,加速模型從概念驗證到實際部署的過程。


專案預期效益與社會貢獻

【推動 AI 技術的臺灣在地化】

建立一套反映臺灣在地特色的基準,使 AI 模型與應用更加貼近臺灣的文化與社會需求。提升 AI 技術在臺灣各領域的適應性和實用性,推動 AI 模型更貼近臺灣的文化和社會需求。

【加速知識交流與技術創新】

本基準將作為連接實際應用場域與 AI 開發者之間的重要橋梁,透過集結來自各領域的專家進行討論和知識分享。在參與過程中整合實務需求與建立落地應用的基準,也能夠理解 AI 的發展,更能進一步促進跨領域合作。

【提升公眾對 AI 技術的信任】

鼓勵各界人士參與貢獻,建立一個公正且透明開放的評測制度,提升公眾對 AI 技術的信任度,進而促進 AI 技術在各行各業的廣泛運用。

【推動臺灣在地知識的普及】

隨著測試資料集的建立與公開,民眾能夠無償取得這些資料,並得以使用不同形式展現或作為教育資源,進一步推動臺灣在地化知識與文化的廣泛傳播和普及。

TW-Bench(長椅)攝影計畫