當 Google Research(Google 致力於推進電腦科學技術並將這些突破應用於實際問題的部門)的專案經理 Abdoulaye Diack 談論 WAXAL(Google Research Africa 的開源語音資料集)的起源時,他從一個詞開始。
「WAXAL 意思是『說話』,」他告訴 TechCabal,並指出其源自沃洛夫語,這是塞內岡比亞地區廣泛使用的語言。
這個名稱由 Google 的塞內加爾研究主管 Moustaph Cisse 於 2020 年選定,反映了關於非洲人工智慧發展軌跡的一個更大真相:在這個擁有超過 2,000 種語言的大陸上,其中大多數是口語而非書面語言,語音不是可選項;它是入口點。
多年來,數位技術一直以識字能力、鍵盤和文字為中心。但在非洲,語言存在於對話中,跨越市場、農場、診所和家庭。無法解析口音、語調或語碼轉換的人工智慧無法有意義地服務大多數非洲人。WAXAL 旨在改變這種狀況。該專案不僅專注於文字翻譯,而是為低資源非洲語言的語音到語音人工智慧創建基礎設施,重點是建立一個龐大、高品質的語言「原材料」中心。
「擁有能用我們的語言與我們交談並理解我們的人工智慧,無論是我們的口音還是語調,實際上非常重要,」Diack 說。
挑戰始於明顯的失衡。超過 50% 的網站使用英語和少數西方語言。非洲 2,000 多種語言在全球數位資料集中幾乎不存在。大多數在線上代表性不足。許多沒有廣泛書寫。有些根本沒有標準化。
如果人工智慧模型是基於數位文字進行訓練的,而數位文字對於非洲語言幾乎不存在,那麼該大陸就會在結構性劣勢下開始人工智慧競賽。
「這不是一個新問題,」Diack 說。「研究人員都意識到資料缺乏這個巨大差距。」
沒有資料,模型就無法訓練。沒有經過訓練的模型,人工智慧系統就會聽錯、翻譯錯誤或忽略整個族群。Diack 講述了一個常見的挫折:用法語非洲口音說話時,人工智慧筆記系統難以理解他。技術存在,但沒有針對當地環境進行調整。
這就是 WAXAL 想要彌補的差距。
經過三年的開發,WAXAL 於 2026 年 2 月正式推出,產生了迄今為止最大的非洲語言語音資料集之一:來自近 200 萬個獨立錄音的超過 11,000 小時錄音語音,涵蓋 21 種撒哈拉以南非洲語言,包括豪薩語、約魯巴語、盧干達語和阿喬利語。
除了一般語音收集外,Google 表示已投資超過 20 小時的高品質錄音室錄音,為語音助理開發聽起來自然的合成語音。這些「錄音室優質」錄音旨在使人工智慧回應聽起來不那麼機械化,更具文化真實性。
Google 將該計劃構建為合作夥伴模式。烏干達的馬凱雷雷大學和迦納大學等大學主導了大部分資料收集工作。當地合作夥伴保留資料集的所有權,這些資料集已作為開源發布,採用允許商業使用的許可證。
「我們主要提供指導和資金,」Diack 解釋說。「所有這些資料集都不屬於我們。它屬於與我們合作的合作夥伴。」
這個目標不僅僅是為 Google 自己的產品提供資料,而是為整個生態系統播種。
根據 Diack 的說法,發布後幾天內,該資料集錄得超過 4,000 次下載,這是研究人員和開發人員採用的早期跡象
Google 已經提供許多語言的翻譯工具。那麼為什麼要從頭開始?
因為翻譯不是語音。
傳統機器翻譯依賴於「平行文字」,即用一種語言寫的句子與另一種語言的對應句子對齊。對於低資源語言,這種平行語料庫幾乎不存在。即使翻譯有效,也無法解決更深層的問題:許多非洲人主要通過語音與技術互動。
「實際上,大陸上很多人不知道如何讀寫,」Diack 說。「語音基本上是技術的入口。」
想像一下卡杜納的一位農民用豪薩語詢問天氣預報。或者迦納農村一位母親用當地語言尋求營養建議。基於文字的系統假定識字能力和標準化拼寫。語音系統必須處理方言、俚語、語碼轉換和非典型語音模式。
在迦納,一個語音識別專案 UGSpeechData 計劃產生了超過 5,000 小時的音訊資料。該計劃後來促成了以當地語言運作的孕產婦健康聊天機器人的開發。它還擴展到非典型語音工作,幫助聾人和中風倖存者社群,他們的語音模式經常令主流人工智慧系統困惑。
「人工智慧系統沒有適應這一點,」Diack 說。「如果你有不同類型的語音,系統很可能無法理解你。」
Google 在這場競賽中並不孤單。
Masakhane 是一個基層開源研究集體,已經建立了涵蓋 45 多種非洲語言的翻譯系統,並開發了 Lulu,這是一個評估非洲語言模型的基準。其理念是社群優先且完全開放。
南非的 Lelapa AI 由前 DeepMind 研究人員創立,專注於為非洲企業提供商業自然語言處理(NLP)產品。其旗艦模型 Vulavula 捕捉祖魯語、塞索托語和南非荷蘭語中的方言和城市語碼轉換模式。Lelapa 強調「真實資料」資料集和大量人工錯誤分析,這是一種成本高昂但高保真度的方法。
衣索比亞的 Lesan AI 使用人機協作模型為阿姆哈拉語、提格里尼亞語和奧羅莫語建立了一些最準確的翻譯系統,以確保文化細微差別。
Meta 的「不讓任何語言掉隊」(NLLB-200)專案採用大規模方法,使用零樣本學習在 200 種語言中進行翻譯,包括 55 種非洲語言。與此同時,Microsoft 將非洲語言整合到 Microsoft Translator 中,並通過 Gecko 等專案投資多模態農業資料集。
蓋茨基金會資助的 African Next Voices 計劃於 2025 年底推出,產生了 18 種語言的 9,000 小時語音資料。
這個生態系統多元化:開源集體、商業新創公司、大型科技巨頭、慈善資助者。每個人對問題的處理方式都不同:規模與深度、文字與語音、開放與專有。
Google 的特色在於其以語音為主、面向生態系統的方法。
然而,全球科技巨頭的參與不可避免地引發了關於資料主權和依賴性的問題。
如果 Google 協調發布多語言語音資料集,這是否會造成對 Google 產品的結構性依賴?當地開發人員是否會依賴嵌入 Gemini、搜尋或 Android 的工具?
Diack 承認這種緊張關係,但警告不要因為太過矛盾而對呈現的機會無所作為。
「最重要的是我們不能落後,」他說。「我絕對不希望我的資料被濫用。但這是為了讓企業家、新創公司和研究人員能夠處理真正重要的資料。」
他將這與美國和歐洲大學與科技公司之間的合作進行了比較。他認為,合作加快了能力建設。參與早期專案的研究人員已經發表了論文並進入全球研究角色。
開放許可模式是該論點的核心。開發人員可以在 WAXAL 資料集之上建立商業產品,而無需依賴 Google 的專有 API。Google 還發布了開放權重翻譯模型,如 Translate Gemma,可以獨立下載和微調。
這種平衡是否能滿足批評者還有待觀察。但語言差距的規模表明,不作為可能帶來更大的風險。
語音人工智慧並非孤立存在。它需要連接性、頻寬和計算基礎設施。
「沒有合適的基礎設施,你真的無法訓練人工智慧模型,」Diack 說。
Google 已投資海底電纜,包括在奈及利亞和其他非洲市場登陸 Equiano 電纜,以加強寬頻韌性。近年來的光纖切斷暴露了區域網路的脆弱性。冗餘的高容量基礎設施不僅對雲端服務至關重要,對當地資料中心也至關重要,這是數位主權的關鍵支柱。
人工智慧發展依賴三個基礎:人員、資料和基礎設施。非洲的年輕人口預計將在未來幾十年佔全球人工智慧使用者的很大一部分,這提供了人口優勢。但如果不投資研究能力和數位基礎設施,人口潛力就不會轉化為技術領導力。
為了避免碎片化,Google 已從孤立的大學合作夥伴關係轉向更協調的合作模式。其中一項努力涉及與 Masakhane 的語言中心和其他志願者網路合作,使研究人員和新創公司能夠申請資金並為共享資料集做出貢獻。
「如果我們都在整個大陸上做自己的事情,那是無效的,」Diack 說。「我們需要共同努力。」
到目前為止,WAXAL 已涵蓋 27 種語言,包括四種奈及利亞語言。已涵蓋的一些語言包括阿喬利語、阿坎語、達加雷語、達格巴尼語、多盧奧語、埃維語、芳蒂語、富拉尼語(富拉語)、豪薩語、伊博語、伊克波索語(克波索語)、基庫尤語、林加拉語、盧干達語、馬拉加斯語、馬薩巴語、恩揚科萊語、魯基加語、紹納語、索加語(盧索加語)、史瓦希里語和約魯巴語。
處理所有 2,000 多種非洲語言的抱負是有雄心的,也許是世代的。
「這是我的夢想,」Diack 說。
但優先順序很重要。他指出教育、農業和健康是語音人工智慧可以產生可衡量影響的關鍵領域,與永續發展目標保持一致。
整合到 Google 搜尋中的天氣預報通過非洲研究計劃得到改進,已經展示了全球溢出效應。像 PlantVillage Nuru 這樣的木薯疾病檢測專案通過賓州州立大學、國際熱帶農業研究所(IITA)和國際農業研究諮詢小組(CGIAR)之間的合作開發,已經影響了非洲以外的農業人工智慧。這些先例表明,為非洲建立的解決方案可以在全球範圍內擴展。
在低資源環境中收集語音資料成本高昂。實地錄音、轉錄、語言驗證和錄音室品質的語音合成需要持續資金。
Google 的投資是更廣泛的產業轉變的一部分,從抓取可用文字轉向投資原始語音資料。Lelapa AI 的人機協作驗證模型突顯了準確性的成本。Meta 的 FLORES-200 資料集依賴專業翻譯人員。Microsoft 的農業語音計劃涉及數千個帶註釋的影片。
品質很重要。合成語音必須聽起來自然。識別系統必須處理語碼轉換。城市語音經常在同一句話中混合英語、當地語言和俚語。
非洲人工智慧不能僅通過自動化建立;它需要文化和語言專業知識。
對 Diack 來說,成功不僅僅通過產品整合來衡量。
「我想看到新創公司利用資料集以當地語言提供服務,」他說。「我想看到研究人員根據我們的語言而不僅僅是英語撰寫論文。」
然而,最終 Google 正在建立的大門必須通往某個有形的地方。這包括 Google 產品;搜尋、Gemini、語音助理,能夠流暢地用約魯巴語、沃洛夫語、豪薩語或盧干達語進行互動。但它還包括獨立新創公司建立金融科技工具、健康聊天機器人或農業諮詢系統。
無論如何,非洲的人工智慧未來取決於語音是否成為一種均衡力量還是另一個錯失的機會。如果語音仍然不被全球系統識別,那麼整個大陸每天說出的數十億個詞將在數位上保持不可見。


