科技媒體marktechpost昨日報道,谷歌DeepMind團隊發佈了WebLI-100B千億級數據集,旨在通過增強文化多樣性和多語言性,減少子組之間的性能差異,提高模型的包容性。視覺語言模型(VLMs)依賴大型數據集執行圖像字幕和視覺問答等任務,但現有數據集如Conceptual Captions和LAION在規模和質量上存在侷限,導致模型精度和多語言理解能力難以進一步提升。
WebLI-100B包含1000億個圖像-文本對,規模是前者的十倍,覆蓋罕見文化概念和低資源語言,提高了模型在多樣化表示領域的性能。與以往依賴嚴格過濾的方式不同,WebLI-100B通過擴展數據保留語言和文化元素的廣泛代表性。研究顯示,在完整數據集上訓練的模型在文化和多語言任務中表現更優,尤其在低資源語言檢索和文化多樣性任務上取得了顯著改進。