视觉学习新突破：Meta开源WebSSL，摆脱语言束缚

砍柴网

2025/04/25

4 月 25 日消息，有报道称 Meta 公司发布 WebSSL 系列模型，参数规模从 3 亿到 70 亿，基于纯图像数据训练，旨在探索无语言监督的视觉自监督学习（SSL）的潜力。以 OpenAI 的 CLIP 为代表，对比语言-图像模型已成为学习视觉表征的默认选择，在视觉问答（VQA）和文档理解等多模态任务中表现突出。不过受到数据集获取的复杂性和数据规模的限制，语言依赖面临诸多挑战。Meta ...

网页链接

免责声明：投资有风险，本文并非投资建议，以上内容不应被视为任何金融产品的购买或出售要约、建议或邀请，作者或其他用户的任何相关讨论、评论或帖子也不应被视为此类内容。本文仅供一般参考，不考虑您的个人投资目标、财务状况或需求。TTM对信息的准确性和完整性不承担任何责任或保证，投资者应自行研究并在投资前寻求专业建议。

热议股票

{"basename":"/hans","ssrTDKData":{"titleTemplate":"%s - 老虎证券","title":"老虎证券全球投资理财平台| 一站式投资美股新股港股A股","description":"老虎证券助您一站式投资美股，新股，港股，A股等全球金融理财产品。新加坡华人最信赖的在线投资平台，现在加入即享低费用，24/5 无时差炒美股投资理财！","keywords":"老虎证券,老虎证券开户,老虎券商,老虎证券官网,老虎证券app,tigertrade老虎证券,股票,炒股,新加坡股票交易平台,投资,投资理财","social":{"ogDescription":"老虎证券助您一站式投资美股，新股，港股，A股等全球金融理财产品。新加坡华人最信赖的在线投资平台，现在加入即享低费用，24/5 无时差炒美股投资理财！","ogImage":"https://c1.itigergrowtha.com/portal5/static/media/og-logo.be62fbe1.png","ogUrl":"https://www.itiger.com/hans/news/2530776947"},"companyName":"老虎证券"},"pageData":{"isMobile":false,"isTiger":false,"isTTM":true,"region":"SGP","license":"TBSG","edition":"fundamental"},"isCrawlerRequest":true,"__swrFallback__":{"@#url:\"https://stock-news.skytigris.cn/v3/news\",params:#id:\"2530776947\",edition:\"fundamental\",auth_exemption:1,,,undefined,":{"share":"https://ttm.financial/m/news/2530776947?lang=zh_CN&edition=fundamental","thumbnail":"https://static.tigerbbs.com/c06d2fe3bed8d64707cae05406c5f984","is_english":false,"pubTime":"2025-04-25 14:00","share_image_url":"https://static.laohu8.com/9a95c1376e76363c1401fee7d3717173","id":"2530776947","market":"us","top_or_hot":-1,"title":"视觉学习新突破：Meta开源WebSSL，摆脱语言束缚","media":"砍柴网","content":"<div>\n<p>4 月 25 日消息，有报道称 Meta 公司发布 WebSSL 系列模型，参数规模从 3 亿到 70 亿，基于纯图像数据训练，旨在探索无语言监督的视觉自监督学习（SSL）的潜力。以 OpenAI 的 CLIP 为代表，对比语言-图像模型已成为学习视觉表征的默认选择，在视觉问答（VQA）和文档理解等多模态任务中表现突出。不过受到数据集获取的复杂性和数据规模的限制，语言依赖面临诸多挑战。Meta ...</p>\n\n<a href=\"http://gu.qq.com/resources/shy/news/detail-v2/index.html#/?id=nesSN2025042512252397447e74&s=b\">网页链接</a>\n\n</div>\n","source":"tencent","html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>视觉学习新突破：Meta开源WebSSL，摆脱语言束缚</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 11px; color: #7E829C; margin: 0;line-height: 11px;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\n视觉学习新突破：Meta开源WebSSL，摆脱语言束缚\n</h2>\n\n<h4 class=\"meta\">\n\n\n2025-04-25 14:00 北京时间&nbsp;&nbsp;&nbsp;<a href=http://gu.qq.com/resources/shy/news/detail-v2/index.html#/?id=nesSN2025042512252397447e74&s=b><strong>砍柴网</strong></a>\n\n\n</h4>\n\n</header>\n<article>\n<div>\n<p>4 月 25 日消息，有报道称 Meta 公司发布 WebSSL 系列模型，参数规模从 3 亿到 70 亿，基于纯图像数据训练，旨在探索无语言监督的视觉自监督学习（SSL）的潜力。以 OpenAI 的 CLIP 为代表，对比语言-图像模型已成为学习视觉表征的默认选择，在视觉问答（VQA）和文档理解等多模态任务中表现突出。不过受到数据集获取的复杂性和数据规模的限制，语言依赖面临诸多挑战。Meta ...</p>\n\n<a href=\"http://gu.qq.com/resources/shy/news/detail-v2/index.html#/?id=nesSN2025042512252397447e74&s=b\">网页链接</a>\n\n</div>\n\n\n</article>\n</div>\n</body>\n</html>\n","isBrief":false,"type":0,"news_type":1,"symbol":"IE00B19Z8X17.USD","symbol_name":"FTGF CLEARBRIDGE US LARGE CAP GROWTH  \"AG\" (USD) ACC","start_time":0,"source_url":"http://gu.qq.com/resources/shy/news/detail-v2/index.html#/?id=nesSN2025042512252397447e74&s=b","article_id":"2530776947","we_media_id":null,"thumbnails":["https://static.tigerbbs.com/c06d2fe3bed8d64707cae05406c5f984"],"rights":{"source":"tencent","url":"http://gu.qq.com/resources/shy/news/detail-v2/index.html#/?id=nesSN2025042512252397447e74&s=b","rn_cache_url":null,"customStyle":"body{padding-top:10px;}#news_title{font-weight:bold;#titleStyle#;}#news_description span{font-size:12px;#descriptionStyle#;}.footer-note{#statement#}","selectors":".mod-LoadTzbdNews, body","filters":".relate-stock, .hot-list, .recom-box, .wx-sou","directOrigin":true},"url":"https://stock-news.laohu8.com/highlight/detail?id=2530776947","pubTimestamp":1745560800,"columns":[],"sourceInfo":{"source_id":"tencent","name":"腾讯"},"weMediaInfo":null,"summary":"4 月 25 日消息，有报道称 Meta 公司发布 WebSSL 系列模型，参数规模从 3 亿到 70 亿，基于纯图像数据训练，旨在探索无语言监督的视觉自监督学习的潜力。Meta 公司针对上述痛点，在在 Hugging Face 平台上发布了 WebSSL 系列模型，涵盖 DINO 和 Vision Transformer架构，参数规模从 3 亿到 70 亿不等。这些模型仅使用 MetaCLIP 数据集中的 20 亿张图像子集进行训练，排除了语言监督的影响。","collect":0,"end_time":0,"defaultTopTitle":"qq.com","property":[],"viewcount":null,"language":"zh","relate_stocks":{"IE00B19Z8X17.USD":"FTGF CLEARBRIDGE US LARGE CAP GROWTH  \"AG\" (USD) ACC","LU0823421416.USD":"BNP PARIBAS DISRUPTIVE TECHNOLOGY \"C\" (USD) INC","LU1629891620.HKD":"ALLIANZ INCOME AND GROWTH \"AMG2\" (H2-HKD) INC","SGXZ51526630.SGD":"大华环球创新基金A Acc SGD","META":"Meta Platforms, Inc.","LU0308772762.SGD":"Blackrock Global Allocation A2 SGD-H","LU2404859741.USD":"FUNDSMITH EQUITY FUND \"R\" (USD) INC","IE00BQXX3C00.GBP":"GUINNESS GLOBAL INNOVATORS \"C\" (GBP) ACC","IE00BFSS7M15.SGD":"Janus Henderson Balanced A Acc SGD-H","LU2361045086.USD":"WELLINGTON US QUALITY GROWTH \"A\" (USD) ACC","LU0795875086.SGD":"JPMorgan Investment Funds - Global Income A (div) SGD","LU0225283273.USD":"SCHRODER ISF GLOBAL EQUITY ALPHA \"A\" (USD) ACC","LU0203347892.USD":"SCHRODER ISF QEP GLOBAL ACTIVE VALLUE \"A\" (USD)  INC AV","IE00BQXX3F31.USD":"GUINNESS GLOBAL INNOVATORS \"C\" (USD) ACC","LU2361044865.SGD":"WELLINGTON US QUALITY GROWTH \"A\" (SGDHDG) ACC","LU2250418816.HKD":"BGF WORLD TECHNOLOGY \"A\" (HKD) ACC","LU1988902786.USD":"FULLERTON LUX FUNDS GLOBAL ABSOLUTE ALPHA \"I\" (USD) ACC","LU0642271901.SGD":"Janus Henderson Horizon Global Technology Leaders A2 SGD-H","LU0878866978.SGD":"First Eagle Amundi International AHS-QD SGD-H","LU1642822529.SGD":"THREADNEEDLE (LUX) GLOBAL TECHNOLOGY \"A\" (SGD) ACC","LU1732800096.USD":"摩根大通环球收益基金A (irc)","LU2213496289.HKD":"ALLIANZ INCOME AND GROWTH \"AT\" (HKD) ACC","LU2430703251.USD":"WELLINGTON MULTI-ASSET HIGH INCOME \"AM4\" (USD) INC","LU0208291251.USD":"FRANKLIN MUTUAL U.S. VALUE \"A\" (USD) INC","LU2097829019.USD":"AZ EQUITY - BORLETTI GLOBAL LIFESTYLE \"AI\" (USD) ACC","LU0006306889.USD":"SCHRODER ISF US LARGE CAP \"A\" (USD) INC AV","LU1145028129.USD":"ALLIANZ INCOME AND GROWTH \"AQ\" (USD) INC","SSL":"南非萨索尔","LU0320765059.SGD":"FTIF - Franklin US Opportunities A Acc SGD","LU2087625088.SGD":"ALLSPRING  US ALL CAP GROWTH \"A\" (SGDHDG) ACC","LU1720051108.HKD":"ALLIANZ GLOBAL ARTIFICIAL INTELLIGENCE \"AT\" (HKD) ACC","LU2764262908.HKD":"BGF GLOBAL UNCONSTRAINED EQUITY \"A2\" (HKD) ACC","LU1564329115.USD":"Blackrock Dynamic High Income A6 USD","LU2505996509.AUD":"WELLINGTON MULTI-ASSET HIGH INCOME \"AM4H\" (AUDHDG) INC","LU2420271590.USD":"ALLIANZ SELECT INCOME AND GROWTH \"AT\" (USD) ACC","LU2237957902.USD":"NIKKO AM GLOBAL EQUITY \"F\" (USD) ACC","LU2317271919.USD":"BGF FUTURE CONSUMER \"A2\" (USD) ACC","LU1839511570.USD":"WELLS FARGO GLOBAL FACTOR ENHANCED EQUITY \"I\" (USD) ACC","BK4543":"AI","LU0353189763.USD":"ALLSPRING  US ALL CAP GROWTH FUND \"I\" (USD) ACC","LU1267930490.SGD":"TEMPLETON GLOBAL EQUITY INCOME \"AS\" (SGD) INC A","LU1670627923.USD":"M&G (LUX) NORTH AMERICAN DIVIDEND \"A\" (USD) ACC","LU2456880835.USD":"ALLIANZ GLOBAL INCOME \"AT\" (USD) ACC","LU1868836591.USD":"CT (LUX) I AMERICAN \"1U\"(USD) ACC","LU0738911758.USD":"Blackrock Global Equity Income A6 USD","LU2168564495.EUR":"AZ ALLOCATION - TREND \"AI\" (EUR) ACC","LU2461242641.AUD":"WELLINGTON US QUALITY GROWTH \"A\" (AUDHDG) ACC","IE00B7SZLL34.SGD":"Legg Mason ClearBridge - Value A Acc SGD-H","SG9999014906.USD":"大华全球优质成长基金Acc USD","LU2065169927.USD":"M&G (LUX) GLOBAL MAXIMA \"A\" (USD) ACC"},"translate_title":"New breakthrough in visual learning: Meta open source WebSSL, getting rid of language constraints","themeId":"","isJumpTheme":false,"ttsUrl":"https://static.tigerbbs.com/38b4a4e7bc9bfc6506e0db8ab6cbb2ea","symbols_score_info":{"META":0.9,"SSL":1},"content_text":"4 月 25 日消息，有报道称 Meta 公司发布 WebSSL 系列模型，参数规模从 3 亿到 70 亿，基于纯图像数据训练，旨在探索无语言监督的视觉自监督学习（SSL）的潜力。以 OpenAI 的 CLIP 为代表，对比语言-图像模型已成为学习视觉表征的默认选择，在视觉问答（VQA）和文档理解等多模态任务中表现突出。不过受到数据集获取的复杂性和数据规模的限制，语言依赖面临诸多挑战。Meta 公司针对上述痛点，在在 Hugging Face 平台上发布了 WebSSL 系列模型，涵盖 DINO 和 Vision Transformer（ViT）架构，参数规模从 3 亿到 70 亿不等。这些模型仅使用 MetaCLIP 数据集（MC-2B）中的 20 亿张图像子集进行训练，排除了语言监督的影响。Meta 的目标并非取代 CLIP，而是通过控制变量，深入评估在不受数据和模型规模限制下，纯视觉自监督学习（SSL）的表现潜力。WebSSL 模型采用两种视觉自监督学习范式：联合嵌入学习（DINOv2）和掩码建模（MAE）。训练统一使用 224×224 分辨率图像，并冻结视觉编码器以确保结果差异仅源于预训练策略。模型在五个容量层级（ViT-1B 至 ViT-7B）上训练，评估基于 Cambrian-1 基准测试，覆盖通用视觉理解、知识推理、OCR 和图表解读等 16 个 VQA 任务。此外，模型无缝集成于 Hugging Face 的 transformers 库，便于研究和应用。实验揭示了多项关键发现：随着参数规模增加，WebSSL 模型在 VQA 任务上的表现接近对数线性提升，而 CLIP 在超过 30 亿参数后性能趋于饱和。WebSSL 在 OCR 和图表任务中表现尤为突出，尤其在数据筛选后，仅用 1.3% 的富文本图像训练即超越 CLIP，在 OCRBench 和 ChartQA 任务中提升高达 13.6%。此外，高分辨率（518px）微调进一步缩小了与 SigLIP 等高分辨率模型的差距，在文档任务中表现尤为出色。WebSSL 模型在无语言监督下仍展现出与预训练语言模型（如 LLaMA-3）的良好对齐性，表明大规模视觉模型能隐式学习与文本语义相关的特征。同时，WebSSL 在传统基准测试（如 ImageNet-1k 分类、ADE20K 分割）上保持强劲表现，部分场景甚至优于 MetaCLIP 和 DINOv2。","kind":"news","is_publish_news":true,"is_publish_highlight":true,"is_publish_live":false,"is_publish_wemedia":null,"editions":null,"column":"","sentiment":"0","news_tag":"","news_rank":0,"symbols":[],"gpt_button":0,"need_auth":false,"code":"91000000","status":"200"}}}