此图由AI工具制作生成
文/何文静 黄晓东 洪美娜
5月18日,在钱江世纪城投资促进大会上,数搭国际数据开源社区(ZODA)正式发布。它由整数智能信息技术(杭州)有限责任公司牵头建设,致力于解决当前人工智能发展中最关键也最棘手的难题:高质量数据从哪来、怎么评,将打造成为在“数据+评测+专家生态”关键环节填补全球开源生态空白的基础设施。
“数搭”二字,既有“数据搭建”之意,也暗含“为AI发展搭建数据基础设施”的使命。“以数据筑基,搭建AI未来”,是数搭社区的核心主张。它是钱江世纪城、萧山区乃至浙江省共同打造的人工智能“数据底座”。
会上,数搭社区公布了清晰的两年目标:数据集累计下载量超2亿次,专家规模超过100万人,发布200个以上评测榜单,覆盖100个以上国家和地区,入驻200家以上AI企业,带动AI数据产业规模超过100亿元。
01 ZODA:从浙江到中国
数搭社区的英文名ZODA ,藏着宏大的愿景。
Z——代表浙江,也代表中国,寄望这一社区能够在全球AI数据标准领域发出中国声音。同时,Z也指Z世代,象征创新活力。
O——Open Source(开源)。开源是人工智能发展的重要驱动力。从Linux、PyTorch到DeepSeek,开源正在重塑全球AI竞争格局。中国开源模型已在全球赢得口碑,美国一些估值数百亿美元的AI应用公司,在做企业级部署时,甚至会优先选择中国的开源模型。
DA——Data(数据)。数据是人工智能的燃料。谁掌握了高质量数据,谁就掌握了AI竞争的主动权。
为什么数据如此重要?整数智能副总裁、数搭社区负责人孟卓飞介绍,在整个AI模型的生产周期中,超过80%的时间花在数据准备和处理上。“模型的训练范式已经相对收敛,真正决定模型能力上限和不同厂家核心差异化的点,是数据的质量和品位。”他说。训练一个聪明的大模型,大部分功夫不在写代码,而在“备课”——收集、清洗、标注、评测数据。如果数据质量差,再强的算力也只能训练出“糊涂”的模型。
过去两年,提到人工智能,人们最常听到的是“算力”“参数”“大模型”。但业内人士越来越清楚地意识到,真正拉开差距的,是喂给模型的数据质量。这种变化正在重塑整个AI产业链。前两年行业流行“堆参数、扩规模”,如今风向已转向“场景驱动、高质量后训练”,模型不仅要知识广,更要在具体场景里解决问题。这对数据提出了全新要求,不光要告诉AI“这是什么”,还要让它理解“这是什么关系”“处于什么状态”“将如何演变”。这种高端数据标注,恰恰是大语言模型、具身智能、智慧医疗等前沿领域最急需的。
围绕这一行业需求,数搭社区明确了三大核心使命:构建高质量开源数据集、打造覆盖全部主流模型的核心评测基准、连接全球专家网络。在数据集方面,社区将联合高校和科研机构,把分散在各处的优质数据集中起来,形成开放的数据集,供开发者免费或低成本使用;在评测基准方面,社区将设计各种评测任务,检验模型在代码编写、逻辑推理、金融交易等不同场景下的真实能力,致力于成为全球大模型能力评估的“标尺”;在专家网络方面,社区将通过线上挑战赛、线下工作坊等形式,把跨学科、跨领域的专家聚集起来——因为大模型需要压缩全人类的智慧,仅靠理工科远远不够,还需要文史哲、社会科学以及金融、医疗等行业的资深专家。
运营模式上,数搭社区将打造“线上+线下+国际”三位一体的创新模式。线上设立数据集平台、模型排行榜、高额悬赏挑战赛等板块;线下则在钱江世纪城江边设立一座“ZODA House”,仿照硅谷顶尖技术社区的“House”模式,让顶级研究员、活跃创业者和资深投资人面对面交流,常态化举办技术沙龙等活动;国际层面,社区将连接Linux基金会、PyTorch基金会等全球顶级开源生态,形成国际交流机制。“在硅谷,很多早期创意和商业订单就是在这样的非正式场合碰撞出来的。”孟卓飞说,“这样的事情,也完全可以在世纪城实现。”
02 为什么是钱江世纪城?
数搭社区落户钱江世纪城,并非偶然。把目光投向这片土地,答案便会逐渐清晰。
先看牵头者整数智能。这家企业孵化于钱江世纪城的浙大计算机创新技术研究院,2021年起步以来,始终聚焦高质量数据集构建与模型训练全生命周期服务。五年间,企业发展成效显著,今年3月,入选浙江省第一批高端数据标注基地试点名单;其技术被Qwen、DeepSeek等顶尖模型作为基准引用,全球合作的顶级机构超3000家。
在开源领域,整数智能的积累为数搭社区提供了坚实的运营基础。团队低调运营开源生态两年,累计发布50余个高质量评测基准,数据集下载量突破1亿次,多家头部模型厂商在重大版本发布时,引用的评测榜单中超过20%来自其开源项目。“我们的目标是未来两年,将这一引用率提升至50%以上。”孟卓飞表示,这一目标的实现,将意味着中国在AI开源领域从技术跟随正式迈向标准引领。
整数智能的快速崛起,离不开钱江世纪城优质的产业生态。作为杭州人工智能产业的重要集聚区,这里集聚了北大信息技术高等研究院、浙大计算机创新技术研究院等国家级科研平台,汇聚近200家国家高新技术企业。同时,杭州拥有深厚的开源基础,既有DeepSeek等知名开源模型,也有魔搭社区等工具链平台,在全球开发者群体中拥有极高认可度。数搭社区诞生于此,天然具备“邻里协作”的生态优势。
人才是AI产业的核心竞争力,而钱江世纪城正是人才集聚的“高地”。作为全国最年轻、学历最高的CBD之一,这里35岁以下青年人才占比达70%,近三年年均净流入青年人口超1.9万人,新增常住人口中本科及以上学历占比超八成,硕士及以上占比近三成。“人才和企业的选择,最能说明区域的吸引力。”钱江世纪城相关负责人表示。
优质的营商环境,更是为企业发展保驾护航。对此,整数智能相关负责人深有体会,从场地支持到产业链对接,从算力补贴到惠企政策,“有求必应、无事不扰”是他眼中世纪城的服务底色。这种全方位的支持,对于需要长期投入、跨领域协作的开源社区而言,尤为珍贵,“我们对萧山区和钱江世纪城的支持能力,充满信心。”
此外,萧山作为传统工业强区,拥有纺织、化工、汽车零部件等产业集群优势,规上工业企业超1700家,沉淀了海量真实生产数据。这些数据,正是训练工业AI模型最宝贵的“养料”。数搭社区不仅聚焦通用数据,更致力于深入产业场景,萧山的制造业基础,成为其独有的“数据富矿”。
正是这些因素的叠加,让钱江世纪城成为数搭社区诞生的理想之地。
03 模数共振,协同闭环
数搭社区的诞生,并非孤立的产业布局。在钱江世纪城,它与芯模社区形成了天然的互补关系。
芯模社区是钱江世纪城2025年正式启动的战略平台,聚焦国产AI芯片与算法模型的适配,致力于打造全国芯模联动发展示范区。依托芯模社区,2300P的智算算力已建成上线,80余种主流模型为企业提供低成本、高效率的研发环境。芯模社区解决的是“算力+模型”的问题——让国产芯片跑得稳、让模型适配快。
而数搭社区则专注于“数据+评测+专家生态”,为生态补上关键短板。高质量数据是训练优质模型的前提,权威评测是衡量模型能力的标尺。数搭社区提供数据和评测,芯模社区提供算力和适配,两者合在一起,就形成了一个完整的闭环:高质量数据训练出更聪明的模型,模型在芯模社区验证芯片性能,芯片的优化反过来支撑更大规模的数据处理。
这种协同,被形象地称为“模数共振”。就在4月底,工业和信息化部与国家数据局联合发布2026年“模数共振”行动,覆盖石化化工、汽车、医疗装备、航空航天、医药、生物制造、信息通信等20个重点行业,目标到2026年底形成“数据-模型-场景应用”良性循环。钱江世纪城的实践,可以视为这一国家战略在区域层面的先行先试。
对于浙江制造业来说,“模数共振”有着格外坚实的土壤。“我们不只看AI模型在实验室里的表现,更要看它走进生产线后,能帮工人完成多少实际工作、提升多少生产效率。”孟卓飞表示,从今年4月开始,团队已经走访调研了一批萧山工业企业,计划下半年联合萧山区,推进工业场景具身智能真实任务评测体系建设。未来,数搭社区致力于打通“产业—模型—数据”生态链,串联产业需求、模型训练和数据构建,助力数字经济与制造业数字化转型。
面向长远,数搭社区将依托钱江世纪城,打造全球人工智能开源生态的重要节点,实现从“技术跟随”到“生态引领”的跨越,构建自主可控、开放共赢的AI数据基础设施。