初创公司颠覆AI范式 打造分布式新模型

研究人员通过整合全球分布的GPU集群,成功融合私有与公开数据,训练出一种新型大语言模型(LLM),这一突破性进展可能彻底颠覆当前人工智能的主流构建范式。两家采用非传统路径的AI初创公司Flower AI与Vana联手打造了名为Collective-1的新模型。Flower AI开发出允许训练任务分散至数百台联网计算机的技术,其方案已被多家企业用于无需集中算力或数据的AI模型训练。Vana则提供了包含X平台、Reddit及Telegram隐私消息在内的多元化数据源。

按现代标准衡量,Collective-1规模较小,其70亿参数量与当今最先进模型(如支撑ChatGPT、Claude和Gemini的模型)动辄数千亿的参数规模相去甚远。剑桥大学计算机科学家、Flower AI联合创始人Nic Lane指出,这种分布式方法有望突破Collective-1的规模限制。他透露Flower AI正在用传统数据训练300亿参数模型,并计划今年晚些时候开发千亿参数模型——接近行业领军者的水平。”这或将彻底改变人们对AI的认知,我们正全力推进,”Lane表示。这家初创公司还将图像与音频纳入训练,以创建多模态模型。

分布式建模还可能重塑AI行业的权力格局。当前AI公司构建模型依赖两大支柱:海量训练数据与集中在数据中心的庞大算力——这些数据中心通过超高速光纤网络连接先进GPU集群。它们还严重依赖网络抓取的公开数据集(尽管部分涉及版权材料),包括网页和图书内容。这种模式意味着,只有财力雄厚的企业及能获取大量高端芯片的国家,才可能开发最具价值的尖端模型。即便是Meta的Llama和深度求索的R1等开源模型,也出自拥有大型数据中心的企业之手。而分布式方法让中小企业和高校能通过整合分散资源开发生态AI,或使缺乏传统基础设施的国家通过联网多个数据中心构建更强模型。

Lane认为AI产业将日益青睐突破单一数据中心局限的新方法。”相比数据中心模式,分布式方案能更优雅地扩展算力,”他解释道。安全与新兴技术中心AI治理专家Helen Toner评价Flower AI的方案”对AI竞争与治理具有潜在重大意义”。她指出:”虽可能仍难匹敌最前沿技术,但作为快速跟随策略颇具价值。”

分而治之分布式AI训练的核心在于重构算力分配逻辑。构建大语言模型需向系统输入海量文本,通过调整参数使其生成有效响应。传统数据中心会将训练任务分割到不同GPU执行,再定期整合为统一主模型。新技术使得原本需在大型数据中心完成的工作,可分散到相隔数英里、仅靠普通网络连接的硬件设备上执行。行业巨头也在探索分布式学习。去年谷歌研究人员提出的”分布式路径组合”(DiPaCo)新框架,提升了分布式训练效率。而为构建Collective-1等模型,Lane与中英学者联合开发了名为Photon的新工具,其采用更高效的数据表征方式和训练共享整合方案。

Lane坦言该过程虽比传统训练慢,但灵活性更强,可随时添加硬件加速训练。Photon由北京邮电大学和浙江大学研究人员参与开发,上月已开源。Flower AI的合作方Vana则致力于让用户以新方式向AI构建者共享个人数据——其软件支持用户贡献来自X和Reddit等平台的私有数据,并可规定使用范围甚至获得经济回报。Vana联合创始人Anna Kazlauskas表示,此举旨在挖掘未开发数据潜力,同时赋予用户更多控制权。”这些通常无法进入AI模型的非公开数据,首次被用于基础模型训练,且用户可拥有其数据所创模型的权益,”她强调。

伦敦大学学院计算机科学家Mirco Musolesi指出,分布式训练的关键价值在于解锁新型数据:”将其应用于前沿模型,可让AI产业利用医疗、金融等领域的分散敏感数据训练,同时规避数据集中化风险。”

本文网址:http://www.idea2003.cn/news/3805.html

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注