初创公司无需数据中心构建AI模型

研究人员成功利用全球分布的GPU资源,结合私有与公开数据集,研发出一种创新型大语言模型(LLM),这一突破性进展预示着人工智能构建主流模式的潜在变革。Flower AI与Vana两家致力于非传统AI研发的初创企业联手打造了这一新模型,命名为Collective-1。Flower AI通过其独特技术,实现了训练过程在数百台互联网连接计算机上的分布式部署,该技术已被多家企业应用于AI模型训练,无需依赖集中化的计算资源或数据。Vana则提供了包括X(Twitter)、Reddit和Telegram上的私密消息等独家数据源。

Collective-1虽然按现代标准规模较小,拥有70亿个参数,但相较于当前最先进的模型(如驱动ChatGPT、Claude和Gemini的模型,参数量达数千亿)仍展现出显著潜力。剑桥大学计算机科学家、Flower AI联合创始人Nic Lane指出,这种分布式方法有望扩展至远超Collective-1的规模。Lane补充道,Flower AI正使用常规数据训练一个300亿参数的模型,并计划在本年度晚些时候训练一个达1000亿参数的模型,接近行业领先者的规模。「这或将彻底重塑人们对AI的认知,我们正全力以赴推进这一进程,」Lane强调。他还透露,Flower AI正将图像和音频数据纳入训练,以开发多模态模型。

分布式模型构建或将对AI行业的权力格局产生深远影响。当前,AI企业通过整合海量训练数据与集中数据中心的大量计算资源来构建模型,这些数据中心配备先进GPU,并通过超高速光纤网络互联,高度依赖通过抓取公开资料(尽管常涉及版权问题)构建的数据集。这种模式导致只有财力雄厚的企业和拥有强大芯片资源的国家才能开发出最先进、最有价值的模型。即便是一些开源模型,如Meta的Llama和DeepSeek的R1,也由具备大型数据中心的企业构建。而分布式方法或使小型公司及大学通过聚合同质资源来构建高级AI,或让缺乏传统基础设施的国家通过联网多个数据中心来打造更强大的模型。Lane认为,AI行业正朝着允许训练突破单一数据中心限制的新方法发展。分布式方法「以比数据中心模型更高效的方式扩展计算能力,」Lane指出。

新兴技术安全中心AI治理专家Helen Toner评价Flower AI的方法「有趣且极具相关性」于AI竞争与治理。她认为,尽管这种方法可能难以迅速达到前沿水平,但「可能是一种有趣的快速跟随策略」。Toner补充道。分而治之分布式AI训练需要重新思考强大AI系统计算分配方式。创建LLM需将大量文本输入模型,调整参数以生成对提示的有效响应。在数据中心内,训练过程被分割,分配到不同GPU上执行,然后定期整合成单一主模型。新方法则允许通常在大型数据中心内完成的工作分散到相距数英里的硬件上,并通过相对较慢或不稳定的互联网连接整合。

一些大型企业也在探索分布式学习。去年,谷歌研究人员展示了一种名为DIstributed PAth COmposition(DiPaCo)的新方案,用于分割和整合计算,提升分布式学习效率。为构建Collective-1及其他LLM,Lane与英国和中国学术合作者开发出一种名为Photon的新工具,显著提升分布式训练效率。Lane表示,Photon在谷歌方法基础上,采用更高效的数据表示方式及共享与整合训练方案。尽管这一过程比传统训练慢,但更具灵活性,允许添加新硬件加速训练。Lane指出,Photon由北京邮电大学和浙江大学研究人员合作开发,并已以开源许可上月发布,供任何人使用。

Flower AI在构建Collective-1中的合作伙伴Vana正开发新方法,让用户与AI构建者共享个人数据。Vana软件允许用户将来自X和Reddit等平台的私人数据贡献给大语言模型训练,并可能指定允许的最终用途,甚至从中获得经济利益。Vana联合创始人Anna Kazlauskas表示,这一理念是让未被利用的数据用于AI训练,同时赋予用户对其信息如何用于AI的更多控制权。「这些数据通常因非公开性无法纳入AI模型,」Kazlauskas强调,「这是用户直接贡献的数据首次被用于训练基础模型,用户对其数据创建的AI模型拥有所有权。」

伦敦大学学院计算机科学家Mirco Musolesi指出,分布式AI训练方法的关键优势在于解锁新型数据。他预测,将其扩展到前沿模型将使AI行业能够利用分散且隐私敏感的大量数据,如医疗保健和金融领域数据,用于训练,而无需担心数据集中化的风险。

本文网址:http://www.idea2003.cn/news/3764.html

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注