千亿参数基础大模型源20全面开源
千亿参数基础大模型“源2.0”全面开源
国内“百模大战”开始进入下半场,后AIGC路上的发力点到底在何方?大模型“源2.0”的推出,提供了一种可能的答案。
近日,浪潮信息在京发布千亿参数基础大模型——“源2.0”,并宣布全面开源。“源2.0”包括3种参数规模,分别是1026亿、518亿、21亿,在算法、数据和算力等方面获得提升,展示出先进的编程、推理、逻辑能力。
?
浪潮信息人工智能软件研发总监吴韶华介绍说,在算法上,“源2.0”开发团队提出局部注意力过滤增强机制LFA,更关注上下文之间的强语义关联。这使得“源2.0”对于自然语言的关联语义理解更准确、更人性,提升了模型的自然语言表达能力,进而提升了模型精度。
数据方面,“源2.0”通过使用中英文书籍、百科、论文等高质量中英文资料,降低了互联网语料内容占比,同时结合高效的数据清洗流程,为大模型训练提供了高质量的专业数据集和逻辑推理数据集。此外,“源2.0”采用了基于大模型的数据生产及过滤方法,在保证数据多样性的同时获取了一批高质量的数学与代码预训练数据。
作为千亿级参数的基础大模型,“源2.0”在业界公开的评测中进行了代码生成、数学问题求解、事实问答方面的能力测试,结果表现出色。
据了解,“源2.0”大模型的另一亮点是全面开源,包括代码、模型和论文。
大模型的开源开放可以使不同的模型之间共享底层数据、算法和代码,有利于打破大模型孤岛,促进模型之间的协作和更新迭代,并推动 AI 开发变得更加灵活和高效。同时,开源开放有利于推进“技术+行业”的闭环,以更丰富的高质量行业数据反哺模型,打造更强的技术产品,加速商业化进程。
此外,浪潮信息还公布了源大模型共训计划:针对开发者自己的应用或场景需求,通过自研数据平台生成训练数据并对源大模型进行增强训练,训练后的模型依然在社区开源。开发者只需要提出需求,说清楚具体的应用场景、对大模型的能力需求以及1~2条示例,由源团队来进行数据准备、模型训练并开源。
?
“源2.0”的开源开放,有望以繁荣的开源模型生态、优越的开源大模型性能和优秀的指令微调策略,化解大模型落地在算力、算法和数据方面面临的挑战。“未来,我们会广泛收集来自开发者的各类需求,并尽可能赋能用户场景和拓展基础模型的能力边界。”浪潮信息高级副总裁刘军表示。
浪潮信息长期致力于人工智能算力基础设施产品的研发。此前,浪潮信息在业界率先推出了中文AI巨量模型“源1.0”,参数规模高达2457亿。