打破存储性能瓶颈杉岩数据为AI提速增效
当前,随着AI(人工智能)技术的日趋成熟和疫情的影响,整个社会加速进入以人工智能为代表的数字化新常态。AI应用已逐渐渗入到我们生产、生活的方方面面,并产生积极影响。比如,AI在人脸识别、机器人客服、智能质检、辅助医疗、自动驾驶、风评风控等领域快速响应,提高了效率。在今年发布的国家“十四五“规划纲要中,人工智能更是被重点提及,已上升为国家战略高度,成为新一轮科技和产业变革的重要驱动力量。
面对扑面而来的AI旋风,在Gartner2020年的一份调查中,超过85%的CIO表示将在两到三年内为企业部署AI(人工智能)和ML(机器学习)。
在人工智能发展的三个要素数据、算力和算法中,数据和算力主要受限于信息基础设施的建设。随着AI/ML在各行各业中多点开花,数据作为关键生产要素的作用愈发突出,海量数据的采集、存储、访问和应用让存储层挑战越来越大。
AI 时代,计算之外的存储架构挑战
AI 时代,算力是产业发展的推力,要保证 AI 应用的持续高效运行,承载数据的存储系统也必须跟上时代的步伐。如何在有限资源投入下,充分发挥算法算力优势,最大限度地推动AI应用落地和释放数据价值,已经成为信息基础设施运营者们迫切需要解决的问题。其挑战主要体现在以下几个方面:
1.如何接入和保存各类来源、各种格式的数据,真正做到“海纳百川”?
在大量的AI场景之中,海量非结构化数据(图片、视频、音频、文档等)占据主流,单个文件通常很小,一般大小仅为几KB或几百KB,但文件数量极大。例如在金融领域,金融业务不仅产生大量原始票据扫描件,还有电子合同、签名数据、人脸识别数据等,数量甚至可以高达数十亿级规模;在自动驾驶领域,单个数据集可能就包含10万+数量的视频、图片及相应标准,近年来又增加了许多雷达数据,总数据量往往达到几百TB甚至数PB,这对于存储的吞吐量、延迟要求极高。
在大多数企业中,数据通常以业务线为单位组织和管理,并且多数情况下,使用的是不同的中间件技术。随着云计算特别是容器技术的不断发展,大量基于物理机和虚拟机等传统IT架构的应用被迁移到云平台上,IT架构不断演变。如何有效整合新型IT架构与现有存储设备成为难题。
2.机器学习开发,如何满足各阶段对数据的存储和管理要求?
如下图所示,机器学习开发大致分为4个大的阶段:数据集中与归档、数据准备、模型训练、推理。不同阶段对底层存储的要求不同。
图1 机器学习开发的几个关键阶段
数据集中与归档阶段,首先需要采集产品用户环境下不同来源的数据,包括外部来源的数据/数据集,并将数据转换为机器学习模型所需要的格式,这个阶段通常具有典型I/O密集的特征,要求高带宽和大容量。
模型训练阶段,复杂的深度神经网络需要利用高度并行的技术来实现,这些模型需要大量经过清洗和标记的数据来训练,涉及到大量的随机、小文件读取操作,要求高带宽和低时延。
推理阶段,所部署训练好的模型需要准实时的分析数据,要求低时延和高性能。
3.如何打破存储系统性能瓶颈,充分发挥算力?
为了加快模型训练速度,在机器学习开发中常常会使用一些特殊的硬件,如GPU。但是,由于存储或网络无法快速提供训练的数据,不能很好的服务上层的GPU等训练服务器,成为系统I/O瓶颈,导致昂贵的GPU无法充分发挥其价值。
综合来看,随着企业AI应用的快速发展,传统存储架构成为制约瓶颈,性能、容量无法满足需求,管理和扩展复杂,存储效率问题凸显,很难胜任各种AI应用场景的要求。
针对AI应用,如何在数据存储层面通过一套方案覆盖AI应用所有存储工作流,并且能够全面平衡性能、容量、扩展性和易用性?目前,通过新型存储软件来满足AI应用对存储的需求,成为越来越多高成长性企业的选择。
杉岩数据MOSFS,为AI应用提速增效
MOSFS,就是一款由杉岩数据为AI应用量身打造的智能分布式存储解决方案。
图2 MOSFS多源汇聚兼容多种存储
首先,MOSFS的底座基于杉岩数据自研的海量分布式对象存储(MOS),支持通过横向扩展硬件节点线性增加系统容量与性能,满足EB级存储规模需求。系统提供File Ingestor、DB Ingestor等数据汇集功能,支持各种格式、各类来源的数据。同时MOSFS还支持对现有NAS存储、对象存储和HDFS存储的纳管,既充分利用客户既有投资,又满足客户的业务规模增长需求。
其次,MOSFS不仅能够容纳汇聚各类数据,同时还可对上层应用提供标准POSIX接口,兼容Amazon S3协议接口,以及大数据服务接口,一套存储支持多种协议接口,满足AI训练各阶段对数据的访问诉求,支撑AI数据处理的全套流程,构建了一个安全、共享、高效存取的“数据湖”。
最后,MOSFS针对AI训练的特性,开发了多级分布式缓存架构,将热点数据(如正在训练的数据集)缓存在高性能介质中,如NVMe SSD、MEM等,将非热点数据存储在大容量介质中,既保证了极致的响应时延,充分释放出GPU等特殊硬件的算力,横向扩展带来的近似线性增加的容量和性能又保障了高带宽和超大的容量。
如下图所示,在国内某AI领域独角兽企业的选型测试过程中,通过采用杉岩数据MOSFS存储解决方案,相比采用传统分布式NAS存储,训练时长缩短了5倍,GPU利用率提升了近3个百分点。
注:训练计算节点相同,数据集ImageNet分别存于本地(4TB SATA SSD)、MOSFS(960GB SATA SSD + 4T*10 SATA HDD)和某商用分布式NAS(6TB SAS)时,进行AI训练,模型采用ResNet18。
随着科技的进步,AI作为新一轮产业变革的核心驱动力,将催生新技术、新产品、新产业、新业态、新模式,实现社会生产力的整体提升。MOSFS作为杉岩数据针对AI、大数据等新型业务场景而打造的智能分布式存储解决方案,针对传统存储在新业务场景下的痛点,全新设计优化,实现了在性能、容量和扩展性之间的全面平衡,将助力企业进一步释放数据潜能,加速数字化转型,为AI在国民经济各行各业中更好的落地开花贡献力量。