COVID-19大流行强调了能够快速分析和解释数据的重要性,以及人工智能和机器学习在明智的决策中发挥的宝贵作用。在寻求疫苗的过程中,全世界目睹了非常实用(且可挽救生命)的机器学习应用,这推动了所需的训练以及对AI用于实时推理的模型的持续微调。

因为训练有素的模型可以使AI更快,更准确,所以可以说AI的最大挑战就是正确训练ML模型

训练有素的ML模型必须稳定地摄取大数据,这样它们才能适应和改进。随着训练数据集的增长,学习算法的性能会越来越好,变得越来越准确。简而言之:数据越多,结果越好。显然,海量数据需要海量存储,但是在这种情况下,并非所有存储解决方案都是一样的。当企业评估如何最好地利用自己的AI/ML应用程序时,必须在此过程中不要忽略存储基础架构。

组织能否成功地从模型训练所需的庞大且不断增长的数据集中进行筛选并收集可行的见解,这取决于拥有一种能够满足数据管道各个阶段极其苛刻要求的存储体系结构。

以下对象存储是支持有效ML模型必不可少的7个原因。这就是为什么对象存储是最合适的,坦率地说,是唯一合适的解决方案来帮助解决AI/ML的模型训练难题的原因。

无限的可扩展性

大量的数据需要大量的存储,而AI/ML工作负载需要一种可以随数据增长而无限扩展的解决方案。传统文件和块存储解决方案将在数百TB后达到可扩展性的上限。对象存储是唯一可以在单个全局命名空间中无限扩展到数十PB甚至更多的存储类型。通过随时随地无中断地部署新节点,能够根据需求进行弹性无缝扩展是一个很大的优势。

内置数据保护

定期备份数PB的培训数据集不仅耗费时间,而且完全不现实。根据设计,大多数对象存储系统不需要备份。而是,它们以足够的冗余存储数据,因此始终受到保护。由于对象存储解决方案通常被设计为分布式体系结构,并行运行的分布式服务器的集合,不需要特殊的机器来提供或管理特定的服务,所有职责都被划分了,并且不需要中央的“控制”机器。因此,架构中的单故障点(SPOF)的风险为零。分布式对象存储系统具有自我修复功能,可提供极高的数据持久性。系统可以配置为容忍多个节点甚至整个地理分布式数据中心的故障。

固有的元数据搜索和分类

在详细的描述性元数据中,构建和训练有效的ML模型所需的数据准备阶段中绝对必须有详细的描述性元数据,这使得可以轻松标记,搜索,定位和分析数据。存储体系结构会影响收集元数据的能力。文件和块系统无法启用应用程序或用户定义的扩展属性,而对象存储系统则提供了独特的方式来标识具有难以置信的丰富,可自定义元数据的数据。其不受限制的性质使标签易于标记,强大而闪电般的可搜索性以及对大型数据集的有效管理。

多租户功能

通过多租户隔离工作负载,使多个数据科学家团队可以同时使用同一数据源,而不会互相影响或争夺资源。设计用于服务多租户用例的对象存储系统使从单个可扩展的,与AWS S3兼容的可扩展界面中安全地管理租户数据变得简单。

持续的吞吐量性能可缩短训练时间

以最佳速率维持数据管道的能力对于训练ML模型至关重要。要快速获得结果,就需要提高基础架构的效率,否则在庞大的数据集上运行的计算将被减慢或中断。现代对象存储系统可保持较高的数据吞吐量,此外,还可进行横向扩展以独立和线性地提高整体系统容量和性能。这是通过以存储服务器的形式添加系统资源来实现的,这些资源提供了计算(CPU和内存)和容量(闪存和HDD),这些存储资源将由存储软件作为单个池进行管理。

在云中运行用于AI / ML算法

无论数据位于何处,与公共云的集成都非常重要,尤其是当公共云平台为AI/ML提供一些现成的且有吸引力的工具集时。在所有存储架构中,对象存储最适合用于训练和调整ML模型,因为对象存储凭借其事实上的语言(AWS S3 API),可以在本地/私有云环境与公共云存储之间进行无缝访问和移动。最好的对象存储解决方案使用户能够在一个统一的命名空间中管理基于云的数据和本地数据,消除了数据孤岛,并允许资源在任何位置进行协作和互换使用而不会造成功能损失。

较低的总拥有成本(TCO)

专为AI / ML工作负载设计的存储基础架构不仅必须提供容量和性能,而且还必须提供有关存储,移动和管理最佳模型训练所需的多PB数据的成本效益。通过利用标准服务器技术以及在单个系统中进行大规模操作的能力,对象存储可以成批地交付,而成本仅为传统专有企业存储的一小部分。软件定义的解决方案可以托管在负担得起的标准x86服务器上,并且可以跨多代硬件发展以降低成本。

寻求实现其AI应用程序的全部价值的企业必须了解正确培训和微调其ML模型的关键性质和潜在挑战。聪明的人将在选择正确的存储基础架构方面与在计算需求方面一样认真。最明智的结论是,对象存储解决方案为最终提取快速,准确的分析见解,挽救生命以及其他方面提供了最佳的基础。


文章TAG: