文|数据猿
在数字化浪潮中,传统存储架构的疲态尽显,亟待一场变革性的突破。而软件定义存储(SDS),正是这场变革的引领者。作为一种创新的存储架构,SDS通过软件实现对存储资源的精细化管理,为企业开辟出一条突破困境的新航道。
经过多年的发展,SDS的核心优势日渐鲜明:
硬件解耦,彻底打破存储资源(磁盘、SSD、内存等)与控制逻辑的捆绑,让软件统一调度,实现硬件资源的灵活调配。
抽象与池化,将异构的存储资源整合为一个统一的资源池,以块、文件、对象存储等形式,按需分配给业务系统,提升资源利用率。
自动化与智能化升级,借助先进的软件算法,自动实现数据分层、快照、复制、压缩等高级功能,无需依赖硬件,大幅提升存储效率。
坚持开放性,基于iSCSI、NFS、S3等标准协议,与各厂商硬件无缝兼容,构建开放、多元的存储生态。
SDS的蓬勃发展,离不开持续的技术创新。其核心技术涵盖存储虚拟化、数据管理、分布式架构、自动化与智能化、协议支持以及硬件解耦等,不仅是SDS的支柱,更是攻克存储障碍的利刃。
在创新思维中,“零基思维”备受推崇,即抛开既有框架,让思维回归原点,重新审视问题,就能最大限度地激发创造力。现在,让我们以“零基思维”为指引,深入剖析软件定义存储的6大核心技术,探寻化解存储难题的密码,为企业存储系统的转型升级开启无限可能。
存储虚拟化,将存储资源抽象为逻辑存储池,消除硬件差异
IT世界中的几乎所有东西都被虚拟化了,无论是服务器、SAN、内存、网络,还是存储。典型的虚拟化就是屏蔽系统的复杂性,增加或集成新的功能,仿真、整合或分解现有的服务功能等。
存储虚拟化是将来自多个存储设备的物理存储,池化为看似单个存储设备或可用存储容量池。存储虚拟化依靠软件来识别物理设备的可用存储容量,然后将该容量聚合为一个存储池,供传统架构服务器使用,或在虚拟环境中由虚拟机(VM)使用。
虚拟化存储软件收集来自物理机或虚拟机的输入/输出(I/O)请求,并将这些请求发送到存储设备的适当物理位置。对于用户来说,构成存储池的各种存储资源是不可见的,因此虚拟存储看起来像一个可以接受标准读取和写入的物理驱动器、共享或逻辑单元号(LUN)。
存储虚拟化的一种基本形式由存储资源的硬件和主机(PC、服务器或访问存储的任何设备)之间的软件虚拟化层表示,这使得作系统(OS)和应用能够访问和使用存储。
存储虚拟化主要有两种类型:块级存储虚拟化在 “SAN(存储区域网络)”中实现,而文件级存储虚拟化发生在NAS(网络附加存储)级别。可以通过多种方式如基于主机的存储虚拟化、基于阵列的存储虚拟化、基于网络的存储虚拟化等,将存储应用于虚拟化环境。
虚拟化软件的进一步发展以及Storage Management Initiative规范等使虚拟化产品能够与更广泛的存储系统配合使用,使其成为努力应对存储容量螺旋式增长的企业更具吸引力的选择。
存储虚拟化优势包括:更轻松的管理,用于监控和维护多个虚拟化存储阵列的单个管理控制台可减少管理物理系统所需的时间和精力。
更好的存储利用率,跨多个系统共用存储容量可以更轻松地分配,从而更有效地分配和使用存储容量。
另外,延长旧存储系统的使用寿命,在虚拟化级别实现一些更高级的存储功能,如分层、缓存和复制等。
在存储虚拟化方面,VMware通过vSAN将服务器本地存储(如SSD/HDD)虚拟化为共享存储池,支持混合云无缝集成。
VMware vSAN是一款支持超融合基础架构(HCI) 的企业存储虚拟化软件。VMware vSAN跨 VMware vSphere集群聚合本地和直连数据存储设备,以创建vSAN集群中所有主机都可以共享的单个数据存储。组织还使用该工具在一个平台上管理计算和存储,通过使用 vSAN 中的策略和规,组织可以降低与传统存储系统相关的成本和复杂性。
VMware vSAN的主要功能和优势包括:基于存储策略的管理,支持自动管理存储配置文件;
校验和和静态数据加密可防止对静态数据进行未经授权的访问;这些集群通过在同一设置中启用多个虚拟化主机服务器来提供更高的安全性和可用性;支持全闪存配置的重复数据删除、压缩和纠删码数据服务;支持存储服务质量(QoS),使管理员能够限制特定虚拟机每秒可以消耗的输入/输出操作(IOPS)数量;可在x86服务器上部署;根据应用需求灵活提供计算和存储等。
热门VMware vSAN用例。VMware vSAN支持每个节点高达150,000 IOPS、自动化功能、可扩展性和安全性,使得vSAN成为以下用例的理想选择:业务关键型应用程序,冗余和本地前端环境,灾难恢复,拟桌面基础架构(VDI)和远程办公室和分支机构(ROBO)。
开源的软件定义存储解决方案Ceph,基于RADOS(分布式存储系统)实现跨节点的存储虚拟化,支持块、文件、对象存储统一管理。
Ceph高度可扩展的架构,使其成为高增长数据块存储、对象存储和数据湖的新规范。Ceph可以使用软件抽象层将数据与物理存储硬件分离,从而提供扩展和故障管理功能。Ceph因为可以有效地满足大数据量存储需求,因而成为云、OpenStack、Kubernetes和其他基于微服务和容器的工作负载的理想选择。
Ceph的主要优势在于,为单个集群中的多种存储类型提供接口,无需多个存储解决方案或任何专用硬件,从而减少管理开销。Ceph的使用案例范围从私有云基础设施(超融合和分解)到大数据分析和富媒体,或作为公共云存储的替代方案。
智能数据管理,通过AI/ML优化数据分布、压缩、去重
AI/ML的快速采用几乎改变了一切,开创了世界前所未见的创新和增长新时代。AI/ML对存储的影响将是深远的,从智能数据管理和优化资源分配,到增强的安全性和存储效率,AI将从根本上改变组织感知和利用存储系统的方式。
存储将不仅仅是容量和性能,将更多地关注智能和效率。随着组织继续在其存储策略中利用 AI/ML的强大功能,我们可以预期智能、自适应的存储解决方案拥有无限可能性,响应速度更快、更安全且成本效益更高。
目前,AI等技术正在以下几个方面,改变了存储的智能数据管理(Storage Intelligent Data Management):
分层存储已经存在了几十年,允许组织根据容量、速度、成本、安全性和其他因素的要求来利用不同类型的存储介质。目前实施分层存储仍然是一项相对手动的工作。而AI/ML可以通过分析访问和使用模式,智能地将数据分配到最佳存储层,从而提供完全自动化分层存储的机会。
分类和标记是另一项重要的手动任务。AI/ML可以分析数据上下文和相关元数据,以自动将大量信息分类为整洁、有序的可消费单元。分类和标记的潜在用例很有趣,包括商务、内容管理以及依赖搜索功能的任何其他流程。
重复数据删除和压缩可以帮助组织最大限度地利用存储资源。AI/ML可用于审查整个组织中的大型数据集,并确定删除重复数据或压缩数据集的机会,将使组织能够更有效地利用其总存储容量。
预测性维护。计划外停机每年给组织造成数十亿美元的生产力损失。凭借分析历史数据和实时使用模式的能力,AI算法可用于预测何时可能发生设备故障,并主动将其标记给合适的人员,从而降低代价高昂的停机时间和毁灭性数据丢失的风险。
AI不仅可以自动执行备份和恢复流程,还可以识别潜在风险和漏洞,并在发生中断或数据丢失时提供实时警报和通知。随着灾难恢复工作具有更高程度的控制力和可靠性,企业可以更快地从灾难中恢复,以减少意外事件的影响,提高业务连续性,并确保关键作可以快速恢复。
AI/ML还可以帮助配置、优化和重新分配计算和存储资源,可以显著提高资产利用率、增强系统性能和提高数据可用性。在缓解安全和威胁、TCO分析等方面,智能数据管理也有用武之地。
华为OceanStor通过SmartTier智能分层技术,动态调整数据在HDD和SSD间的分布。
华为OceanStor V3系列融合存储拥有功能丰富的存储软件,可以满足用户的多样存储需求,适合大型数据库OLTP/OLAP、高性能计算、数字媒体、因特网运营、集中存储、备份、容灾和数据迁移等应用。
华为OceaStor V3融合存储分级技术、数据压缩与重删技术、自动精简配置技术、存储虚拟化技术、服务质量保障技术、缓存分区优化技术能够让用户充分发挥出融合存储的各项优势。
其中华为SmartTier自动分级技术能够帮助用户在合适时间将合适数据放置在合适的存储介质上,能够很好地满足用户在性能和成本之间的平衡。
华为SmartThin自动精简配置技术可以帮助用户采用“按需分配”的存储空间分配策略,提高存储资源利用率。华为SmartVirtualization异构虚拟化技术可以帮助用户管理不同厂商的异构存储产品,实现用户对存储环境进行统一管理,降低管理复杂度的效果。而华为在线重删技术可以实现基于文件和Thin LUN的数据重删功能,无需影响到主存储控制器处理器的性能。
华为SmartQoS服务质量保障技术能够对存储系统中的计算资源、缓存资源、并发资源以及硬盘资源的智能分配和调节,来满足多种不同重要性业务在同一台存储设备上的不同QoS要求。而华为SmartPartition缓存优化技术可以通过对系统核心资源的分区,保证关键应用的性能。
Pure Storage FlashBlade的Elasticity软件堪称存储领域的革新利器,具备诸多显著优势。它构建了通用扩展对象存储体系,不仅支持CIFS 等多种文件及对象协议访问,而且还前瞻性地为未来新型协议预留接口。
在负载分布上,Elasticity能巧妙跨越至强与ARM CPU,确保运行高效。同时,丰富的数据服务功能一应俱全,数据削减、快照、复制、加密等操作,为数据安全与管理提供全方位保障。
在元数据处理方面,Elasticity拥有可扩展及可变块大小元数据引擎、元数据查询等功能,并能保障分布式事务一致性。高可用性也是其一大亮点,向外扩展 Elastic Core配合端到端垃圾回收,N+2+擦除编码、LDPC错误恢复功能,进一步提升系统稳定性。另外其强大的命名空间及元数据寻址能力,使其每秒可创建超1亿个独特的对象/文件,性能十分强劲。
分布式架构,多节点协作实现高可用性和横向扩展
分布式存储系统旨在跨多个互连的节点或服务器存储和管理数据。与数据存储在单个位置的传统集中式存储系统不同,分布式存储系统将数据分布在节点网络中,在可扩展性、可靠性和容错性方面具有多项优势。
分布式系统主要有三种类型:块存储库,数据在存储库中排列成数据块,每个数据块都由地址或身份唯一识别。在分布式系统中,这些块被划分在多个节点或服务器之间,提供容错和冗余。
块存储库经常用于云计算平台和虚拟化基础设施,以及其他需要直接访问原始存储块的情况。对于数据库和其他需要高效随机访问数据的应用程序,块存储库是高性能存储的绝佳选择。
文件存储库,用于在多个节点或服务器之间排列和控制文件,通过提供元数据管理、访问控制和文件锁定等功能,使用户能够安全地协作处理共享文件。
文件存储库对于各种应用如内容交付、数据分析和协作工作环境等都非常有用,为存储和访问文件提供了一致的分层命名空间。
对象存储库,用于管理和存储由数据、元数据和唯一标识符组成对象。通常,对象是非结构化数据单元,如blob、文档、电影和照片。对象存储库提供了通用且可扩展的存储选项,适用于各种用途,如数据存档、内容交付和云存储等。
分布式存储系统众多优势,如通过添加更多存储节点或服务器,分布式存储系统使企业能够根据不断增长的数据量和用户需求进行扩展;通过跨多个节点复制数据来承受硬件故障,从而保证数据可用性和不间断服务;在发生硬件故障或网络中断时,冗余和容错技术可确保对数据和服务的持续访问;通过将工作负载和数据划分给多个节点,可以降低延迟和瓶颈,并提高性能;通过利用可扩展的架构和商用技术,可以提供比传统整体存储系统更实惠的存储解决方案等。
阿里云对象存储服务OSS是阿里云提供的海量、安全、低成本、高可靠的云存储服务。OSS分布式存储拥有海量弹性、高可靠、高并发读写、全球覆盖、安全可控等优势。
OOS采用先进的分布式架构,将数据分散存储在多个节点,提高存储效率和可靠性;通过智能算法,自动优化数据存储布局,提升数据访问性能;支持多种加密方式,对数据进行加密存储和传输,防止数据泄露;具备强大的备份和恢复功能,可定期备份数据,快速恢复误删或损坏的数据;可在不同区域间进行数据复制,实现异地容灾和数据多活。
OSS具有与平台无关的RESTful API接口,您可以在任何应用、任何时间、任何地点存储和访问任意类型的数据。企业可以使用阿里云提供的API、SDK接口或者OSS迁移工具轻松地将海量数据移入或移出阿里云OSS。
Amazon S3是亚马逊云科技的元老级分布式存储服务,为全球数百万客户提供可靠、便捷的云存储。现在Amazon S3提供了9个存储层级,满足不同应用的数据不同访问模式,能够胜任几乎所有工作负载。
而AWS S3利用对象存储架构实现海量数据存储;基于键值对的元数据管理,方便数据索引和检索;采用冗余存储和数据校验技术,保证数据完整性和耐久性。这样企业可以通过 Amazon S3随时在Web上的任何位置存储和检索的任意大小的数据。
MinIO是开源对象存储系统,通过Erasure Coding提高数据冗余效率,适合云原生场景。其幕后的公司MinIO推出的MinIO AIStor允许企业将其所有数据整合到一个私有云命名空间上。AIStor的架构采用与超大规模提供商相同的原则,与公有云相比,AIStor 以一小部分成本提供大规模性能。MinIO AIStor生产吞吐量超过2.2 TiB/s,为对象存储设定性能基准。
编排与自动化,通过软件实现存储资源自动化分配和运维
编排和自动化可以帮助用户管理存储。存储的编排和自动化是现代数据存储管理中的重要概念,也是软件定义存储的核心技术。
存储编排主要指对存储资源进行合理规划、分配和组织,包括存储设备、空间、网络连接等的统筹安排,以满足不同业务对存储的需求,提高资源利用率。
自动化则是利用软件工具和技术,使存储管理中的配置、部署、监控、故障处理等任务能够按照预设规则自动执行,提升管理效率和准确性,减少人工干预,降低人为错误风险,实现存储管理的高效、稳定和智能化运行,是提升存储系统整体性能和运维水平的关键手段。
许多可用的编排工具都是开源的,如Kubernetes、OpenShift 、Swarm等。有些是完全商业的产品,如AWS、Microsoft Azure、阿里云等提供的产品。Kubernetes已成为该领域的主导技术,拥有一个蓬勃发展的DevOps和最终用户社区,是存储编排的典型代表。
Kubernetes中的存储通过容器存储接口(CSI)进行管理,CSI是一种以独立于设备的方式将块和文件存储系统连接到容器化工作负载的标准,使存储与运行时环境的其他软件定义资源一样易于管理。
Nutanix借助超融合基础设施的自动化存储编排,实现分钟级存储服务部署。
Nutanix Unified Storage将块、文件和对象存储整合到一个平台中,旨在减少传统存储系统的弱点,对于希望从一个界面管理所有三种类型存储的团队特别有益。
而Nutanix的自动化存储编排技术包括:采用超融合架构,将计算、存储等资源深度融合,通过软件定义存储技术实现存储资源的灵活编排;利用智能数据管理技术,可自动进行数据的分层存储、副本管理和故障恢复等操作;借助自动化脚本和API,能与多种云平台及企业现有IT系统集成,实现跨平台的自动化管理等。
Nutanix的存储编排与自动化优势明显,如简化管理,通过统一界面实现对存储等资源的集中管理与编排,降低运维复杂度;高灵活性,可按需灵活分配存储资源,快速响应业务变化;强大的自愈能力,自动检测和修复存储故障,保障数据的高可用性;运用数据压缩、去重等技术,提升存储效率,降低成本。
CubeFS由京东于2017年创建一个分布式存储平台,在两年后捐赠给CNCF。现在它已从CNCF毕业,被200多个组织用于存储350PB的数据。
CubeFS支持存储编排与自动化。编排上,能对存储资源按需分配、灵活调度,实现计算与存储解耦;自动化方面,可自动处理数据均衡、副本管理、故障恢复等。通过策略和规则设定,能自动完成日常运维任务,提升效率,保障存储系统稳定、高效运行。
CubeFS支持副本和纠删码两种防止数据丢失的方法,旨在提高应用程序访问其数据的速度,该平台将元数据或有关文件的技术信息存储在RAM中,而不是存储在持久性存储中。
多协议支持与统一接口,兼容块、文件、对象等多种存储协议,简化数据访问
软件定义存储的多协议支持是指存储系统能够同时支持多种不同的通信协议,如光纤通道协议(FC)、互联网小型计算机系统接口(iSCSI)、网络文件系统(NFS)、服务器消息块协议(SMB)等,以满足不同用户和应用场景对数据存储和访问的需求,使不同类型的设备和系统都能高效地与存储系统进行交互。
而提供统一接口旨在为各种存储资源和不同协议提供一个标准化、一致性的操作和管理界面,隐藏底层存储设备的复杂性和差异性。用户通过统一接口,可以以相同的方式对不同类型、不同品牌的存储设备进行配置、管理、监控等操作,提高存储管理的效率和便捷性。
近年来,存储厂商不断推出支持更多协议的存储产品,并通过软件定义存储等技术来优化统一接口的实现,使其更加灵活和智能。
在应用上,越来越多的企业数据中心开始采用多协议存储和统一接口方案,以适应混合云、多云等复杂的IT环境,实现存储资源的高效整合和管理。
在行业标准组织也在积极推动相关标准的制定和完善,促进存储多协议支持与统一接口技术的规范化和互操作性。
Alluxio开源数据虚拟化层,提供内存缓存和统一命名空间,兼容HDFS、S3等协议。
Alluxio为数据驱动型应用和存储系统构建了桥梁, 将数据从存储层移动到距离数据驱动型应用更近的位置从而能够更容易被访问,使得应用能够通过一个公共接口连接到许多存储系统。
到今天为止,Alluxio已经在数百家机构的生产中进行了部署,最大部署运行的集群规模超过1500个节点。
Alluxio将三个关键领域的创新结合在一起,提供了一套独特的功能。
全局命名空间:Alluxio能够对多个独立存储系统提供单点访问,无论这些存储系统的物理位置在何处,提供了所有数据源的统一视图和应用程序的标准接口。
智能多层级缓存:Alluxio集群能够充当底层存储系统中数据的读写缓存,可配置自动优化数据放置策略,以实现跨内存和磁盘(SSD/HDD)的性能和可靠性。
服务器端API翻译转换:Alluxio支持工业界场景的API接口,如HDFS API、 S3 API、FUSE API、REST API等,能够透明地从标准客户端接口转换到任何存储接口。Alluxio 负责管理应用和文件或对象存储之间的通信,从而消除了对复杂系统进行配置和管理的需求。
NetApp ONTAP是一款强大的存储管理系统,通过StorageGRID这一关键技术,能对对象存储(S3)、文件(NFS)和块存储(iSCSI)进行统一管理。它为用户提供了一个集成化的管理平台,无论使用哪种存储类型,都可在一个界面下完成配置、监控、维护等操作,有效简化了存储管理流程,同时确保不同存储类型的数据能高效、安全地存储和访问,满足企业多样化的存储需求。
软件硬件解耦,打破厂商锁定,支持异构硬件和开源方案
麦肯锡认为,随着AI的进步实现新功能并显著降低开发成本,软件定义硬件正在重塑多个行业。在过去的20年里,从固定功能硬件到软件定义硬件的转变,彻底改变了从网络到移动通信的行业。
在传统的存储系统中,软件和硬件紧密集成,通常迫使企业使用特定的供应商设备来管理其数据,会导致高成本、有限的灵活性和潜在的供应商锁定。
软件定义存储SDS将控制系统与硬件的物理存储卷分开,允许独立升级和可扩展性。SDS通过从物理存储设备中抽象出存储管理来转变这种模式,使企业能够使用各种硬件(从商用硬件到企业级系统),而不会牺牲控制或性能。软件层成为控制平面,负责定义如何跨不同硬件平台存储、访问和管理数据。
SDS这种软件层与存储硬件的解耦,使企业能够轻松扩展和升级其存储基础设施,而无需受制于特定供应商或昂贵的硬件升级。
通过利用SDS,企业可以充分利用其现有的底层硬件,同时随着时间的推移仍能集成更新、更具成本效益的解决方案。这不仅提高了灵活性,而且通过减少对高成本专有存储系统的依赖来降低运营成本。
在软件硬件解耦方面,浪潮信息的AS13000G7分布式存储平台采用全新数控分离架构,将文件系统的数据面和控制面完全解耦,控制面管理数据属性信息,数据面直接负责数据读写操作,显著减少数据流在节点间的转发次数,降低80%的东西向数据转发量。
浪潮信息创新自研分布式软件栈,通过软件层面的数控分离,把数据面和控制面进行解耦,解决了传统分布式文件系统中数据和元数据高度耦合带来的性能瓶颈问题。
戴尔PowerEdge通过OpenManage平台实现与第三方存储硬件的无缝集成。戴尔OpenManage平台功能丰富多样,包括提供集中管理能力,能作为统一控制台管理多达8000台戴尔PowerEdge服务器,还可全面监控网络、存储及第三方设备。在生命周期管理方面,涵盖从发现、配置、部署到更新、修复的全流程等。
毫不讳言,许多公司正试图通过创建新的存储系统、新的计算框架或新的堆栈来解决与数据访问相关的挑战。然而,历史表明,每隔5~10年,就会出现另一波新的存储系统和计算框架,并不能从根本上解决数据访问挑战。以存储为例,每个新的存储系统都成为数据环境中的另一个数据孤岛,创建新应用程序或新堆栈的方法也是如此。
我们相信,为了从根本上解决数据访问挑战,世界需要软件定义存储SDS化解这些挑战,轻装上阵。
Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.
No relevant data is available
If the download button clicks without skipping, click on the top right menu and select "Open in Browser."