首页 > 空调 >

亚马逊云科技基础架构持续领先的公开秘密之:存储

截止到2022年,亚马逊云科技的云上存储已经进化了16年了,从AmazonS3对象存储,到Amazon EBS块存储再到Amazon EFS文件存储,从数据迁移、数据复制同步、数据灾难恢复方案,都应有尽有。

从技术能力来看,亚马逊云科技云上存储在可靠性、可扩展性、安全性方面均处于业内领先位置,许多规范和标准都被行业广泛借鉴。

从市场应用看,亚马逊云科技不断拓展云上存储的应用边界,不断带来新的可能,此前有媒体称,亚马逊云科技已经超越了传统企业存储公司成了最大的存储公司,能做的事情也越来越多。

本文带大家简要认识亚马逊云科技在存储方面的独到之处以及对于用户的价值。

亚马逊云科技存储简介

01、Amazon S3 对象存储

Amazon S3最早发布于2006年,作为亚马逊云科技的第一款云服务,它比Amazon EC2早了半年,如今Amazon S3上存着超过100万亿个对象,日常每秒需要处理上千百万次请求。几乎每一亚马逊云科技用户都在用Amazon S3,用户在Amazon S3上存储了大量数据。

Amazon S3的一个关键概念叫“Bucket(桶)”,它非常传神地表现了几乎所有类型的数据都能存的特点,可满足用户在各种行业、各种规模、各种应用、各种场景的数据存储需求。

Amazon S3的用法非常简单,无需关注任何背后的实现,用户无需配置任何硬件,无需考虑运维扩容的问题,只需要按照需求设置好访问权限(很关键、很重要,处理不好容易上新闻头条),然后,就能在应用中对Amazon S3进行读取和写入操作。

作为一款堪称云上基石的存储,安全稳定是第一关键要素。天上的云朵到处飘,云存储稳得一批。

Amazon S3全系最高进行了4个9的可用性设计和11个9的持久性设计,4个9的可用性意味着,一年里的平均宕机时间不超过1小时(3153.6秒),11个9的持久性意味着,平均每经过一万年,你在Amazon S3上存的1000万个对象会丢一个,只要不是故意手动删除,几乎不可能丢。

11个9的持久性要归功于独特的架构设计,亚马逊云科技有Region(区域)的概念,每个区域有至少3个可用区(AZ),每个可用区有多个数据中心(许多云厂商在一个区域仅有一个数据中心),Amazon S3的数据分散在这样的数据中心里,用户大可放心。

目前,亚马逊云科技在全球有26个区域和84个可用区,遍布全球的架构,一方面能解决一些国家和地区数据只能驻留在本地的要求,另一方面,也意味着更低的延迟体验。

对于那些跨国企业来说,能用一套架构实现全球运营,Amazon S3里的数据在各个区域迁移复制也更方便,这是地区性的公有云服务商不能比的。

2021年,亚马逊云科技发布了一个叫Amazon S3 Multi-Region Access Points(MRAP)的服务,应用不做什么调整,就可以通过一个全局的单一接入端点服务于后端多个存储桶,使用Global Accelerate的技术,访问被自动路由到最靠近使用者网络的数据副本。这帮助多区域的应用提升了60%。

2020年年底,亚马逊云科技对Amazon S3进行了一项重大更新,那就是支持强一致性,而不是原来的最终一致了。这意味着可以更好地支持大数据、机器学习等数据写入后会马上就读的场景,这也是2021年亚马逊云科技大张旗鼓地宣传智能湖仓架构的一个技术原因。

总之,Amazon S3对象存储如今是对象存储领域的事实标准,许多对象存储都以兼容Amazon S3作为卖点来介绍,无论对于用户,还是行业,Amazon S3都有举足轻重的影响。这里的介绍,只是皮毛。

02、Amazon EBS 块存储

亚马逊云科技存储的另外一个重点是Amazon EBS块存储,Amazon EBS最早发布于2008年,虽然发展了很多年,但块存储产品线并不复杂,按类别分,Amazon EBS分为磁盘型的和固态硬盘型的,按照场景不同,分为io优化型的(io1、io2)和通用型的(gp2和gp3)。

Amazon EBS的用法很简单,Amazon EBS独立于Amazon EC2实例运行,它就像是电脑的硬盘,它能灵活地挂载到同一个可用区里的任何Amazon EC2主机上,一个Amazon EC2可以挂载多个Amazon EBS,不仅如此,Amazon EBS还能灵活地扩容,灵活地能改变Amazon EBS的类型。

Amazon EBS非常安全可靠,在可靠性和安全性方面,Amazon EBS提供了加密、快照以及备份功能,它提供5个9的可用性和最高5个9的持久性设计,能安全地存储数据。

Amazon EBS其实并不简单,它号称是云上的SAN存储,带有各种高级功能,性能也非常高,实际应用中,可用来取代本地存储中的SAN存储系统,用来跑各种数据库等IO密集型应用。

【红框里就是io2 Blockexpress的部分参数】

在2021年,随着io2 Block Exprss的发布,EBS的性能达到了新高度,IOPS、吞吐带宽都翻了四倍,还有最高亚毫秒级别的延迟表现,更坚定了用户用EBS取代传统中端SAN存储,跑数据库、ERP等关键应用的信心。

03、Amazon EFS 文件存储

2016年,亚马逊云科技发布了EFS文件存储,这是一个非常简单易用的Serverless的文件存储系统,创建的时候可以像Amazon S3一样,不用指定具体容量,伴随着数据量的增长也完全不担心扩容的问题,用户只需按照用量付费即可。

Amazon EFS采用了11个9的持久性设计和最高4个9的可用性设计,性能很高,延迟很低,支持多达数万客户端的并发访问,可适用于各种关键业务应用,可以很好地用作容器以及Serverless服务的持久存储,还可以支持数据分析等需要短时间内访问大量数据的场景。

文件系统原本就多种多样,有开源的,有商业版的,按照使用场景不同也有很多种,EFS是完全诞生于云上的NAS共享存储,在向云上迁移的过程中,原有的许多应用都有对应的文件系统,为了更好地迁移这类工作负载,亚马逊云科技推出了FSx系列。

2018年开始,亚马逊云科技陆续发布了FSx for Lustre和FSx for Windows File Server,随后又陆续发布了FSx forNetApp ONTAP和FSx for OpenZFS,对应了市面上最常见的几款文件系统,让用户在云上用上原来就一直在用的文件系统,告诉这部分用户说,你可以上云了。

亚马逊云科技在降低成本方面的努力

就像许多人终其一生都喜欢十七八岁的姑娘一样,用户对存储的要求也没多大变化,在可靠和性能的基础上,存储越便宜越好。亚马逊云科技多样性的存储是为了对应不同应用场景,用更合适的解决方案实现更高的性价比。

这点在Amazon S3上体现的非常充分,Amazon S3存储层级分了八层,按照不同场景进行最优使用。

对于需要经常访问的数据,自然选择标准版的Amazon S3,它能提供4个9的可用性,毫秒级的访问表现。对于不太经常访问的数据,比如需要经常传照片的社交网站,可以选择存在S3 Standard-IA上,相较于前者能节省大概40%的费用。

对于那些需要长期保存,但是访问的时候又需要快速访问的数据,可以存放在Glacier Instant Retrieval,这是最新的一个存储层级,访问性能跟标准的Amazon S3一样,成本也非常低,从类型上看,这属于在线归档存储。

而对于那些需要长期保存,而且很少访问的数据,则可以考虑Amazon S3 Glacier Deep Archive来离线归档,它的成本非常低,大约1美刀1个TB,但代价是,想把数据拿回来就得多等等,大概需要12到48个小时。

有人觉得这等的时间也太长了,于是,亚马逊云科技又推出了Amazon S3 Glacier Flexible Retrieval,只需要等上几分钟到几小时。

在降低成本的路上,Amazon S3可谓是出尽奇招。对于不怕丢,丢了还能重新创建的数据,用户可以选择Amazon S3 One Zone-IA,顾名思义,数据只存在单个可用区上,丢数据的风险高了些 ,但是成本更低了。

顺便提一句,出于合规的要求,用户有些数据不能上云,只能在本地的数据中心里,为了照顾这部分用户,亚马逊云科技拿出了Outposts,把云的硬件放到了用户的数据中心里,当然,这样一来访问延迟会超级低,能满足需要低延迟的应用场景。

【来自亚马逊云科技官网控制台】

上面提到了Amazon S3一共有6个存储层级,加上Amazon S3 One Zone-IA一共算七层,用户可以用生命周期管理功能来在各层之间迁移数据从而节省成本,如上图所示,用户只需设置对象自创建多少天后把数据迁移到别的层就可以了,操作起来,So easy!

少部分颜值比较高的朋友会发现,这种按照创建日期进行生命周期管理的方式虽然简单,但略显粗暴,有些数据创建了很久,但经常被访问怎么办呢?有些数据创建的那一刻就知道以后几乎不会访问,那还要存在成本更高的标准Amazon S3上吗?

其实这是数据访问模式的问题,为了解决这一问题,用户可以考虑直接把数据传到最新的Amazon S3 Intelligent-Tiering层,它会根据对象被访问的次数进行自动化迁移,而且,应用无需做任何改动就能直接适应各种不同访问模式,很多用户都已经在用了。

如上图所示,它包含了五个存储层级,当数据刚传到Intelligent-Tiering层,会先放在“经常访问(FA)”层,如果有数据超过了30天没有访问,它会把数据放到下一层“不太经常访问(IA)”的层,如果这里的数据有60天没被访问,那就继续往下搬,搬到Archive Instant Access层。

以上三个都是在线存储类型的,如果那些对象有90天没被访问,就放到归档存储层,如果又过了180天还是没人访问,那就再搬到深度归档层。前三个层级的访问速度都很快,而离线归档存储的访问时间就需要等上几分钟到几十个小时那么久,好处是成本真的低。

值得一提的是,用Intelligent-Tiering的时候,第一个月可能成本比标准的Amazon S3还高,但是一个月之后就能明显看到成本的节省,目前Intelligent-Tiering层已经在中国上线了,有兴趣的可以试试。

还有颜值高的朋友又说了,数据Amazon S3都用了好多年了,当时也没有这么多层级可选,也根本不记得有哪些数据放在哪儿,我怎么下手做调整啊。

于是,Amazon S3 Storage Lens出现了,它像是Amazon S3的一个统计管理工具,能帮用户看见Amazon S3的使用概况,比如,哪些桶的容量增长的过快,哪些桶里有不完整的无用数据,哪些数据可以迁移到别的存储层级等,这一服务能立竿见影帮Amazon S3的用户节省成本,推出以来非常受欢迎。

与海量数据的对象存储不同,块存储Amazon EBS本身容量也不大,对性能要求普遍偏高,所以,Amazon EBS本身没什么分层的必要,在设置的时候直接选Amazon EBS类型就行了,与生命周期管理相关的是Amazon EBS快照的存储、管理与使用,EBS快照本身确实很重要,这里不展开说了。

文件存储Amazon EFS的容量相对较大,所以有分层的概念,按照类别分为四个层级,Amazon EFS标准版和Amazon EFS IA版,Amazon EFS OneZone和Amazon EFS OneZone-IA,OneZone只在一个可用区里存放数据,牺牲了可用性来换取更优成本。Amazon EFS也支持Intelligent-Tiering,启用后最高可节省92%的成本。

存储的衍生服务:数据保护,数据传输

【目前支持九种服务,未来还将支持更多服务】

2019年1月,亚马逊云科技发布了集中式的数据保护服务Amazon Amazon Backup,请注意这个名字,它不只是亚马逊云科技存储的数据保护,而是面向包括存储、各种数据库以及Amazon EC2实例的综合型备份管理服务,它能让一个企业用户的各种数据保护都在一个服务中完成。

【各种发布和更新的节奏有明显加快】

随后Amazon Backup除了支持各种云服务以外,也逐步添加了对云以外的数据资产的保护能力,比如,对于VMware的数据保护。最近发布了Amazon Backup for Amazon S3预览版,顾名思义,是给Amazon S3准备的备份服务,你没有看错,现在连11个9的持久性的S3也有备份服务了。

本地数据中心准备的数据保护技术其实本身也非常成熟了,一些技术概念,比如增量备份,不可变备份等等其实都不新鲜,Amazon Backup的优势是,能结合云上的各种丰富的服务,而且能把备份和恢复的操作难度降低到史上较低水平,许多都能“一键”完成。

当然,如你所知,只有备份是不够的,亚马逊云科技甚至还有对抗勒索病毒的一套技术,比如有防篡改的Ojbect Lock、Vault Lock,做数据隔离的各种东西,还有做智能扫描恢复的一套东西,从介绍来看,它实现起来会更简便。

亚马逊云科技其实也提供了容灾服务,根据用户业务对于RTO/RPO的要求以及预算不同,可以选择不同的方案,以此来应对各种自然灾害可能会造成的业务中断等问题。云上的容灾优势也很明显,比如,常说的两地三中心之类的容灾方案,用云的方式来实现其实也会更灵活。

亚马逊云科技还有许多数据迁移工具,除了Snowball,Snowmobile这种离线的传输方式,还有Amazon DataSync、Amazon Transfer等几个系列的在线传输方式,亚马逊云科技还将StorageGateway存储网关算成了数据传输的一种,顾名思义,它是可以打通云上云下的网关,用于构建混合云。

感谢耐心阅读,以上就是关于存储方面的简要介绍,希望对想了解亚马逊云科技存储的朋友有所帮助。

汇聚众多行业大咖、以“云基础架构”为主题的“亚马逊云科技创新大会”,即将于2022年4月20日下午14:00在线上召开。届时大会主题演讲、6大分会场、30+前沿技术主题,将带您全面了解亚马逊云科技云基础架构知识,以及如何重构云底座,助力企业数字化转型。

责任编辑:Rex_08

关键词: AmazonS 基础架构
推荐阅读