chengliangliang
作者chengliangliang·2021-03-09 16:04
系统架构师·某大型保险

保险行业核心系统升级改造数据库层存储架构规划与设计探讨总结

字数 14748阅读 6214评论 0赞 1

随着移动互联网时代的到来以及前沿科技应用的不断涌现,传统核心系统显然已经无法应对时代需求,因此急需对核心业务系统进行升级改造建设。在升级改造过程中,数据库和存储又是根本,所以在升级改造是需要着重对数据库和存储架构进行设计规划 , 在规划设计过程中,有时因为无法准确评估上层应用系统的业务流量 , 使得在规划设计时无法准确的对硬件进行规划及选型。 可能面临的一些难点,接下来就针对本期的交流进行总结:

1、在数据库层存储的规划及设计时,数据库的数据保护如何考虑?

回复1:chengliangliang 系统架构师 , 某大型保险
1.在数据保护层面首选的还是带库备份,但是在发生灾难时恢复时长是根据数据量,带宽等因素,恢复时长不好评估。
2.也可以在存储层对数据磁盘做一个增量的快照克隆。这个方案可以在系统层面做好定时任务,根据业务需要定期执行任务。
3.对存储进行存储镜像,这样也可以对数据进行保护。

回复2:yfwang SE , 戴尔科技金融行业解决方案中心
1、 首先,数据库的保护机制和存储的保护机制不冲突;
2、 一般而言,存储级别的数据保护属于平台级别的,可以同时实现多个数据库的保护方案,包括同构和异构数据库,如果数据库的种类和数量比较多的话,存储级别的保护方案会比较简单;
3、 数据库的保护方案优点是灵活,对带宽要求低,缺点是需要使用到主机资源且实施相对复杂,如果数据库种类和数量少,可以考虑使用数据库级别的方案;
4、 数据库保护方案和存储保护方案可以共存,比如可以使用存储实现数据零丢失方案,使用数据库复制方案实现数据库级别的数据快速回滚和找回。

回复3:qixiaoding 戴尔科技金融行业解决方案中心
规划设计中有 2 个关键指标, RPO 和 RTO ,一个是允许丢失多少数据 (RPO) ,另一个是在允许 RPO 定义的数据丢失的情况下用多长时间能够将没有丢失的数据恢复回来 (RTO) 。 所有系统的数据保护设计依据是 RPO 和 RTO 。 一个完整的数据保护方案,应该是多种技术的结合体,除了防范物理故障,还需要防范逻辑故障。 比如,存储双活、存储快照 / 克隆、存储异地复制、数据库 log 传输、 RecoverPoint CDP 等。

最后,所有的方案都需要周期性的演练和验证,恢复数据是数据保护系统设计的目标,没有演练过的系统就没有了灵魂。

回复4:
数据库数据保护的话,对于一级系统数据库至少两重,一重采用数据库层同步、复制或容灾,另一重采用备份软件进行。在线数据或近期数据可短时间恢复,历史数据版本随时可进行恢复。对于二级系统,可酌情考虑成本及需求,至少采取一种保护。

2、随着去IOE进展,企业对DB的理解也不再局限于Oracle,这对数据库存储有什么影响吗?

回复1:qixiaoding 戴尔科技金融行业解决方案中心
去IOE这种说法,从很大程度上对EMC进行了广泛的市场宣传,让更多的金融客户知道了EMC这家生产优质存储的厂商,使得大部分金融客户在选择核心存储时,将EMC作为首选存储。
Dell EMC(原EMC)除了对Oracle的支持,也支持Microsoft SQL Server, DB2, 开源社区,具体的支持可以查看Dell EMC的官网。
数据库的变化这几年非常快,主要有2个趋势:国产化、分布式。在中国,具体项目可能用一种形态表现出来。
分布式对现有SAN架构的存储是有影响的,主要影响的是新增市场部分,比如互联网应用。对已有核心DB存储影响不大,保险行业大规模替换核心存储为分布式的可能性不大。
建议,关注新技术的发展,比如核心存储的SCM/NVMe,数据湖,分布式存储等。

回复2:chengliangliang 系统架构师 , 某大型保险
存储只是支撑数据库用于数据存储的介质,可是使用国产存储,也可以使用知名国外厂商的存储,只要可以支持数据库的正常存储和IO读写就可以,这个影响应该不大,除非公司会大量采购国产存储,这样会涉及到数据迁移和一致性问题,所以建议核心数据库存储使用EMC这样的老牌厂商存储,其余的可以适当尝试国产存储。

回复3:Jerry 其它 , 某金融公司
在高端存储这块,国产存储也逐渐能站住高端存储的脚跟,在稳定性与性能上的进步日益显著,入围高端存储的布局,在企业数据库应用上也有铺开的势头。在中端存储市场,国产存储和外商产品的差距也越来越小,逐步进入企业作为数据库存储采购的候选产品。综合来说,在高端市场,国产存储有进步但也有很大的追赶空间,还需市场与企业的打磨,中端市场上随着国产化的趋势也逐步占有席位。

单从市场表现来看,数据库存储的国产化趋势已有兴起的势头,但大盘还是在传统的TOP存储厂商手里,更替迭代都需要时间,路还很长。

回复4:yfwang SE , 戴尔科技金融行业解决方案中心
1、企业选择一个基础架构,主要还是应该从是否能满足自身业务运行和发展的需求的角度出发。
2、如果决定去IOE ,那肯定是因为 IOE 有某些不能满足现在需求的原因,比如管理、成本、性能、可靠性,不管什么原因,需要先把这些因素抽象出来,作为选定新平台的标准。
3、对数据库存储而言,不管是用E ,还是用开源的分布式,还是用云,都最好根据业务系统对性能和可靠性的要求来作为首要的选择标准。一般而言,建议根据业务重要级别的不同来选择不同等级和形式的数据库存储。

3、针对DB选择存储时,在POC测试中企业需要重点关注什么?

回复1:yfwang SE , 戴尔科技金融行业解决方案中心
1、 对服务于核心数据库的存储而言,一般可靠性是第一位的要求,其次是性能。
2、 可靠性包括两个层面:存储自身的高可靠性,以及存储高可靠性方案的稳定性和成熟度,存储自身的可靠性可以做一些故障场景的测试、微码升级等,主要测试设备的冗余能力。
3、 高可靠性方案主要包括存储双活和同异步复制以及本地快照等,可以根据实际需求进行测试,对于双活方案,建议更多关注是真双活还是 active-standby 的自动切换;对于同异步复制,主要关注切换和回切的成功率和操作便利性;对于快照,建议关注启动快照后对原生产卷的性能影响,以及对存储空间的占用。
4、 对于性能测试,不建议采用类似 IOmeter 之类的I/O测试软件进行,因为测试结果对实际使用参考意义不大;存储的性能很大程度上取决于 I/O 类型,如果想得出针对自己应用的真实的性能表现,建议采用真实的业务环境来进行,或者去参考其他用户真实环境中的运行情况会更有参考意义。

回复2:chengliangliang 系统架构师 , 某大型保险
针对业务类型选择合适的存储。比如对并发连接较小的数据库可以选择中端存储。但是对于并发连接较大的数据库建议选择高端存储,高端存储支持更大的IOPS,对读写的响应时间也是很低的。尤其对应数据库来说响应时间最好维持在5毫秒以下。

回复3:Jerry 其它 , 某金融公司
1,业务场景的落实,对IO、延迟、容量等关键指标的标准要求;
2,业务场景数据的特征分析,读写混合比例,IO持久化特性等;
3,产品的功能性,数据保护、容灾、特色功能等;
4,产品的稳定性,常见故障及异常场景可靠性验证;
5,产品的生态,与其他解决方案的结合,统一纳管、数据迁移等。

回复4:qixiaoding 戴尔科技金融行业解决方案中心
应用的部署方式和应用特点是第一关注点,比如是否与其它应用共用存储,是否有大量的数据交换等,这是 POC 测试项选择的基础。

传统混合存储 POC 的场景不多了,大部分金融客户做 POC 的是全闪存储,主要是验证性能的提升程度 。

例如,核心存储替换项目中,核心存储有多个关键应用的数据库,都是 OLTP 型。
那么我们 POC 测试就可以选择测试多并发随机小 IO 的场景,具体操作时可以选择用 4 台服务器并行做 8K 数据块,读写比例 7 : 3 的压力测试。
具体的数值选择,参考数据库的性能分析报告,这里只是举一个例子。其次,数据保护方案是否完整,也应该是关注的一个内容。

4、根据数据库业务类型如何对存储产品进行选型?

回复1:qixiaoding 戴尔科技金融行业解决方案中心
第一,选择同业口碑中安全稳定运行的产品,尽量不要用频繁维护或升级的产品
第二,可以分析一下自己数据库的特点,包括交易/批量/混合、数据块大小、读写比例、峰值、共用等等
第三,评估一下技术的先进性,比如现在最流行的是SCM盘,NVMe盘
第四,评估一下存储的功能是否可以与数据库应用匹配,比如快照
第五,生态应用,比如与备份系统的结合,与VMware,K8S的结合等等。

举个例子,准核心的新应用使用的是某商业化的DB,研发阶段的存储采用传统的SAN存储。如果上线运行,就要进行新的设备选型。我们要先分析此应用能接受的稳定性是啥样,每年能接受的计划停机/故障维护窗口。因为是新应用,可能更关注新技术,比如SCM盘。再跟应用开发讨论一下数据特征,例如发现是OLTP,9读1写,小IO密集,平均IO块大小17KB,基本可以判断要用NVMe全闪或SCM存储了。所以,如果资金允许,选则支持NVMe/SCM的高端存储可能排在选择的首位。

yfwang SE , 戴尔科技金融行业解决方案中心
对于数据库的联机和分析型两大类业务类型,一般存储均可以很好的支撑,好一点的存储目前都是横向扩展 + 全闪 +NVME+SCM 的架构,性能可以达到千万级 IOPS 的水平,应对一般企业级数据库性能的要求基本无压力。 数据库存储的选型应更多关注 RAS ,即可靠性、可用性和可服务性,同时关注存储解决方案的丰富性,是否可以实现业务连续性对于数据高可用的要求

回复3:chengliangliang 系统架构师 , 某大型保险
每个厂商存储根据支持的性能不同分为低端、中端、高端存储、
1.如数据库为核心生产建议选择厂商的高端存储,如华为18500全闪、EMC VMAX400k等。
2.如果是边缘业务的数据库可以使用华为5300 5500 、DELL SC7020、IBM V7000等.

5、根据数据库的重要性,如何对存储IO响应时间进行告警监控,具体告警阈值如何合理配置?

回复1:chengliangliang 系统架构师 , 某大型保险
存储的IO响应时间个人认为分为以下几种,
卷的响应时间
案例如下:
Volume: 监控提醒值 监控告警值 持续时间
Read Response times 15ms-20ms >20ms 30min
Write Response times 15ms-20ms >20ms 30min
磁盘响应时间
案例如下:
Disk : 监控提醒值 监控告警值 持续时间
Back-end Read Response times 50ms-100ms >100ms 30min
Back-end Write Response times 30ms-50ms >50ms 30min
Read Response Time 30ms-50ms >50ms 30min
Write Response Time 20ms-30ms >30ms 30min

控制节点响应时间
案例如下:
Node: 监控提醒值 监控告警值 持续时间
Read Response Time 15ms-20ms >20ms 30min
Write Response Time 15ms-20ms >20ms 30min
System CPU Utilization 50% 70% 30min
Node Utilization Percentage 50% 70% 30min
Write Cache Delay Percentage 0-1 >1 30min

具体可以根据业务重要性进行优化。

回复2:qixiaoding 戴尔科技金融行业解决方案中心
告警监控重点考虑2个内容:数值、持续性。
首选,要有基线。基线的建立依赖于历史数据和对应用的理解。
其次,要有业务目标,业务目标到IT目标的映射,决定了IT目标的底线是什么。
最后,要有结合自身特点的实践。

比如,
我们通常会建议客户记录历史的峰值,如果高于历史峰值,我们先警告;如果高于历史峰值30%,系统做通知告警;如果再高,可能就要提前引入故障预警流程了。
持续性问题,偶然超出历史峰值,要记录,不影响应用的,可以事后分析。持续超出历史峰值,比如持续了5分钟,要告警,要重点监控,要立刻分析原因。

6、保险行业核心系统升级改造采用分布式存储还是集中式存储,优缺点各包含哪些方面?

回复1:chengliangliang 系统架构师 , 某大型保险
根据不同的业务场景可以选择集中存储还是分布式存储。
1.传统的集中式块存储计算能力主要由控制器提供,其性能取决于专用控制. 它取决于控制器接口的速度和数量,因此计算能力受到限制.
2.分布式存储 在性能方面,基于标准的x86硬件,软件/硬件冗余设计,整体架构高度可用;在可用性方面,存储可以基于业务体系结构调整存储体系结构;在容量和性能方面,容量和性能可以完全实现横向扩展功能,并且在添加节点时性能将线性增加;

回复2:陈炼 存储工程师 , 某科技有限公司
集中式存储
1、集中式存储设备类型丰富,通过IP/FC网络互连,具备一定扩展性;
2、受限于控制器扩展能力,扩展能力有限;
3、设备生命周期更换,需要数据迁移耗时耗力

分布式存储:
1、上线快:采用标准式设备,集中采购;
2、 高扩展;基于分布式架构,千节点/EB及扩展;
3、易运维:基于标准硬件构建,多种类型存储协议管理;

回复3:qixiaoding 戴尔科技金融行业解决方案中心
现有阶段,优选集中存储,除非有应用层分布式的改造作为前提。
分布式,是适用业务目标的结果。应用层选分布式,底层的存储顺理成章应该是分布式。
不需要纠结于技术本身,放眼企业的整体目标,从应用出发到技术架构,决定技术趋势。
保险行业大部分应用仍然是集中式的应用,建议用集中式存储。

7、针对保险新一代核心系统建设,DellEMC的核心存储解决方案有哪些案例?

针对保险新一代核心系统建设,DellEMC的核心存储解决方案有哪些案例?相比HDS、华为等厂商,有哪些竞争优势?

回复1:yfwang SE , 戴尔科技金融行业解决方案中心
DELLEMC的存储在国内很多保险公司都有使用案例,一般高端存储比较多。
主要特点:
1、基于全局缓存的横向扩展架构和基于NVME+SCM的数据通道技术组合,基本是最先进的架构设计了,不仅可以提供千万级的IOPS,更重要的是性能的稳定性非常好。
2、微码一脉相承,经过30年的完善和进化,从软件的成熟度上讲,应该是目前最为可靠的系统,这个在全球各种最高可用性要求的环境中得到了验证。
3、基于存储的各类数据保护和复制方案不仅非常丰富,而且非常成熟,可以帮用户实现各种容灾和业务高可用的需求,在911这种级别的灾难中,方案的成熟得到了广泛认可。

回复2:qixiaoding 戴尔科技金融行业解决方案中心
由于金融行业的客户保密原则,具体的客户是没有办法广而告之的。
Dell EMC核心存储的方案包括,
经典的:双活数据中心方案、两地三中心方案、多数据中心多活方案(比如4个)、数据级灾备方案、业务连续性复制方案、数据湖方案、IaaS平台方案、大数据方案。保险客户均有案例。
与其它厂商相比,Dell EMC是经典老牌存储厂商,解决方案完整,产品线完整(多个产线都在全球前列),产品质量稳定可靠,引领技术潮流(比如SCM/NVMe),服务体系完整。

8、保险行业核心数据库存储如何选型,是选集中统一存储还是分布式存储?

回复1:张斌先生 技术支持 , 某大型国企保险公司
于保险行业核心数据库而言,大容量、高性能、高并发至关重要。
一是,本行业对于容量较大的音视频文件的存储需求量非常巨大,这就不得不要求各大保险公司总部或对应的的科技公司设立数据库的时候考虑得更为全面、更为周到,为使后期更合规地处理数据提出了更高的要求和规范,另一方面是应对日益严峻的监管要求;再者,理赔作为保险的核心过程,对于存储数据也有很大的需求。其电子类资料在此过程中存储和调取不容有误。最后后台部门用于日常处理的文件资料及邮件等,对于存储方面也占据很重要的地位。
为更深一层地进行考虑,数据的备份、迁移等,传统的集中式存储方式更为被现阶段所采用和接受。
未来待区块链技术以及智能合约技术日渐成熟起来后,分布式存储将必占据越来越重要的地位,更贴近保险企业的数据库日常运作。

回复2:zrosiness 系统架构师 , JSRCB
不仅仅是保险业,对于任何行业来说,存储的稳定和数据的安全压倒一切,在此基础上可以做大胆尝试和积极创新。对集中存储来说,技术和人才储备相对丰富,具有成熟的管理经验,良好的商业环境支持,尤其是全内存的广泛使用,大大提升了集中存储的性能,一定程度上改变了人们以往对于集中存储性能是瓶颈和扩展性差,占用空间和电力的固有印象。对分布式存储来说,技术相对新颖,部分厂商的产品性能与全闪存比并不差,甚至部分场景超过全闪存,但易于扩展的同时,带来的是管理难度的倍增和故障率的大幅提高,需要培养专业的人才,改变管理思路,同时需要考虑灾备环境怎么建设。回到主题,对于核心交易数据库,如果具有非核心平台长期管理和使用分布式存储的经验,且相应的厂商具有强大的研发和技术支持能力,分布式存储各项指标满足要求,且能够解决灾备问题,可以尝试小范围的使用。

回复3:Jerry 其它 , 某金融公司
对于保险业的核心交易数据库来说,第一追求是高性能与稳定,其次才考虑其他。
存储选型落实到具体场景才有意义,不知问题里说的是核心交易数据库还是核心相关联的数据库。若是核心交易库,基本上选择集中式存储,经过长期技术打磨之后取得了高性能与稳定的双向平衡,充分满足了交易场景高性能、低延迟、持久化稳定的需求,同时对存储的数据保护生态也足够全面,数据安全很大程度上得以保障。对于分布式存储来说,自身架构就已经存在数据一致性的不确定性,虽然现在已很大程度上缓解,但离15个9的高标准还有不少进步空间。其次是数据保护的手段,分布式存储上的数据保护生态没有集中式存储完善、或者说单一,尤其是数据量上了规模后,仅依靠副本就力不从心了。随着存储规模的扩大,分布式节点也越来越多,硬件风险点也是逐渐扩大的,也是一个隐患。
以上,对于核心数据库的存储,个人认为更倾向集中式存储,更贴合核心系统对存储的要求,且数据安全与持久化都能兼顾,更适合核心交易场景的定位。分布式存储并不失为一个选择,但对于核心业务,思虑的方向需要更多一些。

回复4:chengliangliang 系统架构师 , 某大型保险
根据不同的业务场景可以选择集中存储还是分布式存储。如果脱离了场景来进行选择是没有意义的,所以我大致总结了两点:
1.对应海量小文件的增删改查,比如图片,这种业务类型个人感觉使用分布式存储较为合适。因为分布式存储的扩展性比较灵活。成本也是较低的。
2.对于数据安全要求较高,并发量较大的业务类型,个人感觉还是使用传统的集中高端存储,可以使用存储镜像,快照等功能对数据进行保护。配合带库的备份做到多层数据保护,避免数据丢失。

回复5:wdmfyx003 工程师 , 戴尔科技金融行业解决方案中心
如果为交易类型的核心数据库选择存储, 不论集中统一存储还是分布式存储, 应该考察性能、功能、可用性、可维护性、成熟度、售后服务体系等多个方面,缺一不可 。

回复6:yfwang SE , 戴尔科技金融行业解决方案中心
1 、既然是核心系统,肯定应该把可靠性和安全性放在第一位
2 、集中存储的优势是可靠性高、性能一致性好、数据强一致性,同时有丰富和成熟的数据保护方案来实现各种不同级别的数据保护要求;劣势是采购成本相对较高
3 、分布式的优势是采购成本较低,容量和性能需求易扩展;劣势是数据服务比较少,维护工作量大,缺乏在核心系统环境中对于其可靠性和稳定性的考验。
4、具体使用哪一种,我认为应该根据业务的重要程度来确定,不是非此即彼,从业务角度进行分级,然后根据不同级别进行不同的方案设计。
5、不管是集中式还是分布式,都应以满足业务对于可靠性和性能的要求角度出发,在此基础上综合成本和维护难度来决定选型。

回复7:宁泽阳 系统工程师 , 某科技公司
核心数据库存储使用分布式存储还是集中式存储建议参考数据库架构,数据库如果使用传统db2,oracle这些,那么建议继续使用传统集中式存储;如果核心数据库使用tdsql等这种分布式数据库,其一般是使用服务器本地盘,数据库已具备对本地盘的冗余管理能力,请参考。

回复8:赵海 技术经理 , 大连
首先,核心系统存储用什么样的存储架构取决于核心系统本身的状况,比如说结构化及非结构化数据的平台是什么类型的?如果是Oracle的数据库,那么选择分布式存储又有多大意义呢?反而因为数据读写的特点不匹配反而影响性能及安全性。如果我们的核心系统从应用层到数据库层完全革新到了微服务及分布式DB的架构,那么我们选择集中式存储就显得不合时宜了。
所以,存储底层选择什么样的存储架构及具体类型是需要结合上层平台来考虑的,孤立来讲不太专业。

回复9:huijx 系统架构师 , 某保险集团公司
传统的集中统一存储经过这么多年的竞争和发展,IO性能、稳定性、安全性方面是值得信赖的,但是采购和运维的成本太高是一个让企业不得不考虑的因素。
分布式存储这几年也取得了很大的发展,功能性能也不断增加提升,综合成本也相对较低。但要取代传统的集中统一存储,是必须经过市场长时间考验的,需要更多的案例来给市场提信心。

回复10:gk711 云平台架构师 , 某证券企业
如果是核心数据库的数据服务这种稳态的业务场景,个人建议还是以全闪集中统一存储为主。全闪的集中统一存储的读写性能和热备策略机制是分布式存储无法满足的。

分布式存储更适合敏态的云存储资源池以及海量文件的读写、对象存储的使用。分布式存储一般采用副本的方式实现数据的高可用,当出现节点宕机、磁盘坏盘、坏道以及扩容节点时都会涉及数据的重平衡, 对实时业务还是有影响的。集中式存储在出现坏盘坏道时,由于热备策略及算法,对业务的性能影响可以忽略不计。

回复11:cpc1989 存储工程师 , 某保险公司
个人观点,数据库存储选型首先考虑的是存储对数据库本身的支持能力,比如集中式存储的优势是写延迟低,与传统集中式数据库架构比较契合,分布式存储的优势在于扩展性高,IO吞吐高,比较好的支撑分布式数据库架构;除了考虑这两类场景之外,存储的选型还要从技术储备,性价比以及后续规划等方面综合来考虑。对于目前保险行业来说,传统核心数据库还是IOE架构为主,有其不和替代之处;而互联网保险的核心,则会更偏向于使用分布式来支撑业务发展。

9、针对DB选择存储时性能指标特别是时延指标需要被重点考察,对此如何深入考虑和设计?

回复1:chengliangliang 系统架构师 , 某大型保险
个人认为存储的时延是和上层业务的IO量有关系,如果上传的IO量超过了存储的性能瓶颈,这时就回产生存储时延。如果不能更换更高性能的存储,就要考虑优化上层业务的逻辑,比如上层是数据库,如果SQL是全表扫描且没有索引,且数据量很大这样对存储就回产生很大的 压力。所以在进行设计时需求全盘考虑,只对一个点的优化意义不太大。

回复2:yfwang SE , 戴尔科技金融行业解决方案中心
1、延时主要包括服务时间和等候时间,服务时间一般和存储自身的处理能力有关,而等候时间一般和处理能力和协议有关
2、比如NVMe协议就要比传统的AHCI协议具有更大的队列宽度和深度,可以提高处理的并行度,同时与总线交互的通路大大缩短,从而可以大大减少等候时间。
3、而服务时间,即存储处理I/O的时间,一般和存储的计算资源和架构有关,比如CPU是否可以在不同的I/O之间共享,I/O是不是可以分散在更多的处理器上处理等,如果需要和后端磁盘交互,磁盘的性能也是重要影响因素之一
4、所以,如果特别关注响应时间,建议关注存储是否采用了最新的NVMe(前端协议和后端协议)+SCM(介质)技术,同时关注控制器的联合工作方式是否为真正的并行处理。

10、核心系统多地多活架构中怎么去实现数据强一致同步?

1、近一段时间内分布式存储是否可以支撑核心数据库?
2、核心系统多地多活架构中怎么去实现数据强一致同步?

回复1:yfwang SE , 戴尔科技金融行业解决方案中心
1、分布式存储一般可以实现数据的最终一致性,这个能不能满足业务的需求,更多的需要根据业务的要求来判断
2、集中存储可以实现两点双活,多地多活的情况下还要实现数据的强一致性,一般而言性能的牺牲比较大,在两点双活的强一致性方案中,对于延时的影响基本可以接受,而且有很多成功案例。

回复2:chengliangliang 系统架构师 , 某大型保险
个人认为可以保证核心数据最终一致性,要保证所有数据实时同步。由于物理上的限制,所有数据都实时同步,我觉得目前是一个无法达到的目标。必须要尽量减少数据同步,只同步核心业务相关的数据。

回复3:陈炼 存储工程师 , 某科技有限公司
回答2点:核心系统多活架构中每个厂家实现数据一致性技术是有所差异的,大概都是牺牲部分延时,确保多数据中心的数据落盘后再返回给主机写完成;

11、数据库存储未来分层的设计,有没有可能在混合云环境自由迁移或者自动迁移?

回复1:qixiaoding 戴尔科技金融行业解决方案中心
先判断一下对大部分保险公司来说分层的必要性,现有全闪存储的IO能力和容量都以及很大了,是否有必要引入额外的一层,增加维护的工作量。
存储分层在混合存储时代,对数据库是透明的,分层的操作由存储完成,数据库无感知。
现在主流的存储技术是全闪存储,NVMe和SCM为主的年代,分层应该考虑的是对应用侧如何实现性能的承诺,比如Dell EMC存储中的服务级别概念,对简化管理的帮助非常大,用户可以轻松的实现对应用性能的保证。

技术上讲,在混合云环境自由迁移或者自动迁移是有可能的。具体实现上,要看您愿意为此付出多大的代价。比如对应用、维护、性能、兼容性、网络、人员等多种方面的付出。

简化管理、稳定运行,等技术成熟了,一切皆有可能。

回复2:chengliangliang 系统架构师 , 某大型保险
个人认为技术上是可以实现的,但是数据库的自由迁移或者自动迁移这个会来带安全性、可靠性、及在迁移过程中对性能也会产生影响。

回复3:陈炼 存储工程师 , 某科技有限公司
1、个人认为是有可能实现的,目前多厂家存储均支持数据由存储备份上云,基于存储现有的分层技术大概率是可以实现与云联动,进行冷热数据存储与云之间自动迁移;
2、需着重考虑的还是性能、安全性,及市场业务需求是否需要;

回复4:yfwang SE , 戴尔科技金融行业解决方案中心
目前 dellemc 的 powermax cloud mobility solution 支持在在存储和混合云环境中自由迁移数据,目前支持 AWS 和 Azure等 环境, 不过出于性能的考虑,核心数据一般还是建议在存储内部做分层,主要是在 SCM 和 SSD 上分层,对于非核心数据,可以考虑放到云上,一般更多的是做归档目的。

12、核心系统升级改造过程中,其容量如何规划?

容量规划涉及到网络,存储,数据库,应用等等多个技术组件,涉及各种性能指标,应该如何统筹容量规划以应对业务需求的变化?

回复1:chengliangliang 系统架构师 , 某大型保险
将存储资源池分为高性能、中等性能以及容量三种资源池,通过存储自动分层技术,实时对应用系统的I/0进行监控和分析,针对突发性I/O压力高峰,快速将“热”数据迁移至闪存介质(SSD,访问频率低的“冷”数据将被分配到低速存储介质中,以提高对瞬间I/O高峰的读写响应速度,整个过程对于应用程序透明和动态迁移的,可最大化的利用存储池中有限的闪存资源,为整个存储层加速。

回复2:yfwang SE , 戴尔科技金融行业解决方案中心
1、 在全闪存时代,数据缩减服务将会成为标配,压缩和消重技术的应用使得容量规划更加灵活
2、 一般可根据目前容量和未来每年预估容量的增长量来计算未来几年的容量需求,使用相应的数据缩减比例来计算实际需要配置的容量
3、 智能存储会根据容量的实际使用的情况来决定压缩率,从而使得实际容量使用率一直维持在一个相对合理的范围。
4、 通过压缩消重服务,可以提高容量规划的灵活性,不需要进行频繁的扩容,同时降低 TCO
5、 当然,对于核心生产系统而言,开启压缩消重服务后对 I/O 的性能不能产生影响,这个是前提。

13、去Oracle, 如何在规划存储的扩展和满足性能之间进行平衡?

对于传统型保险的企业,大部分使用了Oracle,而且是集中使用存储过程来处理业务逻辑,数据库的瓶颈也正是在此,架构升级成分布式或者去O的话,如何规划新的存储,在硬件扩展和性能间达到平衡,并保持动态扩展,单纯讲分布式的性能,长期看成本还是会上去,这也成为业界的痛点。所以传统集中存储和分布式存储需要达到一个平衡点才好,另外就是分布式后,运维的复杂度如何,这块也是衡量的一个关键。

回复1:chengliangliang 系统架构师 , 某大型保险
个人认为这个平衡还是要和业务量有关系的,存储在支撑相应的数据空间,IO带宽的同时,在业务发展时会遇到性能瓶颈,这就需要有更高性能的存储来支持,同时对于上层使用的业务系统,如数据库需要进行优化,比如SQL语句,索引、数据库的 buffer等进行调优来满足业务带来的性能瓶颈。

回复2:陈炼 存储工程师 , 某科技有限公司
1、如何规划存储,主要还是取决于业务模型,根据你现网业务模式去选择合适的存储设备,可以集中式存储,也可以是分布式存储;
2、如您所述“单纯讲分布式”还是有很大局限性,至于平衡点这个很难定性,如1描述,还是要看业务模型,存储是配角;
3、关于运维这块,不论是分布式还是集中,现在各大厂家都在践行自动化、智能化运维方式;当然若是使用开源类似于ceph,运维维度就会比较大一点;

回复3:wdmfyx003 工程师 , 戴尔科技金融行业解决方案中心
性能是一个很重要的方面,也是首先需要考虑的问题。除了性能之外,还应该考虑高可用性、数据保护、运维管理成本等方面。

14、核心系统数据库层和存储层的容灾双活如何统筹规划?

回复1:chengliangliang 系统架构师 , 某大型保险
存储层的双活一般基于存储网关虚礼化,如EMC Vplex、IBM SVC设备。在传统存储上面增加了一个虚拟化网关,在每个机房里面,新增存储虚拟化网关设备组成跨站点集群,并对存储卷进行重新封装,对外提供主机访问。

回复2:yfwang SE , 戴尔科技金融行业解决方案中心
1、数据双活是应用双活的基础,数据双活通过存储和数据库的方案都可以实现。
2、一般而言如果是环境比较单一,比如只有数据库;或者服务器规模、数据库节点规模都不是很多的环境中,使用 ASM 实现数据层面的双活也是一种选择,但如果规模很大,而且环境比较复杂,比如既有 oracle ,又有 DB2 ,还有 vmware ,这种适合使用存储层面的双活方案。
3、存储来实现双活还是有一些优势,比如实施和维护相对简单,不占用主机资源,搭建好以后可同时支持多种应用类型的双活,同时减轻 DBA 的工作量,从主机卸载相关负载到存储等,还是有一定的意义。
4、Oracle 的 extend rac 可以构建在存储双活的方案之上,即数据库集群和心跳采用 oracle rac 机制,数据的同步使用存储级别的双活方案,方案的主要难点来自于 rac 节点分离后对性能的影响,对存储而言,其实没什么难度。

15、针对OLTP/DW等不同类型的DB,存储选择和POC重点参考哪些指标?

针对OLTP/DW等不同类型的DB,存储选择和POC重点参考哪些指标?

回复1:chengliangliang 系统架构师 , 某大型保险
OLTP 是传统的关系型数据库的主要应用,主要是基本、日常的事务处理,如证券交易、银行交易等 ,对于存储指标个人认为有几点:、
1.平均响应时间
2.峰值响应时间
3.存储单控制器的带宽,
4.存储最大支持的IOPS
5.控制器的CPU利用率

回复2:yfwang SE , 戴尔科技金融行业解决方案中心
1、 OLTP 更多侧重 IOPS 和响应时间的能力,可以把 IOPS 和 RT 作为主要考核指标
2、 分析型业务更侧重于存储的吞吐量能力,可以将 throughput 当做主要考察指标
3、 对于一个设计先进的系统,基本可以统筹考虑两方面的负载特征,对系统做充分优化,可以很好应对不同负载,不需要特别的考虑。
4、 不管那类负载,如果做性能 POC ,建议采用实际应用数据进行比较有参考意义,用 I/O 测试工具得出的结论和实际使用情况出入比较大,参考意义不大,因为存储的性能表现和 I/O 特征关联很大,尽量贴近实际业务的 I/O 特征。

16、新的核心系统存储架构和原来系统相比,应该重点注意从哪些维度进行考量规划?

保险核心业务系统的应用逐渐走向分布式是趋势,在这种情况下,新的核心系统存储架构和原来系统相比,应该重点注意从哪些维度进行考量规划?

回复1:yfwang SE , 戴尔科技金融行业解决方案中心
1、 是否是面向未来的技术,随着应用端的变革加快,对于存储的性能和容量的扩展性有比较大的提升,所以存储选型需要考虑存储架构是否使用了面向未来的一些新技术,比如 NVME , SCM ,数据缩减
2、 可靠性和稳定性是否经过验证,作为存储企业做核心数据资产的设备,存储的可靠性是第一位的,可靠性又来自于硬件架构设计和微码的成熟度,不像其他性能指标可以测试,可靠性主要验证方式还是只能通过现有用户的使用情况和规模来判断,因为硬件基本都是全冗余设计,所以绝大多数的重大存储故障基本都是微码不成熟造成的。
3、 对于性能的考量,更多从实际需求出发,因为现代存储都是基于全闪的,所以绝对性能基本都可以应对,更多应该关注的是性能的一致性,即在开了数据服务、开了压缩消重、突然了有业务高峰等情况下,性能是否依然能达到稳定的高水平。

回复2:chengliangliang 系统架构师 , 某大型保险
个人感觉在设计存储基础架构时,强调方案的整体性和存储、 SAN 网络的有机结合,同时考虑存储的高可用性、高可靠性、可管理性、安全性和可扩展性等诸多方面的因素,以满足企业未来业务发展的需求。

17、在存储、数据库新的发展趋势下,存储区域的建设应遵循的原则、网络匹配选型,业务系统如何选择适合的存储?

探讨问题的描述:在核心系统升级改造数据库层存储架构集中式存储、分布式存储共存,商用、开源数据库共存的大趋势,集中式、分布式区域的建设原则,网络层面、硬件层面应如何匹配进行相关规划及造型;不同的核心业务系统对业务连续性、高可用性、异地容灾的要求,应如何选择数据库所在存储区域

回复:chengliangliang 系统架构师 , 某大型保险
根据存储区域的建设,个人感觉有以下几点需要遵循。

  1. 可管理性:具有良好的可管理性,使管理人员能方便及时地掌握软硬件系统的工作状态、故障状况、性能统计等信息,能简便地对系统进行在线配置、调整,确保系统状态良好。
  2. 安全性:系统的设计必须贯彻安全性原则,防止来自网络内部和外部的各种破坏,达到防窃听、防窃取、防攻击、防侵入,具备对入侵者监视和跟踪技术的目的。
  3. 开放性:系统设计及设备选型遵从国际、国家标准,使系统具有开放性和兼容性,应用系统基于主流的操作系统、数据库系统和中间件平台。
  4. 可靠性:系统的设计必须贯彻可靠性原则,使系统具有很高的可用性,系统的关键组成部分要求可以采用多种冗余容错技术,确保系统没有单点故障。
  5. 可扩展性:系统设计在充分考虑当前情况的同时,支持系统规模的扩大和业务的扩展,应能够满足 3 年内的规划需要

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

1

添加新评论0 条评论

Ctrl+Enter 发表

作者其他文章

相关文章

相关问题

相关资料

X社区推广