企业云如何进行成本优化?
近年来低碳发展已成为国家重要战略,2022年党的二十大报告中再次强调了碳达峰、碳中和的重要性,云计算作为促进能源效率提升和能源结构优化的关键技术,可以帮助企业实现“减排不减产,增收不增耗”的可持续发展,在企业双碳节能工作中起到重大作用,正加速成为各行业企业数字化与低碳发展的新引擎。
然而,随着企业上云广度、深度持续拓展,云计算的成本投入与用云复杂程度也不断增加,成本过高、效益不及预期等问题开始显现,降本增效成为企业关注重点,企业工作中心逐渐从如何迁移上云转变为如何优化用云。
云计算使企业IT消费模型产生巨大变革,原有的成本管控模式不再适用于云计算环境,各类业务陆续上云导致成本管理难度不断提高,云资源浪费情况越发严重 。企业如何应对日益复杂的云环境,提升自身成本优化能力成为关键课题。
近年来,越来越多企业采用云计算来代替传统IT基础设备,以降低成本、提高生产效率、运维效率和能源效率。尽管企业上云的采用率不断攀升,但高采用率并未对应高成功率。
云计算使用成本和复杂程度均超出企业的预期。企业上云用云成本过高、价值释放不足、管控难度大等问题日益显现,《中国云使用优化报告》数据显示,企业上云后成本不可控制是企业用云面临的最大挑战,且九成以上用云企业面临成本浪费问题,过高的成本导致云资源投入与产出收益不匹配。麦肯锡调查数据显示,74%的企业云转型未能获取预期价值,受访者认为,云技术比他们最初预期的更复杂,40%的受访者认为云资源成本超出了企业的预算,云转型所带来的实际价值与预期价值仍存在较大差距。
Flexera 发布的《2023 年云状态调查报告》显示,企业在上云用云成本的管理取代了安全性话题,成为当下云使用者面临的首要问题。调查数据显示,上云用云企业仍然面临约30%的成本浪费,82% 的受访者认为管理云计算支出是他们面临的首要挑战,其中有 71% 的重度云用户将优先考虑优化云的现有使用情况以节省云成本。近年来,随着产业界对云计算的理解不断深入,企业也逐渐意识到实施成本优化,更应关注云资源为业务带来的效益,而非单纯的成本节省。
企业成本优化也随之进入新阶段,即在成本可控的前提下,全方面提升云资源使用效益。云资源效益是衡量企业上云用云成效的关键因素,可以理解为企业使用各种云资源为业务发展所带来的贡献度,即云计算投入与收益比。云资源的使用与运营关乎着云平台整体效能水平、云业务敏捷性、创新性和安全性等。促进云资源为业务提供更加优质的支持,提升云资源效益是企业云计算价值释放的重要标志。
云计算重塑企业 IT 消费模型,云成本与传统 IT 固定成本不同,云计算成本类型由固定成本CapEX重塑为CapEX+OpEX可变成本,云计算资源采购方式从集中式重塑为分布式,云计算采购决策从短期决策重塑为长期运营,云计算成本管理从前置评估重塑为后置监控,这些变化需要企业优化调整组织建设来应对云成本的管控。
一方面,企业需要建立云成本优化的文化制度与运营机制,另一方面,企业需要从人员组织、工具平台、流程制度等多方面建立可持续的云成本优化能力体系。
企业实施云成本优化不仅包括从技术层面的资源优化,还应包括云成本优化文化的建设,例如人员组织的适配,运营模式的转变,奖励机制的保障等。
云成本优化的文化建设应贯穿企业用云全周期,从企业上云历程看,大致可以划分为战略、采购、上云、用云、持续运营五个阶段,在每个阶段,企业需要关注不同的工作重点。
战略阶段,企业需要决策云部署和技术选型,选择不同的云计算模式和架构类型将影响成本构成和优化方式。采购阶段,企业需要选择适合业务特性的资源和付费方式,以避免成本浪费。上云阶段,企业需要明确云上成本治理责任模型,明确业务、开发、运维、架构、财务和采购等多角色义务与责任。用云阶段,企业需要对云资源进行全面监控管理,并采取针对性优化措施以处理闲置和低效率情况。持续运行阶段,定期复盘各环节成本优化工作,并汇总分析历史数据, 对各部门资源使用进行统一价值量化,按照优化成果给予明确的奖励措施,形成更有效的优化策略并应用于各环节中,实现持续的成本优化闭环。
能力企业需要从人员角色、工具平台、流程制度三方面建立可持续的云成本优化能力体系。
人员角色是云成本优化工作的关键抓手,成本优化需要企业业务、财务、技术等方面多个角色共同参与,打破原有各管一段、各自为战的传统IT管理方式,形成FinOps成本优化团队,各角色长期协同共同努力达到成本长期治理的目标。
工具平台是云成本优化工作的重要手段,成本优化是个复杂且耗时的工作,例如账单的拆分、计费的管理,仅靠人工是无法使成本优化工作效率提升至较高水平,需要将各项能力沉淀到工具中。企业可以通过自建或采购成本优化工具驱动自助降本。
流程机制是云成本优化工作的前提保障,面对云计算特殊的消费和运营模式,成本优化工作需要组织内部对应流程机制进行辅助,权限管控体系、资源申请流程、奖罚机制等优化流程机制能够确保闭环优化策略在企业内部精确、高效运转。
当前,企业对于自身云资源使用情况了解程度不深,相关人员的关注点通常在云资源的采购,对于上云后的如何用云、资源运营情况方面的关注程度较低,造成资源闲置、资源使用低效等现象。在此背景下,提升云资源效益尤为重要,企业可从云资源规划、云资源监控和调度三方面优化云资源使用,并通过云资源效益度量了解自身效益情况。
云规划阶段,企业需要对云资源容量进行合理评估及采购。
容量评估方面,企业可通过调研业务部门未来一段时间的业务规划,梳理并列出适合业务并留有一定冗余量的资源规格和用量。通常情况下,容量评估可以从常驻资源和弹性资源两个维度进行评估和规划。
企业云资源的申请普遍存在过度申请的情况,常驻资源和弹性资源结合可以有效减低冗余资源成本。常驻资源通常承载在线业务、常驻的作业等,这部分的容量规划通常需要根据实际业务场景的水位来预估。对于可靠性要求较高的场景,可以设置峰值水位为常驻容量。而将非预期内的激峰流量和临时任务,交给弹性资源进行补充和供给。
资源采购方面,根据业务特性选择合适的付费方式是成本优化最直接的方式,企业可以根据自身业务特性选择合理的资源付费模式,以达到节省成本的目的。云服务商资源实例通常包含以下三种:
(1)按需:随用随启,根据运行的实例以按小时或按秒的方式计算容量并付费。适用于短期突发性的业务资源需求,具备更高的灵活性。
(2)预留:有一定的使用承诺(如:1年,3年的使用承诺),与按需实例的定价相比,预留实例可提供大幅折扣(通常为按需实例的60%)。适用于长期使用并且较为稳定的业务资源需求,具备更高的稳定性。
(3)竞价:极端弹性和廉价的计算资源。它的价格根据供需关系变化,与其他实例的相比具有非常明显的价格优势(通常为按需实例的10%-20%),但存在资源被厂商回收无法使用的风险。适用于无状态且可容错的业务资源需求,具备更高的性价比。
此外,企业可以利用云端弹性的优势配置自动伸缩功能,以多种资源实例的组合来满足业务需求,维持业务稳定性的同时获取最佳的成本效益。
用云阶段,企业需要对云资源使用情况进行监控和分析,配置资源监控标准库,通过监控识别资源成本运行状态,以明确自身云资源使用现状,为资源优化提供数据支撑。
企业在上云之后,应该实时监控自身资源的使用状态,及时的发现、识别低效的云资源,进而进行相应的调整和优化,提升资源利用效率。建立完善的资源监控体系能够帮助企业对云资源进行全面监控,获取云平台在运行过程中的底层资源利用率数据,例如CPU使用率、内存使用率等指标。企业可以利用资源监控数据有效的识别低效资源,并将此类资源分离出来,通过一段时间的监控数据来评估是否可以对其进行优化。
低效资源通常包括闲置资源与低负载资源,闲置资源主要包括一直处于关机状态的资源或开机却并未使用的资源,低负载资源主要包括业务闲时使用率数据较低的资源。
在监控云平台整体资源使用情况的同时,企业应同步监控各组织、各业务场景下的资源使用情况,以便更好的规划和推动资源优化工作。在监控过程中,如果某业务出现长时间的配额闲置情况,管理员应当重新评估和规划业务的容量配额,适当减少该业务配额,并将资源优先分配给处于瓶颈的业务,提升云资源使用效率。
此外,企业还可以根据以往的监控数据进行分析和预测未来各业务资源容量的需求和变化,提前预警和规划业务资源分配,保障业务性能的同时避免云资源浪费。
企业在明确云资源使用情况后,需要对闲时资源与闲置资源进行优化治理。
对业务资源进行闲时缩容与降配,可以有效提升资源利用率。具有周期性规律的业务通常可以预测其未来的流量情况,可以根据未来流量预测定时自动扩缩容,从而大幅降低云上成本。具有周期性规律的业务主要优化策略包括:一是开发、测试类系统,可以使用按量付费资源在非工作时间自动启停;二是社交类业务系统,如微博、抖音等,峰值流量出现在中午1点和晚上10点左右,可以设置阈值自动调配资源;三是证券类业务系统,在工作时间内有稳定的访问需求,可以在晚间或者节假日适度降配;四是运行在企业内部的软件系统,如ERP、CRM等办公类系统,可以在节假日适量降低资源配额或配置。企业需要明确自身业务情况,对周期性业务进行合理评估和规划,避免在资源自动扩缩容的过程中出现业务稳定性问题。
对业务闲置资源进行技术关停,可以规避大量的云成本浪费。企业在云上的闲置资源关停通常有两种情况,一是过剩资源关停,即大部分资源的使用率或配额低于规划的范围且是合理使用,此时应降低预算配额,合理优化成本;二是遗留资源关停,即依赖关系不存在时的遗留资源,例如快照资源,依赖于其他资源生成数据,当其他资源不存在时,快照也无需存在,建议及时停止或删除这类资源。企业在关停闲置资源之前需对其中应用和数据进行迁出,避免关停后的应用故障和数据丢失。
当前,企业云成本优化能力体系建设还处于初级阶段,尚无大规模落地经验,企业缺少相关环节的标准规范引领,企业云成本优化能力体系建设相关的标准、成效评价体系成为新的关注方向。
在此背景下,中国信通院牵头制定并发布了《云成本优化服务能力》、《云成本优化工具能力要求》、《云资源效益度量模型》等全方位、多角度的标准和评估模型,并将持续研究企业云能力优化课题,完善企业在云成本、性能、安全、数据等方面的优化和治理标准体系,并面向央国企、行业云等场景展开深入研究,形成多维度完整的评估体系。
云成本优化能力建设标准规范和评价体系助力企业构建高质量、高效率的成本优化体系,标准涵盖对企业云成本优化领域能力建设、工具水平、服务质量的规范,同时还提出企业事后云资源效益情况度量的一套方法,为企业云成本优化前期规划、中期执行、后期复盘全流程提供专业指导。
能力建设方面,中国信息通信研究院研究发布了成本优化服务商、成本优化工具等多项标准。成本优化服务商标准考察服务方成本优化咨询能力、工具服务能力、实施能力、培训赋能能力四方面,对服务方成本优化流程和质量进行规范性要求。成本优化工具标准分别针对原生成本优化工具和混合多云成本优化工具提出了场景化的能力要求,为企业选择成本优化工具提供重要依据。成本优化能力成熟度标准考察企业自身成本优化能力是否完备,从技术、流程、组织维度评价企业成本优化能力成熟度,引导企业正确规划未来成本优化建设方案。
评价体系方面,中国信息通信研究院提出了企业云资源效益度量模型(Cloud CAPEX Efficiency Model ),依据《云资源效益度量模型》帮助企业分层次、分模块的评估衡量云计算使用成效,评估价值结果分为基础级、增强级、优秀级、卓越级和引领级五个级别,企业可选择IaaS模块、PaaS模块、业务应用模块等部分分别评估云计算价值成效,并颁发相应水平等级证书。《云资源效益度量模型》通过定因、定则、定权、定级四个步骤,对企业业务云资源效益进行专业度量。
云资源浪费普遍存在,云成本优化成为必然
企业用云效果不佳,云计算价值释放不足
资源效益备受关注,成本优化进入新阶段
云改变企业IT成本模型,组织建设是云成本优化的关键保障
转变云资产管理模式,关注文化建设实现长效运营
构建云成本治理能力,完善人员、工具和流程体系
云改变企业IT运行模式,资源提效是云成本优化的核心本质
适当降低资源冗余,配置弹性资源补给
配置资源监控标准,有效识别低效资源
闲时资源自动缩容,闲置资源合理关停
标准规范和评价体系让企业云能力建设“有规可依”
云成本优化能力建设标准规范和评价体系