
使用亚马逊云科技集中管理多云环境
关键字: [Amazon Web Services re:Invent 2024, 亚马逊云科技, Amazon Systems Manager, Multi-Cloud Environments, Centralized Operations, Observability Data, Cloud Providers, Managed Services]
导读
在多云环境中运营可能会带来操作复杂性。在本次会议中,学习如何使用Amazon Systems Manager简化操作,该系统旨在实现跨所有环境的更轻松实例管理。此外,通过Amazon CloudWatch和Amazon Managed Grafana获得性能洞察,它们提供了几乎来自任何数据源的指标和日志的统一仪表板。借助这些服务,无论您的工作负载跨越亚马逊云科技、本地还是多个云,您都可以简化日常任务、保持控制并优化资源。集中管理多云环境,让您能够专注于真正重要的事情——经营您的业务。
演讲精华
以下是小编为您整理的本次演讲的精华。
演讲者首先阐明了多云环境的定义,即在多个云环境中运行重要工作负载。虽然有些人可能将软件即服务(SaaS)应用程序纳入多云范畴,但演讲者明确将讨论重点放在工作负载上。
为了说明多云运营的挑战和用例,他们引入了一家虚构的公司Octank。这家大型企业在多个业务领域运营,包括电子商务、零售和送货服务,后者涉及“后备箱装有箱子的踏板车,那些总是在单行道上倒车行驶的家伙”。采用虚构公司的目的是确保所呈现的用例能引起听众的共鸣,因为这些用例常见于亚马逊云科技的多云客户。
探讨的一个关键场景是Octank与另一家运营在不同云平台的实体Northwind合并。面对这种情况,Octank基于几个因素做出了战略决策,不将Northwind的工作负载迁移到亚马逊云科技。首先,Northwind有现有的客户协议和合同,要求继续在当前云平台上运行工作负载。其次,Northwind大量利用了云提供商的原生服务,重新架构和迁移过程将是不切实际的。最后,Northwind员工的专业知识和技能深深植根于当前的云环境,重新培训他们将是一项昂贵且耗时的工作。
演讲者承认,Octank面临的挑战并非独一无二,这一点从听众成员的认同点头中可见一斑,他们在各自的组织中也遇到过类似情况。选择运营多云环境是由于监管要求、预期的监管变化以及需要适应并购带来的不同技术环境。
Octank认识到,必须简化多云运营,以减轻在多样化环境中使用多种工具的额外成本和复杂性。这种分散不仅增加了运营开销,而且由于在不同运营团队及其各自工具集之间切换时存在滞后和上下文切换,还可能带来潜在的安全风险。
为了应对这些挑战,演讲者演示了如何使用Amazon Systems Manager和Amazon CloudWatch来实现跨多云环境(包括亚马逊云科技、Azure、Google Cloud和本地服务器)的集中管理、自动化和可观测性。这些演示旨在展示可供听众立即实施的实用解决方案。
利用Systems Manager,演讲者展示了如何获取跨多个云平台的所有托管实例的统一清单。他们演示了如何在包括Azure、Google Cloud Platform (GCP)和本地环境在内的16个节点的整个服务器群中一致地应用操作系统补丁。这种能力使Octank能够全面了解其整个基础设施,并确保无论底层云提供商如何,都能进行一致的安全补丁。
重点强调的一个关键功能是Session Manager,它可以远程访问服务器而无需直接暴露于公共互联网。演讲者指出,Octank运营的一些服务器可以直接从公共互联网访问,这是一个他们旨在解决的安全风险。Session Manager通过消除传统远程桌面或SSH连接的需求来增强安全态势,这些连接可能会被恶意行为者利用。相反,Session Manager利用与Systems Manager API的安全Web Socket连接,确保服务器和客户端机器永远不会建立直接连接。
自动化是整个演示的核心主题,演讲者展示了如何跨越多个云环境的实例执行常见的操作任务,如脚本执行。他们演示了一个工作流程,列出Systems Manager账户中的所有实例,循环遍历它们,识别它们的平台(Windows或Linux),并在每个实例上执行shell脚本以检查特定文件(barlog syslog)的存在。该自动化的结果存储在DynamoDB表中,提供了目标文件所在实例的集中视图。
也许最重要的是,演讲者演示了Systems Manager如何在无需远程桌面或SSH访问的情况下管理大规模实例。这一功能解决了Octank的一个主要问题——操作员直接访问服务器带来的潜在安全风险。通过利用Systems Manager,Octank可以实施集中控制和审计,确保所有操作都有记录和可追溯性。演讲者指出,Octank已永久关闭了数据中心,不想从事“房地产业务”,进一步强调了采用以云为中心的基础设施管理方式的必要性。
转向可观测性方面,演讲者利用Amazon CloudWatch从不同的数据源(包括Azure Monitor和Prometheus)摄取指标。他们展示了如何创建统一的仪表板,显示跨多云基础设施的运营指标,为监控和故障排查提供了单一窗口。
一个值得注意的演示涉及将指标从Azure订阅引入CloudWatch。演讲者强调,他们已将CloudWatch链接到Azure数据源,使他们能够直接在CloudWatch控制台中查询和可视化指标,如虚拟机CPU利用率。这种能力使Octank能够将来自多个云提供商的监控数据合并到一个集中平台。
此外,演讲者还演示了将Prometheus指标引入CloudWatch。他们展示了一个在Azure Kubernetes Service (AKS)中运行的Kubernetes集群,其中Prometheus被配置为直接将数据推送到Amazon Managed Prometheus端点。这些数据随后无缝集成到CloudWatch仪表板中,使Octank能够跨云边界监控其Kubernetes工作负载。
演讲者还强调了使用Amazon Managed Grafana向非技术团队公开跨云业务指标的能力。他们演示了一个Grafana仪表板,显示了客户服务代表在岗人数、电子邮件退回率以及Octank和Northwind的合并销售数据等指标。这一功能使Octank能够弥合技术运营和业务利益相关者之间的差距,促进对关键绩效指标的共同理解,并推动数据驱动的决策。
演示的一种创新技术是使用CloudWatch Logs以嵌入式指标格式发出自定义应用程序指标。演讲者展示了如何将正确格式化的数据发送到CloudWatch Logs,自动提取并转换为指标。他们提供了一个示例,其中指标值0正通过这种基于日志的格式添加到CloudWatch指标中。这种方法使Octank能够将业务工作负载数据与运营指标统一起来,实现了在孤立的数据源中难以实现的相关性和洞见。
为了证实他们解决方案的有效性,演讲者分享了真实的客户成功案例。他们强调,菲利普斯66公司通过利用亚马逊云科技可观测性服务(包括Amazon Managed Grafana和Amazon Managed Prometheus)实现了平均解决时间缩短30%的惊人成就。这种事件响应时间的改善凸显了跨多云环境集中监控和可观测性的切实好处。菲利普斯66公司在主要基于Kubernetes的环境中运营超过5,000台服务器,采用了这种方法。
另一个值得注意的客户案例是Rackspace,该公司成功使用Amazon Systems Manager管理了超过10万台服务器。这一惊人的数字不仅展示了解决方案的可扩展性,而且突出了其在大规模、多云部署中简化运营和降低复杂性的能力。
演讲者强调,他们所呈现的解决方案植根于亚马逊云科技客户的实际做法,确保听众在返回各自组织后即可实施这些技术。他们引用了令人印象深刻的统计数据,如CloudWatch每月处理11万亿次指标观测,Systems Manager每周管理3000万个并发实例,进一步凸显了这些服务的可扩展性和稳健性。
总而言之,在亚马逊云科技 re:Invent 2024大会上的这场会议,全面探讨了多云环境所面临的挑战,并将Amazon Systems Manager和Amazon CloudWatch作为强大的解决方案,用于集中操作、自动化和大规模监控这些复杂的基础设施。通过整合工具、减少运营开销、改善安全状况以及统一业务和运营指标,像虚构的Octank公司这样的组织,以及亚马逊云科技客户,都可以在成本节约、效率和整体运营卓越方面获得显著收益。
下面是一些演讲现场的精彩瞬间:
大型多元化企业Octank通过其用例解决了多云和监管挑战,包括管理在不同云上运行的已收购公司,并为预期的监管做好准备。
亚马逊云科技提供了一项互联网监控服务,将全球互联网问题与观察到的流量模式相结合,让您可以了解对工作负载的运营影响。
在reInvent2024演讲中演示了直接从Azure Monitor拉取指标数据的能力。
Amazon CloudWatch的嵌入式指标格式允许应用程序自动从结构化日志数据中创建指标,实现业务和运营指标的统一监控。
Grafana仪表板展示了基于统一数据的视图,包括跨业务线的指标,如当值客服人员、电子邮件退回率以及不同业务单位的合并销售额。
演讲者邀请观众提问,承认他们领先于预定时间,并鼓励与会者发言,因为没有移动麦克风。
总结
在这个引人入胜的叙事中,我们与虚构的企业Octank一同踏上了探索多云运营复杂性的旅程。随着首席技术官和业务领导者应对跨多个云环境管理工作负载的挑战,故事情节逐步展开,这些挑战源于并购、监管要求以及追求运营效率的需求。
通过Octank的经历,我们见证了亚马逊云科技如何赋能组织集中运营、简化流程,并获得对多云环境的统一视角。该叙事通过现场演示和真实案例,展示了亚马逊云科技服务(如Systems Manager、CloudWatch和Amazon Managed Grafana)在实现跨不同云环境的无缝资产管理、自动化补丁程序、安全远程访问和全面可观测性方面的强大功能。
随着故事情节的推进,我们了解到Octank实现的切实利益,例如减少上下文切换、工具集中化、安全态势改善,以及向业务利益相关方公开运营指标的能力。该叙事以号召行动作为结尾,鼓励与会者利用共享资源并寻求亚马逊云科技专家的指导,以优化其多云战略。
在整个引人入胜的叙事过程中,技术见解、实践演示和贴近实际的业务挑战交织在一起,为如何以亚马逊云科技作为值得信赖的合作伙伴来驾驭多云环境提供了全面的视角。
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。做为全球生成式AI前行者,亚马逊云科技正在携手广泛的客户和合作伙伴,缔造可见的商业价值 – 汇集全球40余款大模型,亚马逊云科技为10万家全球企业提供AI及机器学习服务,守护3/4中国企业出海。