一、背景

随着虚拟化技术的普及,云桌面部署模式逐渐被业内接受,许多金融机构已经建立了自己的云桌面系统并在不同场景中应用。

除数据不落地,集中运维、集中管理等优势逐步显现以外,云桌面规模的逐步扩大以及用户量的增加,对其后台运维压力也逐渐增加。

过去PC运维工作被分配给技术支持服务台来处理,但由于用户对云桌面故障的判别一般均会定位到云平台,故现有桌面故障会集中到桌面云项目组,给云桌面运维人员造成困扰。同时对于数据安全性和故障处理及时性也是导致云桌面大面积使用有一定的困难。

本文主要讲大规模云桌面使用运维经验分享,介绍其如何通过建立综合的云桌面运维管理方法,为员工提供了全终端、全场景的安全办公服务基础设施平台,从而满足员工在使用云桌面时安全高效的目的。

二、目标

云桌面运维的目标是多方面的,旨在确保云桌面系统的稳定可靠运行、提高业务效率、保障数据安全、降低IT成本。

第一、确保平台稳定可靠。云桌面运维的首要目标是通过有效的运维管理手段,降低平台故障率,提高系统的可靠性和稳定性。包括服务器、存储、网络等硬件设施的维护,以及计算、存储、网络资源的调配和虚拟桌面、应用服务器、管理控制服务器等软件系统的维护。

第二、提高业务效率。云桌面运维通过集中管理和优化云桌面资源,可以简化IT运维流程,提高业务处理效率。

第三、保障数据安全。在云桌面环境中,所有桌面及应用相关数据都集中存储在云端,因此需要对数据进行有效的备份和恢复,以防止数据丢失或损坏。同时,还需要加强数据访问控制,防止数据泄露和非法访问。

第四、降低硬件投入。云桌面运维通过优化资源配置和提高资源利用率,可以降低云桌面的硬件投入。通过动态调整云桌面资源池中的服务器、存储和网络资源,可以在满足不同用户需求的同时避免资源的浪费。

三、团队组成

云桌面运维团队是其高效、安全、稳定运行的核心要素。通过精准界定各岗位职责与分工,并优化人力资源配置,提升平台整体运营效率,确保在面对各类事件时能够迅速且有效地作出响应。

本文所述的团队组成,是通过云桌面实际的运维经验基础上总结而成供参考,具体团队还需要根据企业实际情况进行组建。

1、人员配置

考虑到运营的经济性同时借鉴行业经验,桌面云的运维应分为一、二、三线运维模式,团队构成应该采用自有人员结合专业运维外包公司的人员模式。

  • 其中一线运维人员应根据云桌面规模大小进行配备,经验值为每两千个云桌面有一人运维;
  • 二线运维人员应有系统、网络、安全人员,人数不限可设置专职岗位或可与其他技术团队组成虚拟团队;
  • 三线运维人员应是厂家与供应商提供服务企业应根据自身需要购买相应的维保服务。

2、岗位职责

  • 一线运维,桌面技术支持。人员建议采用专业运维外包人员,由于云桌面与传统桌面均提供桌面服务,应充分与技术服务台融合,主要负责平台监控与巡检、桌面发放、桌面故障预处理、故障判定等工作。
  • 二线运维,云桌面系统运维。由于企业云桌面大部分为私有化部署,二线运维人员建议由企业内部人员组成,应聚焦于平台组件方面的运维服务。主要负责平台故障处理,资源扩容,应急演练及各类变更以及与网络、安全、存储等工作团队的沟通等。
  • 三线运维,专业技术支撑。该运维团队应由厂家及服务供应商组成且能够提供7*24小时专业技术支持服务,确保平台在出现故障后能第一时间得到解决。

四、运维日常工作

1、桌面规划

桌面规划需紧密契合系统架构设计,一个周密的规划对于未来云桌面的集中管理效能提升至关重要。该规划核心涵盖:场景规划、命名规划及网络规划、存储规划、容灾规划。

(1)场景规划

建议依据人员属性与桌面属性进行分类,如员工内网桌面、员工互联网桌面、核心生产网桌面、外包开发桌面、外包互联网桌面及外部人员互联网桌面等。各场景桌面需实现逻辑上的严格隔离并针对各场景不同需求制定相应的安全管控策略,尤其是外部人员互联网桌面,建议实施物理隔离并单独划定安全管控区域,以增强安全性与可控性。

(2)命名规划

为便于后续管理,建议采用“数据中心-场景-部门-桌面属性”的命名规则进行标注。例如,“WGQYGITOA”即代表“外高桥数据中心员工技术部内网桌面”,这样的命名方式直观清晰,便于后期追踪与维护。

(3)网络规划

网络资源的分配应遵循场景需求,预先规划并预留网段。通常,可采用x.x.x.x/24的子网划分方式;若桌面使用量大,为满足扩展性需求,可考虑调整为x.x.x.x/22的子网划分,以确保网络资源的充足与高效利用。

通过上述优化,桌面发放规划将更加系统化、条理化,为云桌面的集中管理与高效运维奠定坚实基础。

(4)存储规划

在构建全面的存储规划时,关键在于确保云桌面环境能够有效地与企业级网盘服务进行无缝对接。

这一规划的核心在于,通过技术手段,在云桌面系统上直观展示网络盘符,使得员工能够轻松识别并访问这些外部存储资源。这一设计鼓励并规范了员工行为,促使他们将工作数据统一存储于共享存储平台之上。采用这种策略带来了多重优势。

  • 首先,从数据安全的视角来看,共享存储往往配备了更高级别的安全防护措施,包括数据加密、访问控制及定期备份等,从而显著提升了数据的安全等级。
  • 其次,在云桌面系统升级或遇到故障需要恢复时,由于数据独立于云桌面环境存储,管理员可以迅速部署新的云桌面实例,而无需担心数据迁移或丢失的问题,这极大地提高了业务连续性和响应速度。
  • 此外,集中存储数据还便于团队协作和知识共享,团队成员可以随时随地访问所需信息,促进了工作效率的提升。综上所述,这一存储规划不仅强化了数据保护,还确保了云桌面环境的灵活性和高可用性。

(5)容灾规划

在容灾规划方面,桌面云平台集中了原本分散于各实体机的风险,基于过往经验,容灾策略应着重考虑以下三点:

  • 第一,多站点布局。为确保云桌面平台的稳定运行,建议在企业数据中心的不同站点均部署云桌面系统。这种做法能有效抵御外部网络故障、组件失效或机房环境问题等不确定因素,保障云桌面的持续可用性。
  • 第二,对于高保障等级功能的集群应建设两个互为备份,在发放桌面时有意将同部门用户分别部署在两个集群内互不影响。这样的设计能够确保即使某个集群遭遇故障,也不会影响整个业务中断,从而保证其他集群的正常运行。
  • 第三,建立桌面级备份容灾。鉴于云平台作为成熟产品故障率较低且内置容灾机制,我们推荐采取针对性策略,即对关键桌面系统实施镜像备份,这一做法既基于前期存储规划中已融入的数据安全保障措施,能够满足大多数用户需求,同时目前市场上的云桌面产品均提供桌面备份功能,但考虑到经济性和实用性建议仅对重点桌面进行备份即可。

2、桌面管理

桌面管理发放云桌面的核心功能,主要涉及流程审核、桌面配置、资源回收等。好的桌面管理应在平台建立之初就做好相应规划,并能够按要求执行与优化,方便云桌面后期扩容与大规模运行。

(1)流程审核

桌面管理流程通常涵盖发放、变更与回收三大环节,旨在确保桌面资源的有效管理和高效利用。

首先在初期阶段,可采用人工审批方式以确保流程的灵活性和准确性,随着业务发展,逐步融合自动化技术,实现自助申请、变更及回收,以提升效率。

然而,鉴于各品牌云桌面接口的非标准化,这一整合过程可能伴随较大的开发工作量,需提前规划并做好技术准备。

其次制定流程时,应紧密结合部门实际需求,确保流程既符合业务逻辑又便于执行。

至关重要的是,流程中应包含业务部门与IT部门相关审核人员的共同审批环节,以确保决策的全面性和专业性,同时,不建议将桌面管理权限过度下放至业务部门,以维护管理的统一性和安全性。

再次回收流程应统计出超时不用的云桌面,并发往相关部门进行确认,在回收流程结束后,建议额外保留相关云桌面3个月,这一措施旨在为用户提供充足的时间窗口,以便在必要时导出重要数据,避免数据丢失带来的不便和损失。

(2)桌面配置

针对高中低三种配置方案,为确保资源的有效管理和后期资金摊派的合理性,不建议用户根据实际需求自行调整计算及存储资源。若用户在后续使用过程中需要增加资源,推荐采用物理PC机或外挂网盘的方式来满足需求。具体配置如下:

低配版:

  • 配备8核CPU、16GB内存 
  • 存储空间:C盘100GB、D盘100GB
  • 运行模式:精简模式
  • 成本摊销比例:1

中配版:

  • 提供16核CPU、32GB内存
  • 存储空间:C盘100GB、D盘100GB
  • 运行模式:精简模式
  • 成本摊销比例:2

高配版:

  • 提供32核CPU、64GB内存
  • 存储空间:C盘100GB、D盘100GB
  • 运行模式:精简模式
  • 成本摊销比例:4

在发放模式上,建议采用专用模式和完整复制模式,方便后期回收后可以重新关联此用户,方便该用户找回数据或继续使用此桌面。这样的配置和摊销比例设计旨在平衡性能、成本与灵活性,确保资源的有效利用和管理的便捷性。

(3)桌面回收

用户在使用完桌面后通常不会主动向IT部门提出申请回收,因此需建立回收机制。根据过往经验,每季度,各集群会统计出超过6个月未登录的虚拟机信息,并发送给相关部门进行回收确认。一旦确认回收,这些虚拟机将被保留3个月,以备数据恢复之需。

3、运维管理

(1)平台监控

云桌面的监控工作不仅要求内容全面、频率适当,还需要在关键时段进行额外的检查和准备,以应对可能出现的各种情况,确保系统的稳定运行和用户的良好体验。

首先,云桌面的监控内容需全面且细致,具体包括但不限于以下几个方面:云桌面的容量状况、虚拟资源的分配与实时使用状况、配置变更记录、各关键组件的运行状态以及安全事件的监测与响应。

其次,在监控频率上,为确保系统的稳定运行,建议至少每天进行四次全面检查,具体时间为:早上上班前、上午下班后、下午上班前以及下午下班后。这样的安排能够覆盖大部分的工作时段,及时发现并处理潜在问题。

此外,考虑到云桌面在早上上班时间的使用高峰,以及这一时段对系统稳定性和性能的高要求,我们应在每日上班前半小时进行额外的系统健康状态检查。这一检查应重点关注系统的负载情况、资源分配是否合理、以及是否存在可能影响用户使用的潜在问题。一旦发现异常,应立即报告给相关人员,并迅速启动应急处理方案,以确保系统的快速恢复和用户的正常使用。

(2)安全管控

云桌面的安全策略制定、访问控制以及数据安全等方面都需要进行全面而细致的规划和实施。通过统一的安全策略、精细化的访问控制机制以及完善的数据安全技术手段,我们可以确保云桌面的安全性与企业的整体安全策略保持一致,为企业的信息安全提供有力保障。

首先,在制定云桌面的安全策略时,必须确保其与整个企业桌面终端系统的安全策略保持高度一致,这是构建全面安全防御体系的基础。通过统一的安全策略,可以有效降低管理复杂度,并确保云桌面环境的安全性与其他桌面终端环境相匹配,共同维护企业的信息安全。

其次,在访问控制方面,需要建立精细化的身份认证和访问权限管理机制。这一机制应能够识别并验证不同用户的身份,根据用户的角色和职责分配相应的访问权限。通过严格的访问控制,可以确保只有经过授权的人员才能访问云桌面,从而有效防止未经授权的访问和操作,降低安全风险。

此外,针对数据安全这一关键环节,我们应建立一套完善的数据共享及管控机制。云桌面应与存储设备紧密联动,通过智能的数据存储和备份策略,一方面可以减少云桌面平台的存储消耗,提高资源利用效率;另一方面,也可以增强数据的安全性,确保数据在传输和存储过程中不被泄露或篡改。

在具体的数据安全技术手段上,我们可以根据不同场景的需求,灵活应用多种技术手段。例如,在U盘导出数据时,可以采用加密技术或设置访问权限,确保数据在传输过程中不被非法获取。同时,可以在云桌面的屏幕上添加防泄露水印,以标识数据的来源和重要性,提高数据泄露的追踪能力。此外,还可以采用数据流向监控等技术手段,实时跟踪数据的流向和使用情况,及时发现并处理潜在的安全风险。

(3)故障处理

鉴于云桌面故障处理流程与常规系统故障处理存在诸多共通之处,本文不再赘述其具体细节,而是聚焦于前期系统搭建阶段对故障预防与应对策略的深入探讨。在云桌面平台的构建过程中,科学合理的故障域划分及冗余设计是确保服务连续性的关键。

首先,故障域的划分至关重要。为了有效控制故障影响范围,建议将集群按16至24个节点为一个集群进行搭建。这样的分组策略旨在确保当底层故障发生时,能够局部隔离问题,避免故障蔓延至整个系统,从而保障大部分服务的正常运行。

其次,构建存算分离的基础架构是提升系统韧性的另一项重要措施。在此架构下,桌面应用与数据存储实现物理分离。一旦某个桌面发生故障,用户可迅速切换至备用桌面,并通过连接共享存储继续工作,从而大幅减少故障对用户业务连续性的影响。

再者,针对云平台中的统一组件,应采取有效的隔离措施,确保这些组件与云平台本身的运行相互独立。这一策略旨在防止底层硬件故障引发连锁反应,波及周边组件,进而导致云平台大面积瘫痪。通过组件级别的故障隔离,可以进一步提升系统的稳定性和可靠性。

此外,与设备供应商建立紧密的合作关系,并购买高等级的维保服务,对于快速响应故障同样至关重要。在故障发生时,供应商的专业技术支持团队能够迅速介入,提供有效的解决方案,从而缩短故障恢复时间,最大限度地减少业务中断带来的损失。

(4)系统更新

针对云桌面平台的重大变更,推荐采用“空瓶换酒”策略,即在不中断服务的前提下平稳过渡。鉴于云桌面规模逐年增长,建议以16至24个节点为单位构建集群,并确保集群平台始终保持最新版本。

此外,应规划每3-5年对集群进行一次全面重构,期间需将员工虚拟机平稳迁移至新建集群,并引导员工切换到新云桌面环境。这种做法既能确保升级过程不影响虚拟机运行安全,又能有效清理旧桌面遗留的类似于各类系统日志、互联网缓存等无用数据,降低存储负担,同时提升用户的工作体验。为确保数据安全,建议将数据集中存储在共享存储中,或提供简便的数据迁移工具,帮助员工将个人数据迁移至新桌面。

4、用户使用

(1)用户培训

为了全面提升云桌面的用户体验和运维效率,IT部门需采取一系列综合措施。首先,应编制一份简洁的操作指南,涵盖登录流程、密码管理、技术支持联系方式及常见问题解答,以便用户快速上手并自助解决常见问题。

其次,与技术服务台紧密协作,建立快速响应机制,提供高效的技术支持服务,并通过定期技术培训提升技术服务台团队有关云桌面排障的专业技能。同时,加强对用户使用自助排障工具的培训,提升用户的自助排障能力。

这些综合措施的实施,将有助于确保用户在享受云桌面带来的便捷与高效的同时,也能在遇到问题时迅速获得帮助,从而提升整体的用户满意度和运维效率

(2)使用规定

为了确保云桌面的高效、安全使用,用户应当结合企业既有的桌面使用规定,可借鉴本企业的终端管理规范制定一套适用于云桌面的使用规定。为了增强规定的可见性和提醒效果,可以将简要的核心使用规定以桌面壁纸的形式直观展示在云桌面的背景上。

这套使用规定不仅应涵盖通用的桌面使用规范,如保持桌面整洁、定期备份重要数据等,还应特别针对云桌面的特性添加相关规定,例如明确禁止用户随意更改IP地址,以防止网络配置混乱等;通过这些细致且具有针对性的规定,可以有效指导用户规范使用云桌面,维护云桌面的稳定运行。

(3)登录模式

用户登录云桌面的方式多样,主要包括瘦终端登录、PC终端登录以及移动设备登录三种。

其中,瘦终端登录因其高度的安全性和稳定性,在涉及核心生产云桌面等关键场景中应作为首选,严格限制其他登录方式以确保信息资产的安全。

PC终端登录则是员工日常办公中最常用的方式,为兼顾便利性和安全性,IT部门需为其设置严格的隔离策略,包括网络访问控制、数据访问权限管理等,以防止潜在的安全风险。

而移动设备登录,尽管提供了极大的灵活性,但出于对数据安全和隐私保护的考虑,一般不建议作为常规登录方式,除非在特定场景下确实存在必要,且需实施额外的安全管控措施,如复杂密码策略、设备锁定及定期安全更新等,以确保云桌面的安全使用。

五、总结及建议

经过往云桌面运营经验总结及用户使用习惯调研,云桌面的未来发展趋向于软件化与功能化两大方向。软件化趋势体现在随着无线网络技术的广泛普及,移动办公需求日益凸显。越来越多的员工倾向于在笔记本电脑上安装云桌面客户端,以此登录云桌面,而非传统的瘦终端接入。

这种接入方式打破了办公场地的限制,只要处于公司无线信号覆盖范围内,员工即可随时通过云桌面客户端软件接入公司内网,进行查询、测试、演示等工作,从而显著提升工作效率。功能化趋势则源于员工对云桌面使用需求的日益多样化与特定化。

年轻一代员工更倾向于使用轻便的笔记本或平板电脑进行日常办公,而公司提供的笔记本电脑往往仅能满足基本办公需求,难以应对数据查询、软件开发、系统测试等特定工作场景。因此,我们发现越来越多的员工开始申请功能明确的云桌面,以满足多样化的办公需求。因此,针对云桌面的两大趋势,企业应结合自身特点,制定相应的运维管理规范。这将有助于充分发挥云桌面的功效,提升工作效率,同时确保信息安全与合规性。

  • 无标签

0 评论

你还没有登录。你所做的任何更改会将作者标记为匿名用户。 如果你已经拥有帐户,请登录