目的:通过详细记录和分析某大型三甲医院将医院信息系统(HIS)数据库服务器从 AIX(advanced interactive executive)小型机迁移至国产x86服务器的过程,为同类医疗机构提供可参考的实践经验。
方法:概述迁移项目的背景与动因,阐述迁移规划与执行过程。
结果: 迁移后系统性能显著提升,数据处理能力增强,运营成本降低,用户体验改善。结论 迁移项目取得了圆满成功,提升了HIS系统性能与效率,为国产化和国家信息技术应用创新(信创)转型提供了实践基础。
医院信息系统(hospital information system,HIS)作为现代医疗机构的核心支撑系统,其性能和可靠性直接影响医疗服务质量和运营效率。随着医疗需求的不断增长和信息技术的快速发展,传统 HIS 系统面临着前所未有的挑战[1]。本文所研究的西北地区某知名三甲医院,根据其门诊管理报表统计,2024年上半年日均门诊量约为17 000人次,较2023年同期增长了6%。面对日益增长的数据处理需求和国家信息技术应用创新(信创)政策的推动,该院决定将HIS系统数据库服务器从AIX(advanced interactive executive)小型机迁移至国产x86架构服务器,以提升系统性能、优化成本结构。本研究旨在通过详细记录和分析迁移过程,为同类医疗机构提供可参考的实践经验。
原HIS系统采用两台AIX小型机,运行Oracle 11.2.0.4版本数据库,采用RAC架构。每台小型机配置16核CPU和256 GB内存。通过为期30 d的系统监控,使用Oracle Enterprise Manager和自主开发的监控工具,发现存在以下问题。
1. 性能瓶颈
数据库大小约为14TB(来源于Oracle Enterprise Manager),全量备份平均时间为47.5 h(来源于Oracle Enterprise Manager),日常查询平均响应时间为2.3 s(来源于Oracle AWR报告分析)。
2. 扩展性受限
CPU使用率:工作日9:00—11:00平均为91%(topas监控工具记录)。内存使用率:峰值时段达到95.7%(topas监控工具记录)。
3. 高成本
年度维护费高达145万元(根据维保合同)。由于数据收集的限制,年度电费支出的具体数额暂无法提供准确统计。
HIS 系统现有8000台终端,高峰期数据库单节点会话数达4300个。根据医院终端增长计划及过去两年的增长趋势,预计数据库会话数将增长25%,数据量每年将增加约3TB。
为响应国家信创战略,医院决定逐步实现核心IT基础设施的国产化替代,提升信息安全水平和自主可控能力[2]。
1.性能提升,显著提高数据处理能力和系统响应速度。
2.扩展性增强,支持更多终端接入,满足未来3~5年的业务增长需求。
3.资源效益,降低硬件采购和日常维护成本。
4.国产化推进,选用国产硬件,为后续采用国产数据库奠定基础。
5.业务连续性,确保迁移过程中的数据安全,并将业务中断影响降至最低。
1. 硬件类型
经过深入评估,医院选择了3台浪潮TS860M5国产x86架构服务器作为新的数据库服务器,其主要硬件规格如下。
(1)处理器:8颗高性能CPU,型号为Intel(R)Xeon(R)Platinum 8260 CPU @ 2.40GHz,每个处理器24核,每核2线程,总核心数384。
(2)内存:1 024 GB。
(3)存储:高性能固态硬盘阵列。
虽然该服务器采用了英特尔处理器等国际组件,但作为浪潮公司推出的国产品牌服务器,其设计和制造过程均在中国完成,充分体现了国产厂商在高性能计算领域的技术积累和创新能力。这不仅展示了国内厂商在全球IT产业链中的竞争力,也为国产化替代提供了重要的基础。
值得注意的是,随着国产芯片技术和存储技术的不断进步,医院后期也计划逐步使用全国产服务器作为核心业务的服务器。这一转变不仅能够进一步推动 HIS 的国产化进程,也有助于减少对外部供应链的依赖,从而增强信息技术的自主可控性,提升系统的安全性和稳定性。
2. 测试评估
我们从以下方面对硬件平台进行了基础测试评估。
(1)测试环境。依托选定的硬件架构,搭建测试环境。操作系统:Red Hat Enterprise Linux(RHEL)7.9 x86_64,数据库:Oracle 11.2.0.4,集群软件:Oracle Grid Infrastructure 11 g R2(11.2.0.4)。
(2)数据库基础测试。创建与生产环境相近的测试数据库(约12 TB),执行基础的数据库操作,包括大表全表扫描、批量数据插入、复杂查询执行、数据库会话处理。测试结果见表1。
表1 目标平台数据库基础测试结果
测试项目 | 测试方法 | 结果 |
---|---|---|
数据加载速度 | 使用Oracle SQL*Loader批量加载1亿条记录 | 平均每小时加载2.1亿条记录 |
全表扫描性能 | 对1 000万行数据表执行全表扫描 | 完成时间为45 s |
多表关联查询 | 执行涉及5张大表的复杂查询 | 平均响应时间为3.2 s |
数据库Session测试 | 使用Oracle自带的开发测试工具 | 稳定支持2 000个数据库Session |
(3)系统资源监控。使用操作系统自带工具(top、vmstat、iostat)进行监控,使用Oracle AWR报告分析数据库性能。监控结果见表2。
表2 目标平台系统资源监控结果
资源类型 | 测试负载下平均使用情况 | 峰值使用情况 |
---|---|---|
CPU(%) | 42 | 68 |
内存(%) | 60 | 70 |
存储输入/输出等待时间(ms) | <1 | 5 |
网络带宽利用率(%) | 15 | 35 |
(4)评估结果。目标平台测试评估结果见表3。基于评估结果,我们认为目标硬件平台能够满足医院 HIS 系统的性能需求。此外,选择 x86 架构的主要考虑因素包括:
①标准化组件降低了采购和维护成本[3]。
②模块化设计便于未来升级。
③有丰富的软件支持和技术社区。
④现代x86处理器在数据库工作负载上表现优异。
⑤先进的电源管理技术提高了能效。
⑥符合国家信创政策的要求,确保了系统的自主可控性和安全性。
表3 目标平台测试评估结果
评估内容 | 结果 |
---|---|
基础性能评估 | (1)服务器配置完全满足当前数据库规模需求; (2)资源使用率处于合理区间,空间预留充足; (3)存储性能良好,输入/输出等待时间始终保持在可接受范围内 |
可靠性评估 | (1)在1周的持续测试中,系统运行稳定; (2)RAC集群配置正常,节点间通信正常; (3)存储系统性能稳定,未发现异常波动 |
潜在风险与建议 | (1)数据完整性风险:迁移过程中可能会出现数据丢失或损坏的情况。建议在迁移前进行完整的数据备份,并在迁移后进行数据一致性校验。 (2)系统兼容性风险:AIX小机和x86架构服务器可能存在软件兼容性问题。建议在正式迁移前进行全面的兼容性测试,确保所有关键应用和服务能在新环境中正常运行。 (3)性能差异风险:x86架构服务器的性能可能与AIX小机有所不同,可能导致迁移后系统性能下降。建议在正式迁移前进行1~2次完整的迁移演练,评估性能差异并进行必要的优化。 (4)迁移时间窗口风险:迁移过程需要停机,这可能会影响业务连续性。建议选择业务低峰期进行迁移,并提前通知相关用户和部门,制订详细的迁移计划和应急预案。 (5)持续监控与优化:建议实施后持续监控系统性能,及时优化配置,确保系统稳定运行。 (6)技术支持与培训:迁移后可能需要对运维人员进行新的技术培训,以确保他们能够熟练操作和维护新的系统环境。建议提前安排相关的培训和技术支持 |
通过选用 OGG(Oracle GoldenGate)作为迁移工具,能够以高效且安全的方式完成 HIS 系统数据库服务器的迁移任务,确保数据的实时同步与系统的持续稳定运行。选用 OGG 作为核心数据迁移工具,主要基于以下考虑。
1.高效数据同步:支持大规模数据的实时复制,确保在迁移过程中数据的持续一致性[4-5]。
2.跨平台兼容性:适用于从AIX到x86的异构环境迁移,确保在不同平台之间的平稳过渡[6-7]。
3.最小化停机时间:支持在线迁移,减少对医院正常业务运营的影响,确保业务连续性。
4.数据一致性保障:内置的冲突检测和解决机制,能够在迁移过程中实时监控和处理数据一致性问题。
1. 迁移时间安排
为最大程度减少对医院日常运营的影响,迁移将分为四个阶段。
(1)数据同步准备阶段:耗时约2周,涵盖系统检查和数据一致性比对。
(2)增量数据同步阶段:耗时约1周,确保实时捕获变更数据。
(3)业务切换阶段:利用医院业务低峰期(通常在夜间或周末),预计在5 h内完成系统切换。
(4)后续调试阶段:迁移后的1~2 d内密切监控系统性能,进行必要的性能优化。
2. 人员分工安排
项目实施过程中,将明确职责分工,确保各部门协调一致。
(1)项目经理:由医院信息部门负责人担任,负责整体项目的协调与进度跟踪,确保各方协同工作,保障迁移的顺利进行。
(2)数据库管理员:负责 Oracle 数据库的配置、迁移以及 OGG 工具的使用。
(3)系统管理员:负责 AIX 和 x86 服务器的硬件和操作系统的环境配置。
(4)网络管理员:确保网络连接的稳定性和数据传输的连续性。
(5)业务部门:由医院业务部门代表和HIS系统软件开发人员担任,确保业务需求在迁移中的及时反馈。
3. 数据同步准备阶段
包括:
(1)环境部署。迁移依托选定的硬件架构,部署流程如图1。在目标 x86 服务器上安装所需的操作系统,安装数据库软件及补丁,部署集群环境,安装迁移工具 OGG 软件,确保新环境配置与原环境相匹配。存储系统基于华为OceanStor v6全闪存储平台,确保读写性能和数据稳定性。
(2)初始数据同步。使用 OGG 的初始数据加载功能,进行全量数据同步。在此过程中,通过 RMAN 工具对源数据库进行全量备份,并将数据迁移至目标平台。在同步完成后,进行数据一致性校验,确保目标数据库与源数据库的完整性和一致性。
注:HIS为医院信息系统;CDP为临床数据平台;TCP为传输控制协议;IP为网际协议;ADG为主动数据保护
图1 医院信息系统(HIS)网络拓扑图
4. 增量数据同步阶段
在初始数据同步完成后,配置OGG进行增量数据同步,捕获在迁移期间的所有变更数据,确保目标数据库实时反映源数据库的最新状态。
设定OGG的延迟控制参数,确保数据同步延迟在5 s以内,最大程度减少因数据更新导致的业务中断。
5. 业务切换阶段
包括:(1)切换准备。在业务低峰期进行业务系统的停机,并确认所有数据已完成同步,暂停OGG的增量同步功能。(2)数据切换。更新业务系统中的数据库连接配置,使其指向新的目标RAC集群,保持数据库的SCAN IP和实例名不变,以避免客户端配置更改。(3)业务系统验证。切换完成后,立即进行关键业务系统的验证测试,由业务部门对登录、开立医嘱、书写病历、药房管理等核心功能进行检查,确保系统切换后正常运行。如验证过程中发现问题,可快速回退至原系统。
6. 后期调试阶段
包括:(1)在迁移结束后,使用数据库层面的校验工具(如Oracle Data Pump或第三方工具如Quest Toad for Oracle),确认数据的一致性,确保迁移后数据与源数据完全一致。(2)迁移后立即进行系统压力测试(如Real Application Testing)和性能监控(如Oracle Enterprise Manager),确保新环境下数据库系统的各项性能指标达到预期。(3)使用数据库层面的工具再次确认数据的一致性,包括表结构、索引、触发器等关键业务数据的完整性。(4)基于性能测试和用户反馈,调整数据库参数(如调整DB_CACHE_SIZE和SHARED_POOL_SIZE等参数,以提高缓存命中率和SQL执行效率),进行必要的系统优化,以确保长时间稳定运行。
7. 应急预案和回退策略
包括:(1)准备回退脚本,支持30 min内快速回退。(2)建立24 h专家支持团队,包括数据库、网络和应用专家。(3)设置关键检查点,每个检查点都有明确的评估标准。(4)每个关键检查点都将进行数据一致性检查,一旦发现异常问题,将快速恢复至原平台,并根据需求重新评估切换时间。(5)为防止迁移期间出现网络中断或同步失败,预设备用线路,保证业务不中断。(6)所有数据同步过程均设置本地和异地备份,确保系统即使在故障情况下也能恢复。
三、迁移执行过程
(一)实际执行时间线
本次迁移执行过程记录见表4。
表4 迁移执行过程记录表