MLOps与传统DevOps有何本质区别?
MLOps面临数据和模型的双重不确定性。代码版本控制之外,还需管理数据集版本、特征工程逻辑、超参数与随机种子。模型输出非确定性,需要额外追踪实验血缘,确保可复现性。此外,模型性能会随时间漂移,必须持续监控。

核心组件包括哪些?
自动化训练管道(特征存储、超参调优、模型注册)、部署策略(金丝雀发布、A/B测试)、监控模块(性能衰减、数据/概念漂移)、模型治理(审批流、版本回滚)。同时需要元数据追踪实验日志,实现全链路可审计。
如何设计持续监控与告警体系?
三环监控:实时环检测延迟与错误率;小时环计算PSI或KL散度,预警数据漂移;日环用新标注数据计算业务指标。分级告警(P0/P1/P2),P0触发自动回滚或人工介入。保留至少3个历史版本支持快速回滚。


