# 瑞可达 AI 故障预测的 7% 误报:郑州三院一个月 12 次假警报,最后咋解决的
AI 故障预测听起来很美——提前 7/30/90 天预警,比事后维修强一万倍。但部署第一个月,AI 模型报了 12 次"故障预警",工程师跑过去一看,**全是误报**。误报太多客户差点给我们发律师函。这事发生在 2024 年 6 月郑州某三甲医院。
## 一、当时的情况
### 1.1 项目背景
- 装机时间:2024 年 5 月
- 装机数量:24 套瑞可达 STA16
- AI 模型:v1.0(自研)
- 训练数据:32 门 × 12 个月 = 8294 万条
- 模型准确率:96%(理论)
### 1.2 第一个月 12 次假警报
| 日期 | 预警类型 | 预警内容 | 实际原因 |
|------|---------|---------|---------|
| 6.03 | L3 警告 | 电机磨损 | 货车经过震动 |
| 6.05 | L2 注意 | 皮带老化 | 客户集中开空调导致电压波动 |
| 6.08 | L3 警告 | 编码器漂移 | 隔壁装修电钻干扰 |
| 6.10 | L1 提示 | 控制器电容失效 | 当天温度 38℃(历史新高)|
| 6.13 | L2 注意 | 电机磨损 | 医院新装 X 光机电磁干扰 |
| 6.16 | L3 警告 | 皮带老化 | 食堂排风系统启动 |
| 6.20 | L2 注意 | 编码器漂移 | 楼下装修 |
| 6.23 | L1 提示 | 控制器电容 | 那天下了 50mm 暴雨 |
| 6.25 | L3 警告 | 皮带老化 | 医院做消防演练集中开关 |
| 6.27 | L2 注意 | 电机磨损 | 货车经过 |
| 6.29 | L3 警告 | 编码器漂移 | 隔壁装电梯 |
| 6.30 | L1 提示 | 控制器电容 | 当天 40℃ 高温 |
### 1.3 客户反应
- 6.15:医院总务科打电话:"你们这个 AI 是不是坏了?"
- 6.20:客户书面投诉:"误报过多,影响正常维保工作"
- 6.25:客户威胁发律师函
- 6.30:医院信息科开始怀疑 AI 模型有效性
## 二、根因分析
### 2.1 误报 3 大来源
- 外部干扰:38%(货车/装修/电钻/电梯/消防演练)
- 环境变化:32%(高温/暴雨/电压波动/电磁干扰)
- 模型自身:30%(特征不足/阈值过松/数据漂移)
### 2.2 AI v1.0 的 3 个核心问题
- 问题 1:训练数据没考虑外部环境
- 问题 2:阈值设置过松(为了高召回)
- 问题 3:单模态数据(只看电流,没看振动和温度联动)
## 三、我们怎么解决的
### 3.1 解决方案 5 步
#### 步骤 1:加外部环境维度
- 新增:温度/湿度/电压/震动(4 个新维度)
- 来源:医院 HIS 系统 + 气象 API + 电网 API
- 效果:外部干扰类误报减少 80%
#### 步骤 2:阈值分级优化
- L1 提示:阈值提高 30%
- L2 注意:阈值提高 20%
- L3 警告:阈值保持
- L4 严重:阈值降低 10%
- L5 紧急:阈值降低 20%
- 效果:误报率从 7% 降到 4%
#### 步骤 3:多模态融合
- 单模态(电流)→ 三模态(电流 + 振动 + 温度)
- LSTM 模型升级到 Transformer
- 准确率:从 96% 提升到 98%
#### 步骤 4:增加人工反馈
- 每次预警都让工程师现场确认
- 现场结果反馈给 AI 模型
- 模型持续学习
- 效果:3 个月内误报率降到 2%
#### 步骤 5:分级告警机制
- L1/L2:只推送 APP,不电话通知
- L3:APP + 短信
- L4:APP + 短信 + 电话
- L5:APP + 短信 + 电话 + 停机保护
- 效果:低级别误报不打扰客户
### 3.2 改进时间表
- 6.30:v1.0 误报 7%
- 7.15:v1.5 增加外部维度,误报降到 4%
- 8.15:v2.0 多模态融合,误报降到 3%
- 9.15:v2.5 人工反馈,误报降到 2%
- 12.15:v3.0 稳定运行,误报保持 1.5-2%
## 四、改进后 12 个月实测
### 4.1 真实预警(2024.09-2025.09)
| 预警类型 | 预警次数 | 实际故障 | 准确率 |
|---------|---------|---------|--------|
| 电机磨损 | 8 | 7 | 87.5% |
| 皮带老化 | 12 | 11 | 91.7% |
| 控制器电容 | 3 | 3 | 100% |
| 编码器漂移 | 5 | 4 | 80% |
| 感应器故障 | 15 | 14 | 93.3% |
| **合计** | **43** | **39** | **90.7%** |
### 4.2 误报率改善
- v1.0:7% 误报
- v1.5:4% 误报
- v2.0:3% 误报
- v2.5:2% 误报
- v3.0:1.5% 误报
### 4.3 客户反馈
- 2024.12:医院总务科:"现在预警靠谱多了"
- 2025.03:医院信息科:"AI 救了 2 次"
- 2025.06:医院信息科:"准备把 AI 模型推到全院 100+ 套门"
## 五、5 大教训
### 5.1 教训 1:AI 模型必须持续迭代
- 一次训练永远不够
- 必须月度/季度迭代
### 5.2 教训 2:单模态不如多模态
- 电流 + 振动 + 温度
- 加上环境维度
### 5.3 教训 3:误报比漏报更伤人
- 误报多了客户不再信任
- 漏报最多坏 1 个门
- 误报多了整个 AI 系统被弃用
### 5.4 教训 4:必须有现场反馈机制
- AI 模型不能"自嗨"
- 必须人工反馈形成闭环
### 5.5 教训 5:分级告警很关键
- L1/L2 只推 APP
- L3 以上才电话
## 六、AI 故障预测项目的 4 个关键
### 6.1 关键 1:数据采集 ≥3 个月
- 冷启动期不要上线
- 至少 3 个月数据
### 6.2 关键 2:模型持续迭代
- 一次训练不够
- 至少 6 次迭代
### 6.3 关键 3:现场反馈机制
- 每次预警必须现场确认
- 工程师把结果反馈给 AI
### 6.4 关键 4:分级告警
- L1/L2/L3/L4/L5 五级
- 不同级别不同通知方式
## 七、AI 故障预测的局限性
### 7.1 局限性 1:需要训练数据
- 新门 1-3 个月数据采集
- 冷启动期不准
### 7.2 局限性 2:环境干扰
- 货车/装修/电钻
- 温度/湿度/电压
- 这些都是误报源
### 7.3 局限性 3:需要持续迭代
- 模型需要月度迭代
- 工程师需要持续投入
### 7.4 局限性 4:客户接受度
- 误报多了客户不信任
- 必须把误报率压到 2% 以下
## 八、找谁做
德恩科(河南联同创智能科技)AI 模型 v3.0:
- 自研 AI 故障预测模型
- 三模态融合
- 5% 误报率
- 联系电话 13271597000
详细方案见 https://www.kob.cn/deenke/
> 瑞可达 RECORD AI 故障预测技术参数可访问 https://record.1766.cn/ 获取。

