논문 요약 | Wearable-based symptom prediction

Comprehensive Symptom Prediction in Inpatients With Acute Psychiatric Disorders Using Wearable-Based Deep Learning Models

서론

정신과 폐쇄 병동에서는 환자의 증상(정신병적 증상, 조증, 우울증 등)이 빠르게 변하고, 환자 스스로 증상을 정확히 보고하기 어려운 경우가 많아(통찰력 저하, 인지 저하 등이 존재하기 때문이다.) 정기적인 임상 평가만으로는 상태 변화를 따라가기 어렵다. 또한 병동에 있는 직원들은 높은 업무 강도와 번아웃 위험에 쉽게 노출돼 있기 때문에, 객관적인 데이터로 임상 의사결정을 보조하는 Clinical Decision Support의 필요성이 크다. 이 논문은 이런 문제의식에서 출발해, 손목형 웨어러블로 얻는 wearable sensor data(heart rate, accelerometer, location 등 )를 활용해 정신과 폐쇄 병동 환자의 증상을 예측하는 딥러닝 모델을 개발·검증한다.

본론 1. 데이터 : 다기관·다병동(동국대학교병원,용인정신병원,서울대학교병원) 반복 측정 임상평가를 활용한 증상 예측 과제

연구는 3개 병원, 4개 병동에서 조현병 및 기분장애 환자를 모집하여 입원 기간 동안 웨어러블 데이터를 수집했고, 훈련된 평가자가 다음 임상 척도를 반복 측정했다.:

BPRS
HAMA
MADRS
YMRS

전체 244명 등록 중 191명이 최종 분석에 포함됐고, 2024년 5월 1일 이전 모집자는 cross-validation, 이후 모집자는 external validation에 사용했다.

본론 2. 모델링 : [Single, Multi] × [Deterioration, Score]

이 논문의 목표는 증상 예측 strong>을 딱 한 가지 방식으로만 정의하지 않고, 서로 다른 두 가지 관점의 문제로 나눠서 각각 예측하였다.

2-1. Deterioration : 정신증상 악화 여부 예측
- 이 환자가 이전보다 더 나빠졌나? (Yes/No) 즉, 같은 환자 기준으로 변화를 보는 문제.
2-2. Score : 증상 점수 예측[BPRS, HAMA, MADRS, YMRS] 4가지 타깃변수를 예측하는것이다. 이 환자의 증상 점수가 몇 점 정도인가?” 즉, 현재의 중증도를 본다.
* 왜 굳이 둘로 나누나? 어떤 상황에서는 “지금 위험하게 악화 중인지”가 더 중요하고, 어떤 상황에서는 “현재 중증도가 얼마나 심한지”가 더 중요하기 때문이다.

Single: 증상을 개별적으로 예측
Multi: 여러 증상을 동시에 예측(멀티태스크)
Deterioration: 같은 환자 내 악화/변화(상대적 변화) classfication
Score: 환자의 증상 점수 예측

그래서 각 척도(BPRS, HAMA, MADRS, YMRS) 마다 Single-Deterioration / Single-Score / Multi-Deterioration / Multi-Score 총 4개 구성으로 실험한다.

본론 3. 결과: 악화 classfication는 준수, 점수 prediction은 Multi가 더 강함

Deterioration(악화 classfication): Accuracy ≈ 0.75 (cross-validation), 0.73 (external validation)
Single/Multi 성능은 비슷한 수준
Score 예측: R² ≈ 0.78(Single) / 0.83(Multi) (cross-validation)
Score 예측: R² ≈ 0.66(Single) / 0.74(Multi) (external validation)

특히 Multi-Score가 더 좋은 성능을 보임

본론 4. 일반화 성능이 현장 적용의 핵심 과제임.

다기관·다병동에서는 병원/병동별 데이터 특성이 달라 분포 차이가 커지고, 이로 인해 모델의 일반화 성능이 현장 적용의 주요 장애가 된다. 이를 해결하기 위해 현장별 주기적 재검증이나 연합학습을 대안으로 제시한다.

결론

이 연구는 웨어러블 기반 데이터를 활용하여 정신과 폐쇄 병동 환자의 증상을 악화 classfication와 증상척도 prediction으로 나누어 다면적으로 모델링했고, Multitask이 특히 점수 예측에서 더 균형 잡힌 성능을 낼 수 있음을 보여주었다. 동시에 병동 간 차이로 인한 일반화 문제가 뚜렷해, 실제 임상 적용을 위해서는 현장별 재검증 또는 federated learning(연합학습) 같은 운영 전략이 필수라는 실무적 결론까지 냈다.