가격만으로 충분할까? 더 많은 데이터가 답이다
AI를 활용한 트레이딩 모델을 개발할 때, 가장 먼저 떠오르는 데이터는 가격 데이터입니다. 종가, 고가, 저가, 시가, 거래량 등은 대부분의 투자자들이 기본적으로 사용하는 정보죠. 하지만, 가격 데이터만으로는 시장 전체 흐름이나 미래 예측에 한계가 있습니다.
이럴 때 필요한 것이 바로 Feature Engineering, 즉 추가적인 데이터 특성(Features)을 만들어 AI 모델이 시장을 더 깊이 이해할 수 있도록 돕는 작업입니다. 실제로 제가 딥러닝 모델을 처음 개발했을 때, 단순 가격 데이터만 입력했을 때보다 다양한 외부 데이터를 활용했을 때 예측 정확도와 수익률이 월등히 높아졌습니다.
이 글에서는 가격 데이터 외에 어떤 데이터를 피처로 활용하면 효과적인지, 그리고 그 데이터를 어떻게 가공해서 모델에 적용할 수 있는지 실전 사례와 함께 소개합니다.
가격 외 활용 가능한 데이터의 종류
1. 기술적 지표 (Technical Indicators)
가격 데이터를 수학적으로 변형하여 추출하는 지표입니다. 가장 널리 사용되는 피처들입니다.
- 이동 평균선 (SMA, EMA): 가격 추세 파악
- 상대강도지수 (RSI): 과매수/과매도 판단
- MACD: 모멘텀 분석
- 볼린저 밴드: 가격 변동성 분석
이러한 지표는 가격 데이터만큼 직관적이지만, 복합적 의미를 담고 있어 모델 성능 향상에 효과적입니다.
예를 들어, 제가 LSTM 모델에 단순 가격 외에 RSI와 MACD를 추가했더니, 거짓 신호가 줄어들고, 실제 매매 시점이 더 정교해졌습니다.
2. 거래량 및 거래대금 데이터
거래량(volume)은 가격 움직임의 신뢰도를 높이는 데 중요한 역할을 합니다.
- 평균 거래량: 평균 이상의 거래량은 추세 지속 가능성 높음
- 거래대금: 대형 종목과 소형 종목의 상대적 중요성 판단
- OBV (On-Balance Volume): 거래량과 가격의 관계 분석
거래량은 특히 돌발적인 변동을 AI가 인식하도록 돕는 피처로 효과적입니다.
3. 파생 시장 데이터 (옵션, 선물)
기초 자산 외에 파생상품 시장에서 파생되는 데이터는 시장의 기대 심리를 반영합니다.
- 옵션의 내재 변동성(IV): 시장의 향후 변동성 예상
- 선물 가격과 현물 가격 차이(베이시스): 향후 가격 방향 추정
- 미결제약정(Open Interest): 시장 참여자들의 포지션 강도
제가 옵션 데이터를 피처로 추가했을 때, 특히 변동성 확대 시점에서 AI 모델의 리스크 대응 능력이 높아졌습니다.
4. 경제 지표 및 거시 지표
시장은 경제 흐름에 따라 움직입니다. 특히 장기 투자 전략에서는 거시 경제 지표가 중요한 피처가 됩니다.
- 금리, 물가(CPI), GDP 성장률
- 실업률, 소비자 신뢰 지수
- 중앙은행 정책(예: FOMC 회의 결과)
거시 지표는 단기 변동성보다는 중장기적인 트렌드를 반영하는 데 효과적이며, AI 모델의 다양성을 높일 수 있습니다.
5. 뉴스 및 감성 데이터 (NLP 기반)
뉴스, 트위터, 공시 등 비정형 텍스트 데이터도 중요한 피처가 될 수 있습니다.
- 긍정/부정 감성 분석 점수
- 핵심 키워드 등장 빈도
- 이슈 발생 후 가격 반응 패턴
최근 BERT, GPT 같은 모델을 통해 뉴스 분석을 트레이딩에 적용하는 사례가 늘고 있으며, 저도 트위터 감성 점수를 피처로 활용해, 특히 암호화폐 시장에서 긍정적인 성과를 얻었습니다.
| 가격 외 데이터 피처 정리표 | |———————|—————————-| | 기술적 지표 | SMA, RSI, MACD, 볼린저밴드 | | 거래량/대금 | 평균 거래량, OBV, 거래대금 | | 파생 시장 | 내재 변동성, 베이시스, 미결제약정 | | 경제 지표 | 금리, CPI, GDP, 실업률 | | 뉴스/감성 | 긍/부정 점수, 키워드 분석 |
피처 엔지니어링 실전 적용 방법
1. 데이터 수집 및 전처리
다양한 소스에서 데이터를 수집하고, 모델에 입력 가능한 형태로 가공해야 합니다.
- 정규화(Normalization): 서로 다른 단위를 가진 데이터를 일관성 있게 변환
- 결측치 처리: 누락된 값 보간 또는 제거
- 시간 정렬: 시계열 데이터는 반드시 시간 순서 유지
2. 파생 피처 생성
단순히 기존 데이터를 쓰기보다는 새로운 피처를 만들어 활용하면 모델 성능이 향상됩니다.
- 이동 평균의 교차 지점: 골든 크로스, 데드 크로스
- 가격/거래량 비율: 주가 움직임의 신뢰도 평가
- 변동성 스코어: 일정 기간 동안의 변동성 평균
3. 피처 선택(Feature Selection)
모든 데이터를 사용할 필요는 없습니다. 중요한 피처만 선택하여 모델의 복잡도를 낮추고, 성능을 높일 수 있습니다.
- 상관 분석: 피처 간 중복성 제거
- 피처 중요도 평가: Random Forest, XGBoost 활용
제가 실험한 경우, 20개의 피처 중 상관관계가 높은 10개만 남기고 학습했더니, 모델 학습 속도는 빨라지고 과적합 문제도 줄어들었습니다.
결론: 가격 그 너머를 보라, 데이터의 힘
가격 데이터는 투자 전략의 시작일 뿐입니다. 다양한 데이터를 피처로 활용하면 AI 모델은 시장을 더 입체적으로 이해하고, 더 정교한 판단을 내릴 수 있습니다.
저는 실제로 기술적 지표 + 거래량 + 뉴스 감성 점수를 결합한 모델을 통해, 단순 가격 기반 모델보다 예측력과 수익 안정성 모두 향상된 경험을 했습니다. 피처 엔지니어링은 단순한 데이터 추가가 아니라, 트레이딩 전략의 핵심이 될 수 있습니다.
Q&A
피처는 많을수록 좋은가요?
→ 아닙니다. 너무 많은 피처는 과적합을 유발할 수 있으며, 중요한 피처만 선별하는 것이 좋습니다.
경제 지표는 실시간 트레이딩에도 효과적인가요?
→ 단기보다는 중장기 전략에 효과적입니다. 실시간보다는 주간/월간 업데이트가 적합합니다.
뉴스 감성 분석은 어떤 모델이 좋은가요?
→ BERT, GPT 기반의 딥러닝 모델이 효과적입니다. 단, 실시간 분석 속도도 고려해야 합니다.
피처 엔지니어링 없이도 AI 트레이딩이 가능한가요?
→ 가능하지만, 성능이 떨어질 수 있습니다. 피처 엔지니어링은 AI 모델의 품질을 좌우합니다.
파생 시장 데이터는 어디서 얻을 수 있나요?
→ CME, 한국거래소, 주요 금융 데이터 제공업체(API)를 통해 확보할 수 있습니다.