0 • 0 • 2024-02-03 18:17:35.0
주식 AI모델 개발상황
2024. 1. 4
1. 결론1: 변수를 10개로축소하고, 가격변수의 영향력을 줄이기 위해 2개만 사용한모델을 검증하였는데, 기존 모델 대비 우수한 성과가 나타났으나, 최근분기
데이터 (23년 11월 20일 기준)는 여전히 상관계수가 0.003에불과해 여전히 특수 상황(공매도 제한)에 대한 예측력이 떨어지는한계를 가지고 있다는 결론
l 기존의 영향력이 큰 item의 영향력을 줄이기 위해, 가격변수에서 9번 1주일전대비 주가상승률과 23번 KOSP대비 3개월 주가 상승률 2가지로 축소하였음
l 밸류에이션, 펀더멘털, 수급지표 중에서 2번, 5번,7번, 13번, 14번, 16번, 26번, 27번의item을 사용해서 도합 10개의 item으로 축소하여 계산하였음
2. 결론2: 충분히 성과가 만족스럽지 못하다고 판단하여, 가격변수 10번(1개월 수익률)을추가하여, 11개 item으로 확대하고, 대신 예측 기간을 1개월로 축소하여
테스트했는데, 결과가 더욱 극단적으로 발생함
3. AI모델의 산포도 상관계수비교 (기존 모델/가격변수를 제외한 모델/Top 10모델/Top11_1Mon)
l Top10의 경우 23년1사분기는 0.157로 가장 높은 수준의 상관계수를 보였으며, 우리의 기준인 0.15를 상회하는 수치가 나왔음
l 2사분기 수치도 비교적 높은 수준인 0.091을 보이며 무난한 성과를 보였으나, 3사분기 수치는 상대적으로는정확한 수준이긴 하지만, 0.003에 불과하여, 신뢰할 수있는 기준인 0.15에는 크게 못 미치는 상황임
l Top11_1Mon의 경우, 1사분기는 0.165로 탁월하지만,2사분기와 3사분기가 부진한 성과를 보임
4. 앙상블 모델(두 모델의 랭킹을 합산 또는 높은 랭킹을 사용하는 방식에 대한 비교)에대한 비교를 한 결과
l 두 모델의 랭킹의 합산하여, 랭킹을 매겼을 경우, 23년 3사분기의 상관계수는 -0.077이었으며, 두 모델의 랭킹 중 높은 랭킹을 그 기업의 랭킹으로 보아 상관계수를 구한 경우, 상관계수는 -0.046으로 그 전 방식보다는 개선되었음. 하지만, Dropout직전 방식의 0.01보다는 정확성이 떨어지는 결과가 나왔음.
l 23년1사분기 Data를 분석한 결과, 앙상블(랭킹합)은 상관계수 0.0246이 나왔으며, 앙상블(낮은 랭킹 기준)은상관계수 0.0668이 나와서 여전히 긍정적인 수치가 나왔음
l 앙상블 방식을 사용하는 경우에는 랭킹을 합산하는 방식보다는 두 랭킹 중 낮은 랭킹을 기준으로 랭킹을구하는 것이 바람직할 수 있다는 가설이 성립될 수 있는데, 이는 모델별로 순위에 극단적인 편차를 보이는종목에 대한 예측보다는 모델마다 적절한 순위에 분포한 종목의 예측이 더욱 용이하다는 implication이있음
5. 결론 및 향후 진행 방향
l Item의 개수는 밸류에이션(3개), 실적(3개), 수급(2개), 가격(2개)로 구성되는 것이 적절할 것으로 예상됨
l 기간은 3개월보다 1개월이더 부정확하게 나오는 부분은 예상 밖의 현상임
l 현재의 방식(회귀방식)이상황의 변화에 따른 예측력의 편차가 보인다는 약점을 극복하기 어려울 것으로 판단됨
l 가격변수만 입력해서, 테스트해 볼 계획임
l 새로운 방식(분류방식)으로접근하는 방법에 대해 고려할 계획임
l 1년치 예측 후4,1,2,3분기에 예측치와 실제치가 안 맞는 종목을 순서로 배열하여 상위 100개 제외하여 4분기 예측.
l 위 클러스터링 (군집화)이용하여 예측치와 실제치가 잘 맞는 종목을 찾아내고, 그 중에서 랭킹이 높은 종목 위주로포트폴리오를 구성