0 • 0 • 2024-02-03 18:02:57.0
주식 AI모델 개발 진행상황
2023. 12.21
1. 결론: 현재 사용 중인 Dropout직전Train방식에대해 과거치를 검토한 결과 일관성 있는 결과 얻지 못함
l 이론적으로 더욱 우수한 성과를 보일 것이라고 생각되는 배치정규화 모델과 현재 사용하고 있는 Dropout직전 Train방식을 검토한 결과, 정상적인 상황에서는 Dropout직전Train의 예측력이 높았음.
l 하지만, Dropout직전Train모델 자체의 예측력의 편차가 매우 크게 나타남이 가지는 한계를 인정해야 함
l 새로운 방식으로 접근하기 위하여, 모델 내에서 매우 큰영향력을 가지면서, 다중 공선성의 의심되는 item을 일부제거하고 결과치를 뽑아볼 예정임
2. AI모델의 산포도 상관계수비교 (배치정규내에서의 비교)
l 배치정규15: 배치정규방식을 적용하고, 15년을 훈련하고, 이후로 5년간데이터를 예측한 결과
l 배치정규직전train: 배치정규 방식을 적용하고, 직전 년도의 분기까지 Train하고 예측한 결과
l 총 18개 분기의 결과 중 14개 분기에서 최근 데이터를 Train에 적용하지 않은 모델이 우수한결과를 보였음
l 코로나 사태로 인한 주가급락사태와 이후의 주가 급등이 겹치면서, 모델이최근의 이상치에 가까운 데이터에 과적합 했을 가능성에 부합하는 결과
3. AI모델의 산포도 상관계수비교 (배치정규15 vs Dropout 직전train: 최근 4개분기 비교)
l 배치정규15: 배치정규방식을 적용하고, 15년을 훈련하고, 이후로 5년간데이터를 예측한 결과
l Dropout직전train: Dropout 방식을 적용하고, 직전 년도의 분기까지 Train하고 예측한 결과
l 총 4개 분기의 결과 중 3개 분기에서 Dropout직전Train모델이우수한 결과를 보였음
l 양호한 상관계수 수치에 근거하여, 11월 20일 종목 선정 모델로 활용 중임이며, 이후 5년치 데이터로 다시 구해서 확인
4. AI모델의 산포도 상관계수비교 (배치정규15 vs Dropout 직전train: 과거 18개 분기 비교)
l 배치정규15: 배치정규방식을 적용하고, 15년을 훈련하고, 이후로 5년간데이터를 예측한 결과
l Dropout직전train: Dropout 방식을 적용하고, 직전 년도의 분기까지 Train하고 예측한 결과
l 총 18개 분기의 결과 중 12개 분기에서 배치정규15모델이 우수한 결과를 보였음
l 공교롭게도 최근 4개분기는 Dropout직전train모델이 3개분기에걸쳐 양호한 수치를 보였음.
l Dropout직전train모델의 특징을 살펴보면, 상관계수의 값의 분포가 상당히 극단적으로나타나고 있다는 점
l 이 역시 직전 분기의 Data를 반영하는 과정에서 과최적화되었을 우려가 있을 수 있으며, 지속적으로 (-)가 났었던구간은 2019년 3사분기부터 2021년1사분기로 코로라의 급락 과정과 그 이후의 과열국면장세에서지속적으로 시장과 반대의 결과가 나타났었다는 점
l Dropout직전Train모델은 최근 Data를 잘 설명하고 있으며, 23년 3사분기 데이터의 경우도 가장 높은 상관관계를 나타내고 있어, 효용성이 있다고 보이지만, 과거처럼 이상치가 발생할 경우, 완전히 불안정한 모습을 나타낸다는 점은 부담스러운 부분임
5. 향후 진행 방향: 영향력이 큰 item을 배제하고,모델을 돌려서, 펀더멘털 지표와 밸류에이션 지표가 반영될 수 있는 여지를 만들어볼 계획임
l 현재 모델 내에서 영향력이 큰 가격변수를 제외하고 모델을 돌려서, 모델의유효성을 검증해 볼 계획임
l 방식은 배치정규 방식을 선택하고, Dense를 20으로 줄이고, 결과치에 +10에서-10의 규제를 구하고 구할 계획임. (이 방식은 각각 적용했을때 안정적인 성과를 보였던 레코드가 있는 방식들임)
l 안정적인 예측성과를 보이는 모델이 정해지면, 1개월 모델까지기간을 구분해서, 개발하고, 기간을 병합해서, 결과를 내는 앙상블 방식에 대해 검증할 계획임