0 • 0 • 2024-08-07 16:03:36.0
1. 3대 문제 해결 시작
- 편향 / 경계 복잡성 / 공(空)동
2. 편향적 과최적화
샘플수 240개를 예로 들면 학습 초기 패턴의 승률은 대략 다음과 같이 정해짐.
구분 | (익절%/손절%) | 4:6 | 7:3 |
초기 패턴수 | 96+/144 | 144/96- | 72+/168 |
통계예측시, 모집단의 샘플수가 많으면 많을수록 좋은데,
익절/손절 %가 큰 곳에서 주로 과최적화가 발생하여, 이 경우 빨간색 숫자를 늘이거나 줄이는 최적화가 더쉬운 관계로 (3% 손절을 두세번 줄이느니, 7% 익절 하나를더 찾아버림) 집중 진행됨.
예) 7:3을 예로 들면, 총 수익률로 최적화시, 익절 쪽 가중치가 심화되어, 실제로 손절쪽 168샘플은 80개의 샘플의 가치를 지니지 않을까?
실제로, 머신러닝의 과최적화 성향이없다면, 이것은 문제 되지 않음.
실질적인 샘플수가 몇 개일까 계산하진 못하였으나, 6:4와 4:6의 경우 총 샘플수는 240개 미만인 효과를 낼 것임. 심지어 5:5로 같더라도, 머신러닝의과최적화 경향은 기본적으로 존재함.
3. 경계 복잡성
- 경계 복잡성은 이 글에서는 다른 의미로 쓰임. 그러나, 크게 보면, 모든경계 복잡성의 문제는 곡선 등의 신경망 경계선이 많고 복잡해져서 생기는 문제임.
- 어떤 샘플이 (신경망의) 경계와 가까우면, 예측력을 상실한다는 가정이 있음.
- 그러나 금융시장에서는 경계와 멀어도 예측력에는 크게 이득이 없을 것으로 봄.
- 단, 다른 형태의 경계 과최적화발생할 수 있음.
(경계부분은 한두건 정도는 수익 손실이 변경된다.)
- 경계를 늘리면 기하급수적으로 학습시간이 늘어나기도 하고,
- 현재 경계 수(=신경망 세포수) : 8개 / 즉 8개에 비례하게 경계선에서 과최적화 발생.
4. 공(空)동현상
- 과거 샘플에서는 빈 공간 / 미래에서는 발생할 수 있음.
- 막는 선을 생성함으로 최대한 해결
- 샘플 수를 늘리게 되면 자연스럽게 빈 공간을 줄여줄 가능성도 늘게 됨.
5. 해결 종합
- 샘플 수 증가 (7,8,9번에 일정부분 도움) :250->500회로 증가
- 9번 해결을 도울 : 막는 선 생성.