본문 바로가기

backup

[HFT 시스템 트레이딩]기초 통계1

시계열 데이타를 가공을 했으면 가장 기초적인 통계분석으로 데이타에 대한 성향을 파악을 해보게 됩니다.


데이타의 특성을 나타내는 가장 기초 통계치는 4가지가 있습니다.


1. 평균


평균은 집단을 대표하는 값이죠. 일반적으로 쓰이는 산술평균의 공식은 다음과 같습니다.



2. 분산


분산은 집단이 얼마나 넓게 분포하는지를 나타내는 값입니다. 정의는 다음과 같습니다.




3. 왜도(skewness)


데이타의 분포가 중앙에서 얼마나 치우쳤는지를 나타내는 값입니다.



왜도 값이 음수이면 오른쪽으로 왜도 값이 양수면 왼쪽으로 분포가 치우치게 됩니다.

왜도의 정의는 다음과 같습니다.





4. 첨도(kurtosis)


첨도는 분포의 뾰족한 정도이고 표준 정규분포는 3의 값을 가집니다. 3보다 크면 표준 정규분포보다 더 뾰족한 것이고 작으면 완만한 것입니다.


정의는 다음과 같습니다.







위의 식에서 u1, u2, u3, u4는 각각 1차 모멘트, 2차 모멘트 3차 모멘트, 4차 모멘트라고 하는데요. 1차 모멘트는 결국 평균이고, 이차 모멘트는 분산 3차 모멘트는 왜도와 관련되고, 4차 모멘트는 첨도와 관련이 됩니다.


각각을 수식으로 보면 다음과 같습니다.



위의 식을 왜 알아야 되냐하면 위의 식을 바로 프로그램으로 구현을 하려고 하기 때문입니다. 엑셀에서 그냥 구하면 되겠지만, 지금부터 할 분석은 엑셀 쉬트의 범위를 넘어섭니다. matlab에서도 공식을 지원을 하겠지만, 데이타 읽는데만 오래 걸리는 데이타에 대해서 각각을 한번씩 구한다면 분석이 상당히 오래 걸리게 됩니다.


그래서 c에서 한번 데이터를 몇 년치 데이터를 순서대로 처음부터 끝까지 한번에 읽으면서 4가지 주요 통계치를 한번에 구하려고 합니다.

그 내용에 대해서는 다음 글에서 다루도록 하겠습니다.