요즘 시스템 트레이딩 뿐만 아니라 일반적인 트레이딩에서나 금융공학에서나 새로운 돌파구로 빅데이터에 대한 관심이 높아지는 것 같습니다.
파생상품 Pricing에서 벗어나 새로운 거래 규칙들을 찾아내는 것이 중요하다. 과거와는 달리 이젠 트레이딩의 주기가 매우 짧아졌고, 그만큼 분석에 사용되는 데이타의 숫자 역시 매우 커지게 되었습니다.
큰 거시 경제를 보면서 장기간에 걸쳐 투자를 하는 사람은 일단위, 월단위의 데이터로도 충분할 것입니다.
그 보다 아래에서 Time Series(시계열분석)을 통해 거래를 하는 사람은 분봉 데이터로 거래를 하겠지만,
이젠 그 보다 아래의 tick 단위에서 market microstructure 분석을 하게 됩니다. 그만큼 데이터도 방대합니다. 그래서 빅데이터 분석이라고 하는 것 같습니다.
그런데, 빅데이터 분석이라고 해서 기존의 데이타 마이닝이나 기계학습과 별반 다르지가 않습니다. 빅데이터는 아무래도 마켓팅 용어에 가깝습니다. 정말로 빅데이터를 다루는 곳은 몇 곳 없으니까요.
증권거래소에서 다루는 데이터는 빅데이터가 맞다고 생각합니다. 수 많은 종목, 거래자, 시세 뿐만 아니라, 매칭 데이터까지 정확히 얼마안지는 모르겠지만, 하루에도 몇 기가는 쉽게 쌓일 것 같습니다. 그런 데이터를 분석해서 투자자별로 거래 유형을 분석해서 반대 전략을 세우고 그렇게 할 것이라면 빅데이터 분석이 맞을 것입니다.
그러나 일반적으로 그런 데이터는 얻을 수도 없습니다. 일반적인 수준에서는 그러나 꼭 빅데이터라고 하기도 애매하고, 굳이 어렵게 하둡시스템까지 구축을 하지 않아도 상관은 없다고 생각합니다. 일반적인 수준에서 분석은 결국 Tick 데이타 분석 정도인데, 종목을 엄청나게 많이 한다면 모를까, 그렇지 않다면 그렇게 용량이 크지 않습니다. 제가 가지고 있는 유로/달러 Tick 데이터는 압축해서 한달에 분량이 평균적으로 40메가 단위 압출 풀어서 400메가 단위더군요. 물론 베스트 호가만 가지고 있습니다. FX시장에서 제 경험적으로는 full order book의 의미가 약합니다. 그래도 하루의 레코드 숫자가 2~30만 정도는 되네요.
FX시장에서는 전 통화쌍에 대한 Tick데이타를 몇 년 정도 모아도 하둡은 필요 없을 것 같네요. 요즘은 하드디스크가 4TB까지 나오니까.
그 이하의 양을 분석하는데에는 하둡은 필요 없습니다.
뭐 길게 적었지만 결론적으로 하고 싶은 말은 왠만한 경우라면 빅데이터 시스템 구축이 아닌 그냥 데이타마이닝 수준에서 대부분의 분석이 모두 가능하다는 말입니다. 말이 길었네요. ㅋ 다음 글 부터는 초기 데이터 가공에 관한 내용을 다루겠습니다. Tick데이터 구하는 방법도 말해야겠지만, 지금부터 잘 저장하는 것 말고 Tick 데이터 구하는 것은 유료로 구하는 것 말고는 모르겠네요. ㅋ 참고로 MT4는 Tick도 제대로 안주는 것 같습니다.
'backup' 카테고리의 다른 글
HFT latency arbitrage (3) | 2013.11.14 |
---|---|
[FX마진거래]FX dark pool (2) | 2013.10.31 |
논문 잘 읽는 법 (0) | 2013.10.17 |
[HFT 시스템 트레이딩]FX마진거래 시장에 대한 이해 (0) | 2013.10.17 |
HFT 테스트 (0) | 2013.10.16 |