통계 관련자료 찾다가 보게된 자료 수학은 너무 최종으로 정리가 된 모습만 있어서 실제로 발견/정리하게된 과정이 궁금해질 때가 있다.
--------------------------------------------------------------------------------------
http://k.daum.net/qna/openknowledge/view.html?qid=0FTAe
통계학의 역사
글을 시작하며
우리는 흔히 '역사란 무엇인가'에 대한 거창한 질문에 E.H.Carr가 "역사란 역사가와 사실사이의 상호작용의 부단한 과정이며 현재와 과거 사이의 끊임없는 대화이다"라는 말이 문득 스치고 지나간다.
어쩌면 우리는 역사의 연장선상에서 살아가면서도 역사에 대해 깊이 생각하지 않는다. 아니 해 볼 기회가 없는 것 같다. 우리는 여기서 그 수많았던 역사적 사실들 중에서 우리가 지금까지 배워온 통계학의 역사를 되짚어 보고자 한다.
▶ 통계적 사고의 기원
1. 역사란 무엇인가?
앞서 언급한 E.H.Carr의 역사에 대한 정의와 같이 역사란 과연 무엇이고 왜 역사를 알아야 하는지에 대해서 통계학사라는 수업시간을 통해 토론한 바 있다. 비록 '역사란 무엇인가?'라는 E.H.Carr의 저서를 중심으로 토론이 전개되었기는 하지만 역사가 현재의 관점 하에서 과거를 보고 그 과거의 사실들을 통해 현재의 교훈으로 삼을 수 있는 관계로써 성립된다는 사실에는 동의하였다. 아무튼 역사라는 것이 과거와 현재의 단절속에서 존재한다는 것은 있을 수 없는 것임은 틀림없다.
그렇다면 시간의 흐름에 따라 수없이 일어나는 사건들 중에서 어떠한 것이 역사라는 이름으로 남을 것인가?
물론 이는 '무엇의 역사'라는 질문 아래 구분될 수 있다. 예를 들어, "통계학에서 기록될 만한 것은 무엇인가?"라는 질문은 통계학의 역사를 묻는 것이다. 이렇듯, 역사라고 불리는 것은 사실이면서도 의미있는 것일 것이다. 한 예로써 '만약 옆집에 사는 누군가가 죽었다는 사실이 과연 역사로써 기록될 만한 가치가 있는가'이다. 이는 역사는 단순히 사실의 나열일 뿐만 아니라 누군가에게 의미있는 그 어떤 것이 아닐까 생각된다. 이것을 E.H.Carr는 '역사적 사실화'하는 것이라고도 했다. 또한 그는 "역사철학"은 '과거 그 자체'를 다루는 것도 아니고 '과거 그 자체에 대한 역사가의 사상'을 다루는 것도 아닌, '상호관계에 있어서의 양자'를 다루는 것이다"라고 하면서 역사가의 역할에 대해서도 언급하였다.
그런 점에서 콜링우드와 의견이 비슷한 오크쇼트 교수는 말한다. "역사란 역사가의 경험이다. 역사는 오직 역사가만이 <만든다>. 즉, 역사를 기록하는 것은 역사를 만드는 유일한 방법이다"라고.
2. 통계학 역사의 시작
그렇다면 통계학의 역사는 언제부터 시작되었는가?
Kendall이 "역사는 어디부턴가에서 분명히 시작되었지만 아무도 그 시작을 모른다"라고 말한 것과 같이 통계학의 역사도 그러하다. 그러나 통계학의 사상적 기초는 옛부터 존재했다. 이미 고대 이집트, 그리스, 로마 등에서 인구, 농지 등 수량적 조사나 여러 가지 국가경영정보를 제공하였고, 17세기에 이르러서야 수학자 Blaie Pascal(1623-1662)과 Pierre de Fermat (1601-1665)이 도박꾼의 파산(Gambler's ruin)에 대한 기대값을 구하는 문제에 대해 이야기하면서 확률론이 탄생했다고 보는 경우도 있다. 그 이후 John Grunt등과 같은 사람들에 의해서 더욱 발전되었는데, 일반적으로 오늘날의 통계학은 독일 대학파로부터 명칭을 계승하고 영국의 정치 산술파로부터 내용을 받아들인 것으로 평가받고 있다.
3. 통계학적 사고의 변천
통계는 과학이다. 과학에는 과학적 사고가 있으며 과학적 사고의 바탕에는 철학이 있는 것이다. 근대 통계의 발생지로 지목받는 독일과 영국에서의, 독일의 대학파 통계학과 영국의 정치산술파 통계학의 발생이나 그 차이에 있어서도 철학의 영향이 매우 컸다.
소크라테스를 거쳐 플라톤, 아리스토텔레스를 이어오면서 자연, 인간, 신 중심의 사상이 차례대로 발전하였으며, 다시 신 플라톤 주의의 등장으로 15-17세기에는 신앙과 이성, 신학과 철학의 분리로 시작되어 인간 중심의 근대 자연과학의 부흥으로 이어지는 이른바 '지식의 위기'에 빠진 시대였다. 이러한 시대를 극복하려고 영국의 경험론의 선구자 베이컨과 대륙의 합리론의 시조인 데카르트가 등장하게 됨으로써 철학사에서는 한 획을 긋게 된다.
이들의 경험론과 합리론은 앞에서도 언급했듯이 영국 정치산술파와 독일의 대학파의 사상적 밑거름이 되었다.
먼저 베이컨은 16세기 유럽사회에 만연한 '지식의 위기'속에서 혼란을 불러일으킨다고 생각되는 사상들을 네가지 우상에 비유하면서 종합적으로는 그러한 우상을 극복하기 위한 새로운 과학적 방법으로 귀납적 방법(Inductive Method)을 제안하였다. 이는 많은 경험적 자료를 분류하고 정리한 후 이로부터 참다운 지식을 얻어내는 방법으로써, 어떤 한 가지 문제에 대해 지식을 얻기 위해서 관련된 무수한 경험적인 사실을 수집하고 분류하여 보다 범위가 넓은 새로운 사실을 예측할 수도 있게 해준다는 것이었다.
이에 비해, 데카르트는 베이컨의 경험론을 비판하면서, 진정한 진리탐구의 방법은 '방법적 회의' 즉, 철저한 의심을 통한 확실한 진리 인식이어야만 한다고 주장하였다. 그는 모든 것들을 다 의심하였으며, 심지어 자신의 존재까지도 의심하여 "나는 생각한다. 고로 나는 존재한다 (cogito ergo sum)"라는 유명한 말을 남기기도 했다. 이처럼 그는 불확실한 것에 대해서는 모조리 의심함으로써 철저히 인간의 이성에 의한 진리의 증명을 시도하였다.
▶ 천문학에서의 통계학(확률론)
1. 갈릴레오
1564년 이탈리아의 피사 출생인 갈릴레오가 살았던 시대는 지구가 우주의 중심이라고 믿었던 신 중심의 세계였다. 그 와중에서 그는 Dialog라는 저서를 통해 1572년의 새로운 별의 관찰에 대한 자세한 통계적 분석을 제공하게 되는데 이는 아리스토텔레스와 프톨레마이오스의 주의 천문학을 뒤엎는 코페르니쿠스의 인식을 지지하는 작업이기도 했다. 그리고 갈릴레오는 이 일로 인해 종교재판에 서게 되지만 기존의 과학의 틀을 흔들어 놓기에는 충분했다. Dialog에서는 오차(Observation errors)에 대해 기술하고 있으며, 이는 오늘날 확률오차의 분포(Distribution of Random Errors)라 불려지고 있다.
2. 르장드르 (Adrien Marie Legendre, 1752-1833)
확률오차의개념
르장드르 : 최소제곱법 ·혼자서 되는 것은 없다.
→
마이어의 달의 칭동에 관한 분석과 라플라스의 목성과 토성의 비주기적인 기복현상에 대한 분석으로부터 나온 지식의 축적이 가져온 결실이다.
3. 야곱 베르누이 (James (Jakob, Jacques, Jacob) Bernoulli 1623-1708)
상인, 정치가, 예술가, 언론인, 수학자, 과학자를 배출한 명문가 출신으로 확률론에 많은 기여하였다. 그에 의해 확률론은 전환기를 맞게 된다. ※ 대수의 약법칙 (← 추론의 한 방식을 제공)
한 사건(Event)의 상대돗수는 많은 관측이 있을수록 참에 가깝다. 이는 사건의 알지 못하는 비율에 대하여 증거를 축적하면 할수록 그 비율에 대하여 더욱 확실한 지식을 얻을 수 있다는 것이다.
4. 드 모아브러 (De Moivre)
정규근사
이항분포의 근사확률을 계산한 것이 정규근사이다.
· 혼자서 되는 것은 없다.
→
베르누이의 정리에 의하여 얻어지는 표본크기는 실제 추론에 응용되기엔 너무 크기 때문에 이항확률에 대한 보다 정확한 근사값을 찾을 필요가 있었다.
5. 토마스 심프슨 (Thomas Simpson 1710-1761)
Statistical Error Theory에 중요한 기여를 하였는데, 그것은 대수의 법칙을 발견한 것이다. 이 법칙은 증명은 되지 않았지만, 천문학자들에게 많은 공감을 얻었다.
※ 대수의 법칙
같은 조건하에서 실험을 반복할 때 실험을 더 많이 하면 할수록 결론의 오차율은 줄어든다라는 사실을 기술하였다.
·심프슨의 파라독스
조건부 확률과 주변확률이 반대의 경향을 띈다.
자료를 함부로 나누면 안된다는 사실을 보여준다.
· 혼자서 되는 것은 없다.
→
심프슨의 저서는 베이즈의 확률론에 대한 인식을 깨우쳐주었다.
6. 라플라스(Pierre Simon Laplace 1749-1827)
통계학의 백미라 할 수 있는 중심극한정리는 확률론에서 중요한 업적으로 De Moivre의 극한정리를 일반화한 것이다.
※ 중심극한정리
어떤 합이나 평균은 n이 크다면 정규분포로 근사한다는 것이다. 수학적 확률론의 역사중 확률의 추론에 대한 4권의 저서중 가장 의미있는 것은
1773년 Memoir on the probability of the Causes of Event
1780년 Memoir on Probabilities
이다.
· 혼자서 되는 것은 없다.
→
이항분포의 정규근사 = 드 모아브르- 라플라스정리
: 드 모아브르가 증명을 생략한 채 남겨둔 비대칭인 경우의 이항분포의 정규근사를 라플라스가 증명하였다.
Gauss와 Laplace의 이론적 만남은 통계학에서 승화된 이론을 만들었다.
7. Gauss (Carl Friedrich Gauss 1777-1885)
행성의 궤도에 대해 이미 행해진 연구와 같은 방향에서 확률적 개념을 가미
1809
Gauss는 1774년에 Laplace가 오늘날 베이즈 정리에 대한 그의 버전을 제시한 이론을 이용
1810
Laplace는 Gauss의 이 논문을 보고 큰 충격!!
1811
Laplace는 Gauss의 결과를 통해 극한정리와 선형추정사이에 관련성이 있음을 깨달았고 1774년의 그의 결과 접목하여 더욱 Gauss의 생각을 발전시켰다.
1823
Gauss는 Laplace의 이 이론을 한층 발전시켜 선형결합을 갖는 가장 작은 분산을 갖는 "최소분산 선형불편추정량(Best Linear Unbiased Estimator - BLUE)"를 가진다는 Gauss-Markov정리를 제공하게 된다.
※ 정규분포(가우스분포 = 라플라스분포 = 가우스-라플라스분포 = 라플라스-가우스분포)
1773
드 므아브러의 이항분포에 대한 근사확률로부터 시작하여
1777
1773년 라플라스에 의해 어떤 관측치가 t로부터 x만큼 차이가 날 확률 f(x)= m/2exp(-m|x|))모형의 오차항이 오늘날 이중지수분포(일명. 라플라스분포)가 됨을 발견하였고 이 라플라스의 이중지수분포는 곧 가우스에 의해서 수정되었다.
오늘날의 정규분포를 수학자 가우스가 제안하였고 이를 가우스 분포라 했다.
이 두사람은 미지의 선형식에서 극한정리와 선형추정사이의 관련성에 대해 놀랄만한 성과를 거두는 데 서로 영향을 끼쳤던 것이다.
그리고 이들의 업적을 기리기 위해 정규분포를 가우스-라플라스 분포 (혹은 라플라스-가우스 분포)로 부르고 있다. 그러나 엄격히 따져 칼 피어슨 (Karl Pearson, 1926)등 몇몇 통계학자들은 1773년 드 모아브러의 근사확률을 정규분포를 나타내는 정규곡선의 원조로 여긴다.
▶ 사회과학 분야에서의 통계학 (케틀레, 렉시스, 페흐너, 에빙하우스)
19세기에서 사회과학 자료의 통계적분석에 대한 개념적인 문제는 자료를 어떻게 균일한 여러그룹으로 분할할 것인가 하는데에 있었다. 이것을 해결하기 위하여 다음의 세가지 방안이 생기게 되었다.
①자료와 관련되는 많은 수의 요인들을 조사하고 이것들로 자료를 분할함으로써 균일한 그룹화를 기대하는 것이었다.
②불확실성이 개입하는 것을 막기위한 목적으로 방대한 자료를 수집하는 것이다.
③ 그룹내의 균일성을 자체적으로 평가하기 위한 방법론을 개발하는 것이었다.
1. Lambert Adolphe Jacques Quetelet (1796.2.22 - 1874.2.17) Belgium 기상학자, 통계학자
1830년 못미쳐 벨기에와 네덜란드가 한 나라로 통합될 때, 과거 왕국의 인구추계가 어려운 정치상황아래서 행해진 부정확한 부분적 센서스에 바탕을 두고 있다고 비판하고, Pierre Laplace로 부터 확률 이론을 배운 그는 라플라스의 비추정법*(Ratio Estimation)이 유용할 것이라는 생각을 가지고 프랑스에서 귀국하여 이전의 인구에 대한 조사와 1829년도 센서스 기획에 대한 연구를 시작으로 하여 통계적 업적을 쌓게 되었다. 그러나 비추정법의 사용은 케버버그 남작의 주장으로 실패하였다.
(Keverberg의 딜레마 - 출생과 사망에 영향을 주는 요인들이 비슷해지도록 나라를 분할하는 작업은 결국 개인개인에 까지 이르러야 하기 때문에 해 봐야 아무런 이득이 없다는 것이었다. 그래서 케틀레는 불행하게도 총괄적인 센서스로 방향전환을 하게 되었고, 확고한 추론은 많은 양의 자료에 바탕을 두어야 한다고 주장하게 되었다.)
1835년
그는 Sur I'homme et developpement de ses facultes, ou essai de physique sociale을 출판하였다. 이 책에서 평균인을 도입하였다.
1845년
케버버그에 의해 제기된 동질성을 파악하는 문제에 분포의 적합을 적용시켜 해결하려 하였다. (관찰치들의 분포가 정규곡선에 따른다면 그 관찰치들은 하나의 동질적인 집단으로 간주) 하지만 여러 가지 오류로 인해 그의 주장은 받아들여지지 않았다.
※ 그는 사회과학에서의 통계적 사고의 기원이라 할 수 있다. 베르누이와 라플라스가 확률을 응용하여 사회과학에서의 불확실성을 측정하려는 연구의 전조를 보였지만 현실적으로 나타나지 못했다. 케틀레는 뚜렷한 성공을 거두지 못하였으나 그의 연구결과들을 자세히 살펴보면 확률을 사회과학에 응용하는 데서 나타나는 실책들이 정말로 심각한 개념상의 어려움을 뜻한다는 것을 알 수 있다.
2. Lexis(1837-1914) : 독일인 통계학자, 경제학자
그는 이항자료에 오차이론과 케틀레의 방법론을 도입하려 하였으나 별 성과를 거두지 못하였다. 그의 방법은 케틀레의 자료적합의 모델을 정규분포로 하였던 것에 비해 그는 이항분포로 바꾸어 대응되는 방법론을 개발하는 데 성공하였고 현대적 의미의 분산분석법에 근접하였다고 할 수도 있다. 그러나 실제로 대부분의 이항계열이 그의 기준에 따르면 안정적이지 않았으며 또한 그의 방법론은 비안정적이라고 판정된 계열에서의 "비안정성"을 설명할 수 없었기 때문에 그가 생각한 비는 효용이 없는 것이 되었다.
3. Fechner(1801-1887), Ebbinghaus(1850-1909)
학문의 성격상 실험이 가능한 심리 물리학 분야에서 오차이론을 이용하여 주목할만한 성공을 거둘 수 있었다.
페흐너는 웨버-페흐너의 법칙을 발견하였다. 이 때 그는 계수 반응자료를 다룬 최초의 인물로서 일종의 Probit모형을 제시하였다고 볼 수 있다.
에빙하우스는 기억에 관한 저서에서 정규분포 적합에 있어 케틀레의 수동적인 태도에서 벗어난 적극적인 자세로 전환함으로서 케틀레의 방법론을 진일보시켰다.
▶ 계량 생물학파의 통계학 (골튼, 피어슨, 율)
통계적 방법들이 실험심리학에 재빨리 퍼져 들어가게된 큰 이유는 실험계획, 즉 실험조건을 통제한다는 것이 가능했기 떄문이었다. 사회과학분야에서는 명백히 이러한 통제를 할 수 없었기 때문에 확률에 바탕을 둔 통계적 기법들을 성공적으로 활용할 수가 없었고 오늘날까지도 그 발전이 완전히 이루어졌다고 할 수는 없다. 그러나 1880년대 초부터 실험통제의 역할을 해주는 관찰방법 및 개념들을 고안해내어 결과적으로 한 세기동안 발전을 막아왔던 장애를 제거하였다. 이 장애를 제거하는데 주된 역할을 담당한 사람들은 프란시스 골튼, 이스드로 에지워드, 칼 피어슨이었다.
골튼의 아이디어를 에지워드가 수식화함으로서 얻어지는 많은 결과는 칼 피어슨에 이르러 비로서 인식되었다. 칼 피어슨은 골튼과 같은 창의성도 없고 에지워스와 같은 깊은 이해력도 없었지만 그의 열성에다 율의 도움을 합하여 방법론을 창안하고 널리 쓰이도록 하였다.
1. Francis Galton(18222.16-1911.1.17) England
통계학분야에서 그는 두가지 중요한 이론을 발전시켰는데,
① 정규분포의 혼합이 정규분포라는 것이며
② 나중에 회귀라고 불리게되는 반전이라는 개념을 전개한 것이다.
실제로 골튼이 만든 통계 개념중 가장 잘 알려진것이 상관(Correlation)이다. 앞 두가지 이론이 상관과 밀접한 관계를 갖고 있다는 것을 알고 있다. 하지만 그는 첫번째 이론은 오차이론에서 나왔고 두 번째 것은 단지 골튼 자신의 생각일 뿐이었다. 1888년 12월 짧은 논문에서 그는 두 개의 회귀직선은 표준화된 같은 기울기 r을 갖는다고 하였는데, 여기서 r은 "Closeness of co-relation"을 나타내는 것이었다. 이러한 상관은 나중에 칼 피어슨의 업적에서 중요한 구실을 하게된다.
2. Karl Pearson(18573.27 - 1936.4.27) England 탐험가, 인류학자
골튼의 간청으로 통계학의 수학적 기초를 확립하는 일에 전념하여 골튼의 회귀선을 토대로 하여 상관이론을 완성하였다.
1893년
표준편차와 평균편차를 1894년 Mode라는 용어를 사용하였다.
1897년
골튼의 창의에 의한 상관관계를 확충하여 중상관을 완성하였다.
1900년
자료의 타당성을 검증하기 위해 카이제곱검정을 시도하여 생물통계학에 혁신적 공헌을 하였다.
1906년
동료 Weldon 이 사망한 후 피어슨은 유전학 연구에서 우생학 분야의 통계적 응용으로 돌아왔다. 1911년까지 그는 응용수학에 몰두했으며
1933년
퇴직할 때까지 많은 종류의 통계수치표를 작성하였다.
1933년
퇴직후 그가 주재하였던 응용통계학 교실은 우생학 교실과 통계학 교실로 분리되고, 전자는 피셔가 후자는 에곤 피어슨이 주임교수가 되었다.
※ 피어슨은 피셔와 오랫동안 논쟁을 하였다. 피어슨은 대표본을 사용하여 상관을 없애려고 노력하였다. 반대로 피셔는 상관을 감소시키기보다 소표본을 사용하려고 하였다. 이 논쟁으로 피셔는 1919년 Galton Laboratory의 Chief Statistician의 자리를 거절하였다.
3. George Udny Yule (1871.2.18.-1951.6.26.) England
율은 생물학적 문제에서 벗어나 회귀직선을 여러형태의 빈도 곡선의 단순한 특성치이기보다는 인과관계를 대신 설명해주는 것으로 간주했다. 결국 최소제곱법이란 직선을 적합시키는 것이라는 생각으로 율은 회귀직선을 특성관계라 부르게 된다. 계속해서 그는 소위 편상관계수, 중상관계수등을 소개했다.
그는 사회과학에서 빈곤의 변화가 시설 외적 구조비율의 변화 때문이었는가 하는 문제에서 회귀분석을 이용함으로 해서 회귀분석의 위력을 보여주기도 했다. 1920년까지 율의 접근방식은 사회과학, 특히 경제학에서 주도적인 역할을 하였고, 회귀분석외에도 질적으로 범주화된 자료분석에 주된 공헌을 했으며, 실제적으로 현대 시계열 분석법을 발견하게 되었다.
또 그는 처음으로 문체측정의 분야에 통계적인 또는 확률론적인 개념을 대폭으로 도입하였으며, 그는 문체의 통계에 대한 대규모의 조사를 하고 그 결과를 문학적 어휘의 통계학적 연구로 정리하였다.
※ 피어슨과 율
19세기에는 흔히 모든 분포가 정규분포라고 생각했던 것 같지만 실은 그렇지 않았다. 19세기를 통해 확률적이라는 점을 제외한 모든 점에서 균일한 현상의 관측값은 정규곡선을 따른다고 믿었던 것이 사실이나, 케틀레, 포아송, 쿠르노 등이 정규성에 대한 검사법을 생각했던 것으로 보아 모든 사람이 정규분포로부터 시작했던 것은 아니다. 이러한 생각은 골틀, 에지워스를 거쳐 피어슨의 기운 곡선으로 발전되어 간다. 한편 사회현상을 분석하는 데에 있어서 율의 최소제곱법 적용은 혁명적이었다. 이는 많은 문제를 해결했고 20세기에도 계속해서 연구되고 있다.
▶ 현대 수리통계학의 시작
1. William Sealey Gosset (1876.6.13.-1937.10.16) England 화학자, 통계학자
1899년 더블린에 위치한 Guinness 양조장에서 화학자로 일하였다. 그는 술의 질을 관리하기 위하여 소표본에 적합한 t-test를 발견하였고 Monte-Carlo Method를 응용하여 t분포를 발견하였다.
1922-1934년 그는 양조장에서 통계 컨설턴트가 되었고 통계부서를 운영하였다. 그는 피셔, 네이만, 피어슨과 통계적 문제를 논의하곤 하였다.
2. Sir Ronald Aylmer Fisher (1890.2.17-1962.7.29) England
현대 통계학의 창시자로 인정받는 그는 어릴 때부터 수학에 천재였으나 지독한 근시로 수학적 문제를 머릿속으로만 풀었고 이것으로 나중에 소표본으로부터 얻어지는 표본분포를 유도하는데 중요한 기하학적 감각을 기르게 되었다.
1912년
이미 빈도곡선의 적합에 관한 논문을 발표하였고 전쟁직전에는 칼 피어슨과 만나 그와 그의 동료들을 괴롭혀 왔던 상관계수의 정확한 분포문제를 일주일만에 해결해 주었다.
1919년
칼 피어슨의 골튼 연구소와 존 러셀의 Rothamsted 연구소로부터 동시에 일자리를 제안받게 되었는데, 피어슨과의 논쟁으로 존 러셀의 제안을 받아들였다. Rotha- msted에 있는 동안 수리통계의 기초를 세웠을 뿐만 아니라 실험의 계획과 분석에 대한 근대적인 방법들도 발전시켰고, Rothamsted나 다른 곳에서 연구하는 사람들에 닥친 여러 종류의 많은 문제들을 다루는 방법들을 풍부하게 개발해 내었다.
1925년
'Statistical Methods for Research Workers'를 출간했는데 이것은 새로운 방법들에 대한 실용적인 안내서였다.
1933년
그는 유전학에 관한 연구업적으로 칼 피어슨의 우생학 교실을 물려받아 London University College의 골튼 교수가 되었다.
1935년
피셔는 The Design of Experiments를 출간하였는데 이 책에서 실험계획분야에 대한 그동안의 연구를 집대성하였다. (확률화 이론, 분산분석법, 요인실험, 교락의 개념, 공분산분석, 조합이론)
※ 수리통계학에서 그의 업적은
표본상관계수, 편상관계수의 분포를 유도하고, 충분성, 효율성, 일치성의 정의를 하였으며, 최우추정법으로 구한 추정량이 충분성을 갖는 경우 항상 효율통계량임을 증명하였고, 모수추정론, Maximum Likelihood Method, 통계량, 카이제곱분포의 자유도, 정보량, 귀무가설 등의 기본 개념을 정립하였고, 주요 통계량의 표본분포, 주요 귀무가설의 검정법, 베이즈 정리의 비판과 신뢰확률의 이론을 내세웠다.
3. Jerzy Neyman (1894.4.16.-1981.8.5) Moldavia
1921
-22년
농업실험에 관한 몇 개의 완전임의배열계획의 랜덤화에 대한 확률모형 논문을 발표했다.
1925년
폴란드 정부 장학금으로 영국 런던에 있는 University College로 유학하는 동안 고셋, 에곤 피어슨 등과 교제할 수 있었으며, 네이만과 에곤 피어슨의 10년(1928-1938)에 걸친 공동연구는 통계적 가설검정에 관한 문제들과 10개의 공동논문이 여러 학술지에 발표되었다. 두사람은 대립가설(귀무가설 이외의 가설:고셋)하에서와 귀무가설하에서의 관찰된 표본에 대한 최대우도의 비를 구하는 우도비기준을 고려하여 여러 통계검정방법들에 대해 통일된 논리적 근간을 마련하게 된다. (네이만-피어슨 정리) 이들은 1928년에 발표한 논문에서 두가지 종류의 오류, 검정력, 단순 또는 복합가설 등을 포함한 주요개념들을 소개한다.
1938년
미국의 농림부와 몇 개의 대학에서 강연을 성공적으로 마친 후 그는 버클리 대학 통계학 교수(수학과 소속)로의 제안을 받아들여 그 해에 통계연구소를 세웠고
1945-1970년
세계 각지로부터 통계학자들을 초청하여 'Berkeley Symposia on Mathematical Statistics and Probability'를 전후까지 매 5년마다 6회에 걸쳐 주관하였다. 이는 현대 통계학의 발전에 중요한 결과들을 제공하고 있다.
1955년
그를 학과장으로 하는 통계학과 가 발족하게 된다.
1956년
학과장직에서 물러나 여생을 버클리 대학 통계연구소장으로 연구활동에 전념하게 된다.
※ 현대 통계학에 대한 네이만의 공헌은 지대하다. 그의 연구업적은 이론 통계학의 근간이 될 뿐 아니라 농학, 천문학, 생물학, 기상학 등을 포함한 여러분야에 있어서 통계학의 정확한 사용을 제시하고 있다. 그가 지향했던 바는 문제에 대한 해답만 이라기보다는 우리가 알고자 하는 바를 어떻게 구하는가 하는 데 있었다. 이에 대한 Le Cam은 피셔가 많은 통계적 방법을 제안한 공로가 있는 반면 네이만은 통계적 사고의 바탕을 제공하였다고 술회했다.
▶ 현대 수리통계학의 발전
1. Henry Scheffe (1907.4.11.-1977.7.5) USA
1941년
쉐페는 수학자에서 통계학자가 되었다.
그는 통계학분야중 수학에 관심이 있었는데 특히 Optimal Properties에 관심이 있었으며 the Neyman-Pearson theory를 Best Similar Test로 확장하였다.
1943년
비모수통계량에 관해 전반적으로 연구하였으며
1950년
선형모형 특히 분산분석을 연구하였다.
1953년
여생을 보낼 Berkeley대학의 통계학 교수가 되었다.
'모수공간의 부분공간에서 추정가능한 함수의 Simultaneous Confidence Inter- vals를 구하는 S-Method'에 관한 논문을 발표하였다. 또한 쌍체비교 등의 분산분석을 연구하였다.
1958-63년
혼합실험에 관한 논문을
1959년
통계학에서 가장 눈부신 업적인'The Analysis of Variance'라는 책을 출판하였다.
1973년
'Calibration Methods'에 관한 논문을 발표하였다.
1977년
그가 사고로 죽을 때 'The Analysis of Variance'의 개정판을 준비하고 있었다.
2. John Wilder Tukey(1915.6.16.-) USA
화학에서 석사, 수학에서 박사학위를 딴 튜키는 2차 세계대전동안 the Fire Control Reserch Office에서 일을 하였고 이를 계기로 통계학을 연구하게 되었다. 1945년 제2차 세계대전이 끝난 후 튜키의 통계학적 능력이 인정되어 수학과에서 통계학을 가르치게 되었다. 튜키는 이것에 만적하지 않고 the AT&T Bell Laboratories에 가입하였다. 통계학에서 튜키의 최초의 중요한 업적은 시계열의 Spectra의 추정을 위한 현대 기법을 소개했다는 것이다. 1965년 J.W.Cooley와 공동으로 연구하여 Mathematics of Computation이라는 논문을 발간했는데 여기서 Fast Fourier Transform Algorithm을 소개하였고, 튜키는 분산분석과 1요인 실험에서 모수의 집합에 관한 Simultaneous Inference를 연구하였다.
3. David George Kendall(1918.1.15-) England
켄달은 응용확률론과 자료분석분야에서 최고의 실력가였다.
그는 확률적 기하학과 그의 응용 그리고 Statistical Theory of Shape에 대한 논문을 썼다. 최근의 작업은 'How to look at objects in a five-dimensional shape space(1994-95)' 'The Riemannian Structure of Euclidean shape spaces: a novel environment for statistics (1993)'이다. 뛰어난 교수인 켄달은 여러 곳에서 강의를 하였고, 여러 단체에서 회장직을 맡았으며, 여러 학교에서 명예박사학위도 받았다.
켄달은 다음 작업의 공동저자이기도 했다.
Mathematics in the Archaeological and Historical Sciences (1971)
Stochastic Analysis (1973)
Stochastic Geometry (1974)
Analytic and Geometric Stochastics(1986)
4. Wilcoxon
살충제를 연구한 생화학자. Two-Sample Tests의 비모수적 방법 연구
5. Kruskal Walis
ANOVA의 비모수적 방법을 연구한 경제학자
6. Spearman
상관계수의 비모수적 방법을 연구한 심리학자
7. Dunnett
살충제를 연구한 생화학자 Control Groups에 대한 다중비교를 연구
8. Keuls
다중비교를 연구한 농업경제학자
▶ 출처
허명회, 1991, 統計學史 콜로키움, 자유아카데미
Stephen M.Stigle, 1986, The History of Statistics, Belknap Harvard
정한영, 통계학사 개론, 1995, 한림대학교 출판부
***
통계의 역사는 왜 필요한가?
지금껏 우리는 통계학을 다른 학문의 연구결과를 뒷받침해주는 보조적인 학문으로만 인식해 왔다. 이에 통계의 역사를 체계적으로 배우고 익힘으로써 통계가 다른 여러 학문의 발전에 지대한 공헌을 했고 자연과학의 위상을 높여줄 철학적 근거를 제공할 학문임을 알고자 한다. 또 이러한 통계의 역사를 통해 통계의 중요성을 올바르게 인식하여 오늘날 통계의 본질을 제대로 파악하지 못한채 다른 학문과의 통합을 시도하려는 사람들에게 통계인으로서 통계학 자체로서 중요한 학문임을 논리적으로 설득할 수 있어야 할 것이다. 통계의 역사에 대해 살펴보기 위해 먼저 역사에 대해 생각해 보자.
역사란 역사가와 사실사이의 상호작용의 부단한 과정이며 현재와 과거 사이의 끊임 없는 대화이다. 또 본질적으로 현재의 눈을 통하여 현재의 관점하에서 과거를 본다는 데에서 성립된다. 역사의 기능은 여러 가지로 생각해 볼 수 있다. 과거와 현재를 이어주고 과거를 통해 현재를 반성하고 미래를 예측할 수 있으며 무엇보다 우리의 뿌리를 알게 해준다는 자체만으로도 중요한 의미를 지닌다.
역사도 과학처럼 일반화를 통하여 역사로부터 교훈을 얻는다. 역사로부터 교훈을 얻는다는 것은 단순한 일방적인 과정이 아니라 과거의 빛에 비추어 현재를 배우고 동시에 현재의 빛에 비추어 과거를 배운다는 것을 의미한다. 즉, 역사의 기능은 과거와 현재간의 상호관계를 통하여 양자에 댛나 보다 깊은 이해를 북돋아 주는데 있다.
이러한 역사를 후손에게 전달해야 하는 의무를 지닌 역사가의 주임무는 단순히 기록에 있는 것이 아니라 기록될만한 가치있는 것이 무엇인지 평가하고 이를 남기는 것이다. 역사가 또한 인간이기에 자신의 입장에 따라 주관이 다르게 반영되는 것은 어찌할 수 없는 일이지만 권력에 휘둘려 왜곡된 정치논리로서 역사를 평가한다거나 자국의 이익 또는 자신이 속한 집단의 이익을 위해 역사를 잘못 해석하는 일이 없도록 양심에 비추어 최대한 객관적이고 사실적으로 기술해야 할 것이다. 카아는 역사가란 이래 행동을 위한 타당하고 유용한 일반적이 지침을 마련할수 있다고 하였는데 이는 미래의 불확실성에 대한 귀납적 논리 즉, 추론을 하는 학문을 하는 통계학자와 유사하다고 할 수 있다.
그렇다면 통계의 역사는 어디에서 시작해야 할까?
통계학의 학문적 기초는 옛부터 존재했다. 고대 이집트, 그리스, 로마등의 제국에서 이미 인구, 농지등 수량적 조사나 관찰을 통해 통계를 실천하고 있었고 근대 국가에서는 경지면적, 인구수, 납세에 대한 급부능력을 조사하여 통치권자에게 국가경영정보를 제공하였다. 그러나 이때까지는 의미적으로 통계가 사용된 것이지 통계학이 존재하지 않았다.
Statistics는 이태리어인 stato(state)가 어원이다. 특히 statistica는 국가의 업무를 관장하는 사람을 일컫는 말이었다. 따라서 통계(statistics)의 근원적 의미는 stistica에 관심이 되는 사항을 모은 것이었다. 이 의미는 19세기 초 사라지게 되고 여기에 확률의 의미와 수학적 사고가 가미되어 사실상 기술통계학이 발생하게 되는 것이다.
확률론은 17세기 유명한 수학자인 Blaie Pascal(1623-1662)과 Pierre de Fermat (1601-1665)이 도박꾼의 파산에 대한 기대값을 구하는 문제에 대해서 주고받은 7통의 편지를 통해 게임의 법칙을 발견하게 되고 수학적인 배경을 가지는 확률론이 탄생하였다.
이외에도 1662년 John Grunt(1620-1674)는 런던시청에서 발표한 사망자표를 수십년간 모아 정리하고 분석하여 보고서를 발표했는데 이는 최초의 기술통계적분석으로 평가받으며 이후 이를 본딴 Pretty's Political Arithmatic(1690), Halley's Estimate(1693), Gregory king's observation(1696)와 아이슬랜드에서는 현대적 의미의 총인구조사가 1703년에 있게 되는데 이런 일련의 조사과정을 통계라고 불렀다. 또 Karl Pearson(1978)에 따르면 J.Sinclair(1793)는 그의 보고서에서 현대적 의미의 통계(statics)라는 용어를 첫사용하고 있다고 하였다.
일반적으로 오늘날의 통계학은 독일대학파로부터 명칭을 계승하고 영국의 정치산술파로부터 내용을 받아들인 것으로 평가한다.
영국의 정치산술파는 사회현상에 "대량 관찰의 방법"을 적용하고 수적자료를 기초하여 인과관계를 규명하였으며 국가의 형식적인면 대신에 사회경제의 실질적인 면의 수량적인 관찰과 해석을 주 내용으로 다루었다.
독일의 대학파는 기술에 역점을 둔 "국가 현저 사항"으로 국가의 번영을 좌우하는 사항을 연구하는 국가학 정립에 관심을 갖고 통계학을 국가학의 일부라는 생각이 유행했다. 그러나 기록하고 비교하고 문서화하는데 치중하고 수량화에 인색하여 영국의 정치산술파와 관점의 차이를 보였는데 이는 영국이 경험론적 현실 기반위에 늘 관찰하는 인식론이 지배하는데 비해 독일은 유럽의 사상을 떠맡고 늘 새로운 패러다임을 제공하는 순수 철학적 기반에서 그 사고가 출발하였기 때문이다.
과학과 철학에서의 통계적 사고
통계적 사고란 자연과 사회적 현상을 고나찰하고 관찰된 것에 대한 정보나 자료를 수집하고 이를 분석하여 자연과 사회의 현상을 예측하는 것을 말한다.
근대 통계의 발생지로 지목하는 영국의 정치산술파와 독일의 대학파의 예에서 보듯이 통계학의 관점의 차이는 이들 국가가 추구하는 철학적 인식론에 기인하고 이렇게 통계학을 바라보는 눈을 결정짓는 철학은 모든 과학의 바탕이 되기도 하였다. 엄밀히 따져 과학과 철학은 구분이 된다. 과학은 언제나 대상이 되는 사물 자체의 성질, 법칙을 찾고 주어진 사물을 그대로 성명 기술하며 사실을 사실대로 전하여 주면 되지만 철학은 항상 인간이 중심이 되어 그것들의 본질과 의미를 제공하고 그 사물을 이해하며 그 내용의 가치와 의미를 찾아야 한다. 즉, 주어진 사물과 사실들을 오히려 수단, 재료로 하여 스스로의 견해와 해석을 내려야 하는 것이다. 그러나 과학이 제공하는 사물에 대한 직접적인 지식을 한번 더 자기의 것으로 높이 자각하는데 철학이 쓰였다. 따라서 과학은 사물에 대한 직접적인 학문을 세우고 철학은 자각의 학문을 세운다고 볼 수 있다. 여기에 덧붙여 대상인 사물에 대한 변화를 예측하고 방향을 제시하는 학문이 필요한데 이것이 통계학일 것이다.
고대 철학에 대하여...
고대 철학은 B.C 600년 경 그리스 로마 시대에 세계의 생성에 관심을 두면서 시작되었다. 최초로 신화적인 세계관을 벗어난 탈레스의 물(모든 움직이는 근본 물질은 물로 모든 물질은 물에서 나서 물로 간다), 아낙시만드로스의 무한자(물질의 근원은 추상적인 어떤 것으로 가시적인 하나의 물질이 아니다), 피타고라스의 수(모든 사물의 본질적인 관계는 수학적 관계와 질서에 의해 이루어진다), 헤라클레이토스의 불(물질의 근원은 불이다)이 대표적이다.
고대철학의 흐름에 대해 간략히 정리해 보자.
그리스가 펠로폰네소스 전쟁(BC 431-404)에서 승리한 후 아테네 중심의 새로운 사회질서와 함께 인간 중심의 자신감 있는 사고의 정립 주창.
소피스트 : 인간, 자연 중심의 철학 주장. 지혜, 진리보단느 인간의 영리함을 가르쳤고 개인주의 팽배.
소크라테스(BC 466-366) : 도덕적 인격의 완성을 역설. 인간의 인성론 주창. 청소년들에게 엉뚱한 것을 가르친다 하여 기득권의 입김에 의해 사형.
아리스토텔레스(BC 384-322) : 소크라테스의 제자. 삼단논법. 신적인 우주관 선호. 학교를 설립하여 가르침에 열중.
플라톤(BC 427-347) : 소크라테스의 제자. 학교를 설립하여 가르치는데 열중.
중세 철학에 대하여...(AD 300-1400)
고대철학인 그리스 철학에서는 불완전한 인간의 연장선에서 완전한 의미의 신이 존재하였는데 중세 철학에서는 근본적으로 동질적인 선상에서 절대신의 존재를 믿으나 이 시기의 문제는 신이 원죄의 주체로서의 인간을 구제하기 위해 신인으로 예수를 인간세계에 보냈다는 것이다.
종교적 자연관이 유행 :
우주의 중심에 지구가 있다는 우주관이 자리를 잡고 그밖에 신의 세계가 있다는 생각. 이는 지상계-천상계-신의 세계, 자연철학-형이상학-신학으로 구분하는 인식론으로 사회적으로 인간-교회-신, 평민-귀족-왕, 장인-길드-고객으로 구분하는 구조를 가능하게 함. 이런 분업화된 사회구조는 정치, 경제, 행정의 발달을 가져왔고 15세기 항해의 발달과 더불어 고대부터 사용해오던 부정확한 달력인 줄리우스력의 개혁을 가져옴. 그러나 이는 후에 이러한 사회적 구조에 저항하는 루터의 종교개혁으로 이어진다.
신플라톤주의 :
지구가 우주의 중심인 아리스토텔레스의 우주관을 배격. 이 시기에 천문학적 계산을 위해 관측자료등 숫자와 수학을 중시하였는데 이 주의의 신봉자인 코페르니쿠스를 거쳐 그의 체계를 수용한 케플러나 갈릴레오도 신플라톤주의자. 이들은 근대 자연과학의 부흥을 도왔고 근세 철학의 한자리에 서있게 된다.
근대 철학에 대하여...
15-17세기는 신앙과 이성 신학과 철학의 분리로 시작되어 인간 중심의 근대 자연 과학의 부흥이 있었고 중세의 아리스토텔레스와 플라톤주의, 수학, 연금술, 마술 등 어떤 지식을 믿고 받아들여야 하는가하는 지적 권위가 존재하지 않는 지식의 위기에 빠진 시기이다.
베이컨의 경험론
<등장 배경>
a.
학문이 수동적인 태도로 책과 이론을 위주로 하여 철저히 이론적, 수학적 형태로 남아 있는 동안 마술과 연금술에 종사하는 사람들은 자연에 대해 적극적이고 능동적인 태도를 지녀 마술등을 믿기 시작하는 헤르메티시즘이 유행한다.
b.
경제 활동과 부의 증대, 그에 따른 도시의 발달과 중앙 집권적 왕정의 확립등의 영향으로 실제적인 기술을 가진 장인들의 필요성의 증가하며 이들의 실용적, 기술적, 지적 지위가 상승한다.
<과학 타락의 원인(네가지 우상)>
a. 종족의 우상 :
인간은 본래 감각의 불완전성을 가진 종족. 이성이나 도구를 사용하여 이를 극복
b. 동굴의 우상 :
평생을 동굴에서 살던 사람이 세상에 나왔을 때 개인의 주관이나 선입견을 가지는 폐단. 이는 개인의 자질, 교육과 습관, 우연한 환경에 기인. 여러사람들과 협동하고 상호비판을 통하여 극복.
c. 시장의 우상 :
시장에서 사물들에게 적절치 못한 단어나 이름을 붙여 사용하는 언어의 폐단에서 생겨 사물의 이해를 방해하는 것. 언어나 말 대신 실제 물체와 현상에 의지하기 위해 실험을 통해 극복.
d. 극장의 우상 :
학문의 체계나 학파에 매이는 폐단.
→ 이러한 우상을 극복하기 위해 귀납적 방법을 제안.
데카르트의 합리론
<등장 배경>
인간을 둘러 싸고 있는 모든 물질과 이로부터 구한 모든 진리를 부정하는 극단적이 회의론을 반박하기 위해 인간이 실제 외부세계에 대한 참된 진리를 얻을 수 있다고 하는 신독단론으로부터 데카르트의 인식론이 시작된다.
<방법적 회의>
인간의 사유의 제1원리를 "나는 생각한다. 그러므로 나는 존재한다"라 하고 사유의 제1원리에서 출발하여 모든 보편적 진리를 연역하고자 하였다.
<회의론>
비합리적이고 우연적인 것을 배척하고, 이성적, 논리적, 필연적인 것을 중시하는 태도 또는 실천의 기준으로서 이성적인 원리만을 구하는 생활태도를 가리킬 경우도 있다. 감각적 경험론을 혼란된 것이라 경시하고 수학적 인식을 원형으로 하는 것과 같은 논증적 지식을 중시한다.
갈릴레오
<업적>
실험중에 사고 실험도 행했지만 대개 경험이나 상식에 의존하였고 실제 실험도 수행.
금성의 모양 변화 관찰.
목성의 주위를 회전하는 4개의 위성 발견.
Dialog:코페르니쿠스의 우주관을 지지. 이로 인해 유죄판결을 받음.
<통계적 분석>
·Dialog :
새로운 별의 관찰에 대한 자세한 통계적 분석 제공.
정확한 용어는 사용하지 않았으나 관찰상의 오차에 대해 기술.
→ 오늘날 확률 오차의 분포
거리에 대한 두 가설을 어떻게 비교할 것인지 논의.
르장드르(Adrien Marie Legendre, 1752-1833)의
최소제곱법
르장드르 한 개인에 의해서 최소제곱법이 제시되고 개발되었다기보다는 마이어의 달의 칭동에 관한 분석, 라플라스의 목성과 토성의 비 주기적인 기복현상에 대한 분석을 통하여 제시된 연구결과들에 의한 지식의 축적이 가져온 결실이었다. 즉 최소제곱법은 18세기 과학이 안고 있던 중요한 문제를 해결하는 과정의 연구들에게서 맺어진 산물이었다.
1.
마이어(John Tobias Mayer, 1723-1762)의 달의 칭동(libration)에 관한 연구 : 르장드르 형태의 방정식 (g, h, k)를 27번의 관측하였다. 이 방정식을 alpha 계수의 크기에 따라 9개의 방정식으로 구성된 세 그룹 I, II, III 으로 나누어 오차 개념(오차는 관측치 수에 반비례한다)을 도입하고 각 그룹별로 9개식으로 부터 구해진 미지수의 값은 9배 정확하여 오차를 줄일 수 있다고 생각한 그의 생각은 통계학의 역사에 큰 이정표가 되었다. 생각해 보면 '오차는 관측치수에 반비례한다'는 것은 지금은 당연하게 받아지고 있는 일이다. 이러한 결론을 얻기까지의 과정에 박수를 보내고 싶다.
2.
오일러의 경우 마이어와는 상반되게 오차의 크기는 관측치수에 비례한다는 입장에서 미지수을 구하려고 하였다. 즉, 자기가 정확하다고 생각하는 자료로 미지수를 구하고 나머지에 대입하는 것으로 천문학적으로 실패했다고 보았다.
3.
18세기 과학을 보면 천체에 대한 관심이 엄청 많았던 것 같다. 대부분 수학적 공식의 근원이 달의 운동, 목성과 토성의 운동에서 관찰되는 비주기적인 기복현상, 지구의 형태 등 우주에 관한 내용과 연관되어 있기 때문이다.
베르누이 가족(Bernoulli's Family)
통계학을 전공한 학생이라면 아니 통계학을 공부하지 않고 확률론이라는 과목을 배운 사람이라면 베르누이라는 이름을 들어보았을 것이다. 그러나 베르누이 가족이라니??
한사람이 아니란 말인가?? 정말 훌륭한 사람이 많은 집안이구나 감탄스러웠다.
Nicholas Bernoulli (1623-1708) 에게는 유명한 James(1654-1705), Nicholas(1662-1716), John (1667-1749) 세 아들이 있었다.
1.
이 중에서 야곱 베르누이는 1667년에 theology로 학위를 하고 철학, 수학, 천문학을 전공하였다. 1681년에는 두번의 해외 여행으로 네덜란드 와 영국을 돌아 보고 보일과 후크와도 교제하였다. 1687년에는 수학교수가 되었고 조카인 Nicholas (1687-1757)와 동생인 John도 학생이었다 한다. 1690년에는 라이프니츠, 호이켄스와 교분을 나누었고 함께 오늘날 [미,적분]형태를 개발 갈릴레오, 케플러로 부터 시작된 과학의 수학화는 체계적이고 공식화되어 이루어 진다. 특히 확률론에 끼친 그의 업적은 대단히 중요하다.
2.
여기서 야곱 베르누이의 생각을 정리해 본다
한 사건(event)의 상대돗수는 적은 관측치 보다는 많은 관측이 있다면 참에 가깝다. 이는 사건의 알지 못하는 비율에 대하여 증거를 축적하면 할수록 그 비율에 대하여 더욱 확실한 지식을 얻을 수 있다는 점이다.
베르누이의 대수의 약법칙(Poisson이 1837에 이를 수학적 체게를 갖추어 정리하고 완성)
: n번 독립시행에서 각각 성공할 확률을 P라 하자.
Sn = 성공 횟수, Sn / n = 상대 돗수라 하면
n을 충분히 크게하면 p안에 들어 올 것이다라는 생각은 추론의 한 방식을 제공한다.
NOTE)
확률론의 수리적 전개의 예는 17세기 말 Game of chance으로 알려지기 시작 Given r red balls and w white balls, what is the prob. of observing...?
붉은 공이 꺼내질 확률 = 사전확률.
미지의 상자에서 반복해서 공을 꺼낼때 공의 비율을 추정 = 사후확률.
갑, 을 주머니로 부터 100원이 나왔을 확률
드모아브러(Abraham De Moivre, 1667-1754)의 정규근사
정규근사의 유용성과 중요함은 익히 배워 잘 알고 있었다. 분포를 공부하면서부터 나오기 시작한 정규근사를 모른다면 말이되지 않을 것이다.
1.
X ~ B(n, 1/2)라 하면
(X = n/2) =~ sqrt(2/3.14n) ⇒ 대표본근사
P(X=n/2 + k) ~ N(0, n/4): Karl pearson(1926)은 정규곡선의 원조로 간주하였으나 드모아브러가 확률밀도함수 개념을 개발한 것은 아니다.
1733년에 P(|x-n/2|<=k), k=sqrt(n)/2, sqrt(n), sqrt(n)3/2에 대한 확률을 구하였다. ⇒ 이항분포에서 정규근사로의 최초라고 볼수있다.
2.
어떠한 확률(P)의 추정치(hat P)이 있다고 보자. P에 hat P가 얼마나 정확한가? 추정치로 얼마만큼 P를 신뢰할수 있나? 라는 문제가 있었지만 이에대한 직접적인 대답은 줄수 없었다.
토마스 심프슨 (Thomas Simpson, 1710 - 1761)
재미있는 토론이 많았던 수업으로 기억된다. 지금 생각해 보면, 심프슨의 업적보다 그의 파란만장한 생애에 대한 이야기만 어슴프레 기억난다. 직공의 아들로 태어나 14세에 이웃마을 Mrs.Swinfield가 경영하는 하숙집에 기거하게 된다. 14세라면 참 어린나이인데 나이에 비해 많이 성숙했었던거 같다. 더욱 놀라운 사실은 19세에 하숙집 주인인 Mrs.Swinfield와 결혼을 하게된다. 무려 35세나 차이 나는 연상인 그녀와 말이다. 평범한 삶을 살았던 사람은 아닌 것 같다. 그런데 뭔지모를 매력을 느끼게 된다. 그의 삶에 대해 말이다.
1.
Statistical error theory 에 중요한 기여를 하느데 같은 조건하에서 실험을 반복할 때 실험을 더 많이 하면 할수록 결론의 오차율은 줄어든다라는 사실을 기술하였다. 증명없이 제시된 이 "대수의 법칙"은 천문학자들로부터 공감을 얻었다.
2.
3개의 독립된 관측치들의 가능한 크기의 오차는 -v, -v +1,…, -3, -2, -1, 0, 1, 2, 3,…, v로 나타낼 수있는데 궁극적으로 심프슨의 관심은 모든 오차의 분포는 0에 대하여 대칭인 형태이고 1 2 3 4 5 6 5 4 3 2 1 -5 -4 -3 -2 -1 0 1 2 3 4 5 에 비례한다라는 것이었다.
3.
6개 오차들의 평균과 1개의 오차의 절대값이 특정한 값보다도 작을 확률은 특정한 값의 크기를 증가 시킬수록 점점 중심으로 많이 몰린다는 사실을 밝혔다.
이는 근세 추론의 시작을 알리며 여기에 1755 Thomas Simpson과 1764 Thomas Bayes가 있었다.
라플라스(Pierre Simon Laplace, 1749-1827)의 중심극한정리(Central Limit Theorem)
1.
Pierre Simon Laplace(1749-1827)는 확률의 추론에 대한 4권의 저서를 남겼다. 이 중에서 18세기 수학적 확률론의 역사에서 가장 의미있는 연구로
1773년 Memoir on the probability of the Causes of Event
1780년 Memoir on Probabilities
2.
심프슨(1775)이후 독립적으로 진행된 오차의 확률분포에 대한 그의 관심은 우연하게도 O를 관찰, P를 관찰된 대상, E를 오차라 하면
O = P + E
의 관계를 맺게 되어 만약에 오차의 분포가 확률적으로 대칭이면 O와 P의 분포도 구할 수 있다는 생각을 정리 했다.
3.
이 생각은 결과에 대한 원인을 추정할 수 있는 "Inverse Inference"를 낳게 했고 1774년에는 원인의 확률이 사전에 균등하게 주어졌을 때 베이즈 정리의 특수한 경우를 제공 했다.
즉, C1, ..., Cn 을 원인이라 하고 E를 관심을 갖는 사건이라 하면
P(Ci|E) = P(e|Ci)/sigmaP(E|Cj)
를 나타낸다. 이는 오늘날 베이즈 정리에서 P(Ci) = 1/n, (모든 i에 대해서)를 적용한 것과 같다.
4.
1772년에서 1774년에 걸쳐 그는 시간의 축에서 세 시점에서 관측된 사건의 실제 일어난 시간 t를 찾는 문제에 몰두하였다. 그는
관측치가 t 로부터 x 만큼 차이가 날 확률 = f(x)
를 오차곡선이라 하고 이 함수를 어떻게 찾을 것인가에 관심을 기울였다. 특히 이 곡선의 성질은
◎ t 에 대해서 대칭이고
◎ 끝으로 갈수록 감소하며
◎ 곡선 아래의 면적은 1이라는 조건을 만족해야 한다고 하였다.
실제 그의 문제는 1774년 f(x)=m/2exp(-m|x|)인 Laplace distribution으로 결실을 맺었고 오늘날 이중지수분포(Double Exponential Distribu- tion)라 불려진다.
5.
Laplace의 확률론에서의 중요업적중 중심극한정리는 통계학에서 백미로 곱을 수 있다. 1810 년 4월 9일 아카데미에서 발표하였는데 De Moivre의 극한정리의 일반화로 어떤 합이나 평균은 n 이 크다면 정규분포로 근사한다는 사실이었다.
Gauss-Laplace 의 만남
1.
1809년 Carl Friedrich Gauss (1777-1855)는 The Theory of the Motion of heavenly Bodies Moving about the Sun in Conic Sections 에서 행성의 궤도에 대한 연구를 마이어 등에 의해서 이미 행해진 연구와 같은 방향에서 접근하였다.
2.
행성 궤도에 관한 미지의 방정식과 직접적인 관측치 간의 차는 오차 E 로 이들에 대한 확률값 f(E) 는 곡선을 이루며
f(E) = h/sqrt(3.14) exp(-h*h E*E), h>0
임을 찾아낸다. 여기서 h 는 관측값의 정도에 대한 척도로 이 곡선을 Normal 혹은 Gaussian Curve 라 불렀다. 더군다나 이 곡선을 정립하는 과정에서는 일찍이 1774년에 Laplace 가 오늘날 베이즈 정리에 대한 그의 버전을 제시한 이론을 이용하였다.
3.
1810년 4월 Laplace 는 Gauss 의 이 논문을 보고 큰 충격을 받는다.
1) 1811년 그는 Gauss의 결과를 통해 극한정리와 선형추정사이에 관련성이 있음을 깨달았고 1774 년의 그의 결과와 접목하여 더욱 Gauss의 생각을 발전시켰다.
2) 그의 생각은 "The most advantageous method"로 불렸고 여기서 이를 잠깐 엿본다면 오차들의 가중선형함수를 이루는 미지의 모수 추정량은 다음의 성질을 가진다.
◎ 근사적으로 정규분포이고
◎ 이들 추정량 중에서 최소자승추정량은 가장 작은 기대오차를 갖는다.
4.
12년후 Gauss 는 Laplace의 이 이론을 한층 발전시켜 선형결합을 갖는 것 중 가장 작은 분산을 갖는 "최소분산 선형불편추정량 (BLUE)"을 가진다는 Gauss-Markov 정리를 제공하게 된다.
근대와 현대 통계학사- 19세기 이후 통계학자와 그들의 연구 및 업적
Quetelet(Lambert Adolphe Jacques Quetelet:1796~1874)
생태학에 통계학적 분석을 처음으로 적용한 천문학자
처음으로 정규곡선을 오차이론으로 사용
평균인의 개념 도입(평균인의 개념: "개개인을 많이 관찰하면 할수록, 일반적인 사실이 큰 영향을 미치게 되어 개개인의 특성은 신체적으로 또는 도덕적으로 사회에 종속하게 된다")
Galton(Francis Galton:1822~1911)
진화,유전등의 생물현상 연구(우생학)
통계학 분야에서 두가지 이론을 발전시킴
→ 첫째, 정규분포의 혼합이 다시 정규분포이다.
둘째, 나중에 회귀라고 불리게 되는 반전이라는 개념을 전개하였다.
k. Pearson(Karl Pearson:1857~1936)
유전법칙의 타당성 검증하는 과정에서 통계적 방법 산출
→ 표준편차,평균편차,mode라는 용어 사용
갈통의 창의에 의한 상관관계를 최종하여 중상관을 완성, 카이제곱 분석 개발
Biometrika journal 창립(1901년)
Yule(George Udny Yule:1871~1951)
선형회귀성을 이용한 상관계수 측정법 사용
처음으로 문체측정의 분야에 통계적인 또는 확률론적인 개념 대폭 도입
문체의 통계에 대한 대규모의 조사를 하고 그 결과를 문학적 어휘의 통계학적 연구로 정리
Gossett(William Sealey Gosset:1876~1937)
양조과정연구에서 소표본에 관한 문제를 statistics community에 제기 Student's test 개발
'소표본 이론'의 발단 제공
Fisher(Sir Ronald Aylmer Fisher:1890~1962)
수리통계의 기초 세움 → 표본상관계수, 편상관계수의 분포 유도
충분성, 효율성, 일치성의 정의
최우추정법으로 구한 추정량이 충분성을 갖는 경우 항상 효율통계량임을 증명
회귀계수의 추정치를 표준오차의 추정치로 나눈 것이 t분포를 따름을 증명
모수추정론, Maximum Likelihood Method, 통계량, 카이제곱분포의 자유도, 정보량, 귀무가설 등의 기본 개념, 주요 통계량의 표본분포, 주요 귀무가설의 검정법, 베이즈 정리의 비판과 신뢰확률의 이론
실험의 계획과 분석에 대한 근대적인 방법들 발전시킴 →교락, 요인 실험 개념 도입
피어슨과 피셔는 오랫동안 논쟁을 하였다. 피어슨은 대표본을 사용하여 상관을 없애려고 노력한 반면 피셔는 상관을 감소시키기 보다 소표본을 사용하려고 했다.
Neyman과 E.S.Pearson
당시의 유의성 검정은 직관적으로 고른 검정통계량들의 값에 근거한 여러 규정에 의해서 기각영역들을 비교하여 결론을 내렸다.
이에 반해 에곤 피어슨은 어떤 통계량을 사용해야 하는지에 대한 기준여부에 흥미를 느끼게 되었고 고셋에게 Student t검정에서의 기각에 대해 어떤 해석이 가능한지 물었다. 고셋은 "귀무가설외의 '다른 어떤 가설'이 관찰된 결과에 대해 더 높은 확률로 설명할 수 있다."고 대답하였다.
'다른 어떤 가설' 즉 대립가설은 새로운 개념이었으며 곧 대립가설하에서와 귀무가설하에서의 관찰된 표본에 대한 최대우도의 비를 구하는 우도비기준을 고려하게 되었다. 이에 에곤 피어슨은 네이만의 협조를 구하게 되었고 두 사람은 피셔와 고셋에 의해 제안된 여러 통계검정방법들에 대해 통일된 논리적 근간을 마련하는 연구를 1926-33에 걸쳐 이룩하게 된다.
이들은 1928년에 발표한 논문에서 두 가지 종류의 오류, 검정력, 단순 또는 복합가설 등을 포함한 주요 개념들을 소개한다.
Scheff(Henry Scheff:1907~1977)
쉐페의 가장 큰 업적은 1943년의 비모수통계량에 관한 전반적인 재고찰과 1959년에 출판된 'The Analysis of Variance'라는 책이다
Wilcoxon
살충제를 연구한 생화학자 two-sample tests의 비모수적 방법 연구
Kruskal, Wallis
ANOVA의 비모수적 방법을 연구한 경제학자
Spearman
상관계수의 비모수적 방법을 연구한 심리학자
Kendall(David George Kendall:1918~)
상관계수의 비모수적 방법을 연구한 통계학자
켄달은 응용확률론과 자료분석분야에서 최고의 실력가였다. 확률적 기하학과 이것의 응용 그리고 statistical theory of shape에 대한 논문을 썼다. 최근의 작업은 'How to look at objects in a five-dimensional shape space(1994-95)'와 'The Riemannian structure of Euclidean shape spaces: a novel environmentfor statistics (1993)'이다.
Tukey(John Wilder Tukey:1915~)
시계열의 spectra의 추정을 위한 현대기법을 소개
분산분석과 1요인 실험에서 모수의 집합에 관한 simultaneous inferences를 연구
1965년 Mathematics of Computation에 논문이 발간했는데 여기서 fast Fourier transform algorithm을 소개.
Dunnett
살충제를 연구한 생화학자
control groups에 대한 다중비교를 연구
Keuls
다중비교를 연구한 농업경제학자
Computer Technology
수작업과 계산기에 의한 계산의 복잡성을 극복
imulated the growth of investigation into new techniques
***
<1> 통계학사의 의의
▶
18세기 말엽에 과학이 세계에 과한 인간지식과 인간자신의 생리적, 이성적 속성에 관한 지식에서 눈부신 공헌을 하면서, 서양의 역사는 과학의 일부로 밖에 생각되지 않았다. 다만 이 시기에 "과학이 사회에 대한 인간지식도 증진시킬 수 있을까"라는 의문이 사회과학의 일부로 역사가 19세기를 거치면서 형성, 발전되었다. 역사란 역사가와 사실 사이의 상호작용의 부단한 과정이며 현재와 과거사이의 끊임없는 대화이고, 본질적으로 현재의 눈을 통하여 현재의 관점하에서 과거를 본다는 데에서 성립된다. 카아는 역사도 과학처럼 일반화를 통하여 '역사로부터 교훈을 얻는다'고 말했다. 그러므로 우리는 역사에 대한 올바른 인식과 평가를 하면서 통계의 역사가 왜 필요한지를 알 수 있고 통계학사를 역사와 과학과 도덕의 관점에서 살펴봄으로써 통계학이 자연 과학의 위상을 높여줄 철학적 근거를 가진 가공할 학문임을 느낄 수 있게 된다.
<2> 고대 및 중세 통계학의 흐름
1. 베이컨과 데카르트
16세기에 유럽 사회의 풍조인 지식의 위기, 지식의 혼동에서 그 당시 옳다고 믿었던 생각을 정리하고 주장한 영국의 베이컨과 대륙의 데카르트가 있었다. 이들의 인식론인 경험론과 합리론은 통계학의 모태가 되는 영국의 정치산술파와 독일의 대학파의 사상적 밑거름이 되었음은 분명하다.
2. 갈릴레오
갈릴레오(1632)의 프톨레마이오스와 코페르니쿠스의 체계를 논의한 Dialog는 1572년의 새로운 별의 관찰에 대한 자세한 통계적 분석을 제공한다. Dialog는 그 후에 E.Strauss(1891)와 S.Drake(1967)에 의해서 독일어와 영어로 각각 번역되었다. Dialog에서 오차나 확률, 분포라는 용어를 사용하지는 않았지만 관찰상의 오차(Observational Errors)에 대해 기술하고 있다. 이는 오늘날 확률오차의 분포 (Distribution of Random Errors)라 불러진다. 갈릴레오는 더 나아가 거리에 대한 두 가설을 어떻게 비교할 것인가를 논의함
3. 1805 르장드르(Adrien Marie Legendre, 1752-1833)
1632년 갈릴레오의 Dialog에서 제시된 확률오차의 분포에 대한 개념에서 시작하여 1805년 르장드르의 오차 제곱합을 최소화하는 최소제곱법이 등장하기까지는 170년 이상의 세월이 흘렀다. 르장드르 한 개인에 의해서 최소제곱법이 제시되고 개발되었다기 보다는 마이어의 달의 칭동에 관한 분석, 라플라스의 목성과 토성의 비 주기적인 기복현상에 대한 분석을 통하여 제시된 연구결과들에 의한 지식의 축적이 가져온 결실이었다. 즉, 최소제곱법은 18세기 과학이 안고 있던 중요한 문제를 해결하는 과정의 연구들에게서 맺어진 산물이었다. 마이어 (John Tobias Mayer, 1723-1762)는 달의 秤動(Libration)으로 달 표면의 60% 정도를 본다는 것을 주장했는데 이는 갈릴레오가 달의 회전축이 지구의 자전궤도와 수직이 아니라는 데 바탕을 두고 있었다. 그가 최종적으로 얻은 르장드르 형태의 방정식의 (g, h, k)를 27번 관측하였다. 이 방정식을 alpha계수의 크기에 따라 9개의 방정식으로 구성된 세 그룹 I, II, III으로 나누어 오차 개념(오차는 관측치 수에 비례한다.)을 도입하고 각 그룹별로 9개식으로부터 구해진 미지수의 값은 9배 정확하여 오차를 줄일 수 있다고 생각한 그의 생각은 통계학의 역사에 큰 이정표가 되었다.
4. 베르누이 가족 (Bernoulli's Family)
베르누이 가족은 바젤(Basel:스위스 서북부 라인강변의 도시)이라는 곳에서 상인, 정치가, 예술가, 언론인, 수학자, 과학자를 배출한 명문으로 확률론에 많이 기여하였다. 오늘날의 미, 적분형태를 개발 갈릴레오, 케플러로부터 시작된 과학의 수학화는 체계적이고 공식화되어 이루어진다. 특히 확률론에 끼친 그의 업적은 대단히 중요하다.
야곱 베르누이의 업적을 확률에 대한 수학적 이론의 효시이며 동시에 확률개념 출현의 끝이라 대단히 호평한다.
5. 1733 드 모아브러의 정규근사
그의 이항분포의 근사확률계산에 대한 업적은 1760년때 후반까지 응용이나 발전이 되지 않았다. 1738년 Doctrine of Chances, Life Table, Mathematical law of mortality 등 그의 많은 작업에 대한 논쟁이 있었는데 1752년 Simpson이 수정보완하여 "Observed life tables"을 펴낸다.
6. 1755 토마스 심프슨 Thomas Simpson (1710-1761)
직공(Weaver)의 아들로 1710년 8월 20일에 태어났으며, 1775년 특히 Statistical Error theory에 중요한 기여를 하는데 "같은 조건하에서 실험을 반복할 때 실험을 더 많이 하면 할수록 결론의 오차율은 줄어든다"라는 사실을 기술하였다. 증명없이 제시된 이 "대수의 법칙"은 천문학자들로부터 공감을 얻었다. 이는 근세 추론의 시작을 알리며 여기에 1755년 Thomas Simpson과 1764년 Thomas Bayes가 있었다.
<2> 근대 통계학의 흐름
1. 라플라스 (1749-1827)
심프슨 이후 독립적으로 진행된 오차의 확률분포에 대한 관심은 "Inverse Inference"를 낳게 했고 결국 1774년 베이즈 정리의 특수한 경우를 제공했다. 또한 1772년에서 1774년에 걸쳐 이중지수분포(Double Exponential Distribution)을 완성했다. 그의 확률론에서의 업적 중 백미는 뭐니뭐니해도 "중심극한정리"이다. 이는 1810년 4월에 발표되었으며 드 무아브르의 극한정리를 일반화한 것이다.
2. 가우스(Carl Friedrich Gauss, 1777-1855)
그는 1809년 행성의 궤도에 대한 연구에 확률적 개념을 도입하였다. 그가 발표한 논문을 라플라스가 보고 극한 정리와 선형추정 사이에 관련성이 있음을 깨달았고 라플라스는 이를 더 발전시켰다. 그리고 12년 후 가우스는 라플라스의 이 이론을 진일보시켜 Gauss-Markov정리를 제공한다.
3. 케틀레
그는 통계학을 사회현상에 접목시키려 애썼다. 그의 두가지 시도로는 평균인과 분포의 적합을 들 수 있다. 처음 케틀레는 평균인을 물리적인 중심의 대응하는 것으로 생각했으나, 1846년부터는 사회의 중심으로서의 역할을 하는 것으로 생각했다. 라플라스의 중심극한 정리를 응용하여 어느 정도로 범주를 나누었을 때 그 자료를 동질적이라고 판단할 수 있는지를 정규곡선을 통해 알아보려고 했으나, 이는 몇가지 오류를 가지게 된다.
그의 오류는
첫째, 관찰치들이 정규곡선을 따른다고 해서 동질적이라고 할 수 없다.
둘째, 주어진 자료를 어떻게 정규곡선에 적합시키는가.
셋째, 어떻게 정규곡선에 적합되었는지를 판단할 것인가
하는 것이다.
<4> 현대 통계학의 흐름
1. 갈톤(Galton, 1822-1911)
갈톤은 진화, 유전 등의 생물현상 연구(우생학). 진화론 중 특히 유전현상에 많은 업적을 남겼다. 그의 저서로는 <유전적 본능과 천재(1854)>, <인류 능력의 연구(1883)>등이 있으며 이는 우생학의 탄생과 새로운 통계수리이론을 도입했다. 또한 그는 진화의 문제를 통계적으로 취급한 최초의 사람으로 이를 위해 다양한 방법을 도입했다.
2. 피어슨 (K.Pearson 1857-1936)
그는 생물통계학에 있어서의 연구수단을 추상화했으며 근대 기술통계학을 대성한 영국인이다. 그리고 동료 동물학자인 웰던과 협력하여 생물측정학을 수립하였다. 그의 대표적인 업적으로는 중상관(重相關)개념 도입과 피어슨형 분포함수의 정의 및 해설, 적률법, 카이제곱분포 도입등이 있다. 그가 펴낸 학술잡지로는 1901년 창간된
3. 고셋 (Gosset, 1876-1936)
4. 피셔(R.A.Fisher, 1890-1962)
추측통계학을 대성시켜 통계학의 중흥을 이룩한 영국인으로 저서로는 <연구자를 위한 통계적 방법>(1902), <실험계획법>(1935) 이 있다. 그는 추정론, 가설검정론, 분산분석법, 실험구배치법과 분석법에 있어 통계적 방법론을 혁명적으로 변환시켰다. 게다가 확률화와 블록화의 원리를 도입하여 확률화 블록계획법, 라틴 방격법을 창안, 발전시켰다.
5. 네이만(Neyman)과 피어슨(E.S.Pearson) (1930년대)
네이만과 피어슨은 통계학에 있어서 수학적 형식화를 연구하였다. 이는 가설 검정론의 수리론적 기초를 제공함으로써 수리통계학의 시작을 이 시점으로 본다.
6. 왈드(Wald, 1902-1950)
왈드의 '의사결정론'은 현대의 수리통계학을 근본적으로 변형시켰다.
저서로는 <연속적 분석(Sequential Analysis)>(1947), <통계적 결정함수(Statistical Deci- sion Function>(1950)이 있다.
***
통계학사란 무엇인가에 대한 궁금증에 시작된 이 수업을 통해 우리가 왜 지금까지 통계학을 배우고 통계학의 역사를 재조명하는지 그리고 앞으로 우리가 무엇을 해야 될 것인지 하는 여러 가지 생각들을 할 수 있었던 좋은 시간들이었습니다. 그 동안 통계학의 시작과 발전 과정을 잘 모르고 통계학을 배운 우리의 입장에서는 좀 더 빨리 배웠더라면 우리가 배우는 학문에 대해 더욱 더 생각해서 보고, 배우는데 더 보람을 가지지 않았을까 하는 생각도 들었습니다.
이 수업을 하면서 느낀 점은 이런 토론식 수업이 보다 활성화되면 좋겠다는 생각이 들었습니다. 저희들이 배우는 통계학에 대해 좀 더 자부심을 가질 수 있고 더 열심히 배울 수 있는 동기 부여가 될 수 있다고 생각합니다. 과거의 통계학자 자취를 통해 저희가 보다 공부에 흥미를 가질 수 있고, 당시의 시대적 배경과 사회적 상황을 통해 각각의 통계학의 발생과 발전과정을 알므로 더욱더 통계학을 이해하는데 도움이 되리라 생각합니다.
그리고 토론식 자율적 수업을 통해 저희들이 좀더 생각하고 사고하면서 적극적인 자세, 나아가 자신의 경쟁력을 키울 수 있다고 생각합니다.
저희들에게는 아직 이런 토론식 수업이 생소하고 스스로 공부하는 습관이 안 배어서인지 학기 중에는 내내 느슨한 듯한 느낌으로 수업들이 진행되었고 한 학기를 다 보낸 지금에야 적잖이 아쉬움이 남습니다. 그러나 많은 대학들이 직업교육장으로 전락해 가는 이러한 시점에 이런 수업이 계속 유지되었으면 하는 바램입니다. 고등학교식 수업방식의 연장인 듯 보였던 수업시간들과는 다른, 생각하고 숨 쉴 수 있는 여유가 있는 살아있는 수업. 대학 4년을 마감하며 나름대로 그 흐름을 스스로 정리해볼 수 있는 소중한 시간이었던 것 같습니다. 특히 역사란 현재와 과거 사이의 끊임없는 대화이고, 현재를 통해 과거를 보며, 가치의 재평가라는 측면에서 이렇듯 통계학을 배우는 우리도 과거의 통계학을 알고 현재에 공부한다면 미래에 더 나은 가치를 창조를 할 수 있을 것입니다.
한 학기동안 통계학사를 배우면서 많은 부분 새로운 시각으로 통계학이라는 학문을 바라보게 된 사실과 더불어, 통계학의 역사 역시 인간의 역사인 만큼 많은 통계학자들간의 'behind story'가 무척 흥미로웠습니다.
이 보고서에서는 근대통계학과 현대통계학의 흐름을 통계학자를 중심으로 우선 간략히 살펴보고 후에 그들의 생애를 접하게 되면서의 나름의 느낌을 정리해 보았습니다.
Ⅰ. 근대의 통계학
과연 통계학은 어디서 시작되었을까? 학문은 실천 속에 탄생하듯이 통계학도 사람들의 삶 속에서 필요에 의해 시작되었다. 소위 경지 면적, 인구수, 납세에 대한 효율적인 조사의 필요성 그리고 도박에서의 확률론 등 국가경영 혹은 개인의 필요에 있어서 통계학이 시작되어 그 발전을 이룩하게 된 것이다.
이렇게 시작한 통계학은 철학과 도덕이 담기어 발전하면서 그 가치가 오늘날 더욱 빛이 나게 된 것이다.
16세기 베이컨과 데카르트에 의해 발전된 인식론의 경험론과 합리론은 통계학의 사상적 기반이 밑거름이 되었다. 그 뒤 갈릴레오에 의해 제기된 천문학적 문제가 마이어 에 와서 새로운 인식전환 - 관측치의 수가 증가함에 따라 오차는 비례해서 커진다는 기존의 수학적 사고를 깨고 오차는 관측치의 수에 반비례한다고 직관적으로 생각 -을 맞게 되었고 이를 바탕으로, 후에 19세기 수리통계학의 밑받침을 이루게 된 최소제곱법이 르장드르에 의해 가시적인 학설로 정립되었다. 이를 계기로 통계학은 그간 어려운 숙제였던 제 문제들을 최소제곱법을 통해서 많은 부분 해결할 수 있었다.
이보다 조금 앞서 Bernoulli 가족은 17세기 초부터 18세기 말경까지 수학의 발전에 있어서 많은 공헌을 하였다. 우선 그 동안 관측치의 기술적 통계만이 주류를 이루던 수학 및 통계학계에 확률론에 관한 주저로 처음으로 확률 문제만을 취급한 것을 들 수 있겠다. 즉 통계학에 있어서 영원한 전제인 '불확실성'에 대해 최초로 수학적으로 접근한 것이다. 이를 토대로 대수의 약법칙과 대수의 강법칙 등을 수리적으로 증명해 보임으로써, 이를테면 댓의 강법칙의 경우 확률을 상대도수의 극한으로 인식하는 경험적 지식을 이론으로서 뒷받침해 주며 이에 따라 확률의 이론과 실제가 서로 부합되는 결과를 얻게 되었다.
비슷한 시기에 살았던 학자 De Moivre는 이항분포에서 시행횟수가 큰 경우의 근사확률을 계산하였는데, p= 인 경우만이 드 무아브르에 의해 유도되었고 이는 후에 라플라스에 의해 일반적인 경우로 확장되었다. 그리고 또 다른 업적은 후대에 와서 칼 피어슨과 같은 학자들에 의해 정규곡선의 원조로 간주되는 '확률의 정규성'에 대한 사실을 밝힌 것이다. 그리고 1733년에는 대칭인 이항분포에서 중심으로부터 일정한 범위 내에 있는 확률을 계산했는데 특히 그 값들이 현재에 계산해낸 값과도 매우 근사하여 최초의 정규분포표로 간주 될 수도 있다. 그러나 그의 이항분포의 근사확률 계산에 대한 업적은, 추정치의 신뢰도를 구할 수 없었다는 점과 p= 이하일 확률 등에 대한 직접적인 해답을 줄 수 없었기 때문1760년대 후반까지는 별로 사용되지 못하였다.
이와 같이 17세기에서 18세기에 이르는 동안 통계학은 자료의 정리만이 전부인줄로만 알았던 기술적 통계학에서 불확실성에 과감히 도전한 추측통계학으로 진일보하는 전환기를 맞게 되었다.
그 뒤 18세기 말에 Thomas Simpson이 제시한 "대수의 법칙"은 천문학자들로부터 공감을 얻게되었다. 이것은 오차의 분포가 0에 대해 대칭이고 오차들의 평균과 1개 오차의 절대값이 특정한 값보다도 작을 확률은 특정한 값의 크기를 증가시킬수록 점점 중심으로 많이 몰린다는 사실을 이론으로 정립한 것으로서 이는 근세 추론의 시작을 알리는 것이었다.
1749년에 태어난 Pierre Simon Laplace는 확률 추론에 대한 4권의 저서를 남겼다. 그 중에서 18세기 확률론의 역사상 가장 의미있는 연구로 1773년의 Memoir on the probability of the Causes of Event와 1780년의 Memoir on Probabilities를 들 수 있다. 1810년에는 듯 무아브르의 이항분포의 정규확률을 계산하는 극한정리를 일반화 시켜 발표한다. 즉 어떤 합이나 평균은 n이 크다면 정규분포로 근사한다는 사실을 밝힌 것이다. 이것이 바로 '중심극한정리'인데 라플라스의 확률론 연구 중에서 가장 뛰어나다 할만한 업적이며 지금까지도 확률론에 큰 바탕을 제공하여 주고 있다. 그러나 중심극한 정리를 발견하기 이전에 그 바탕이 될만한 연구들도 많이 있었는데 1772년에서 1774년에 걸쳐 그는 시간의 축에서 세 시점에서 관측된 사건의 실제 일어난 시간을 찾는 문제에 몰두하였다. 이 연구를 통해 이중지수분포를 발견하게 된다. 또 원인의 확률이 균등하게 주어져 있을 때 베이즈 정리의 특수한 경우를 제공하기도 하였다.
또 한사람의 위대한 통계학자이며 라플라스와 같은 시기를 살았던 Carl Friedrich Gauss는 1777년에 태어났다. 1809년 가우스는 행성의 궤도에 대한 연구를 확률적 개념을 가지고 접근한다. 이 연구를 통해 그는 관측값의 정도에 대한 척도로 한 곡선을 정립한다. 이 곡선을 Normal 혹은 Gaussian curve라 불렀다. 이 곡선을 정립하는 과정에서는 라플라스가 제시한 이론을 인용한다. 이 가우스의 논문을 보고 라플라스는 상당한 충격을 받는다. 그리고 가우스의 결과를 통해 극한정리와 선형추정성 사이에 관련성이 있음을 깨달았고 그의 결과와 접목하여 더욱 발전시키게 된다. 12년후 가우스는 라플라스의 이 이론을 더욱 발전시켜 선형결합을 갖는 것 중 가장 작은 분산을 갖는 "최소 분산 선형 불편 추정량"을 가진다는 정리를 제공하게 된다.
Ⅱ. 현대의 통계학
18세기말에 태어난 학자 Quetelet는 많은 통계학적인 학설을 실생활에 접목을 시도한 것으로 그 공적을 꼽고 있다. 즉 우선 근대까지만 해도 전국가적 차원의 조사사업에 이용되는 것만이 전부였던 통계학에, 사람집단사이의 관계와 차이점들을 연구하기 위하여 인체측정학적 자료들을 요약하면서 '평균인(The Average Man)'의 개념을 도입하였다. 또한 그는 많은 사회학적 자료의 평균들의 정확도를 측정하는데 정규분포의 개념을 도입하게 되는데 즉 라플라스의 중심극한 정리를 응용하여 어느 정도로 범주를 나누어 동질적이라고 판단하는 기준을 정규곡선에 초점을 두어 판단하고 그 범주마다의 분포가 정규곡선을 따른다면 그들을 하나의 동질적인 집단으로 간주하여 그 집단끼리의 평균따위를 비교하는 것이 의미를 갖게 된다는 분포의 개념을 사회학에 접목을 시도하였다. 아직 초기단계라 많은 오류가 있었지만 그 시도만으로도 통계학상에 있어서는 새로운 발전의 계기가 된 것이었다. 이러한 그의 활동은 그때까지만 해도 별개로 여겨지고 있던 자연과학과 사회과학의 분야의 접목을 시도한 것으로 이어졌다. 즉 근대적 자연과학에서의 정밀론을 사회과학에도 도입하는 시발점이 된 것이었다.
그 뒤를 이어 Galton은 주어진 자료를 정리하고 요약하여 가설을 정립하는 기술통계학을 진화, 유전들의 생물현상의 연구와 접목시켰다. 이로써 우생학이 탄생하였는데 이것은 새로운 통계수리의 도입의 계기가 되었다. 즉 콜튼은 진화의 문제를 통계적으로 취급한 최초의 학자였고 이를 위해 다양한 방법을 시도하였다.
역시 기술통계부분에서 큰 업적을 남긴 Pearson은 후에 비정규분포에 대한 연구로 더 알려지게 되었다. 그는 비대칭형태를 띠는 도수곡선을 두 개의 정규곡선의 합으로 나누는 작업을 최초로 수리적으로 제시하였다. 이를 통해 감마분포라 불리는 기운 곡선족을 발견하게 되고 후에 그는 중상관의 개념을 도입하였다. 또한 카이제곱분포도 도입하여 기술통계학을 대성한 학자로 널리 알려지게 되었다.
양조과정에 관한 연구로 't 분포에 관한 논문'을 발표하여 현대 추측통계학 탄생의 발단이 된 Gosset. 그는 '소표본이론'의 발단을 제공하기도 하였다.
R. A. Fisher. 그는 추측통계학을 대성하여 통계학의 중흥을 이룬 영국인이다. 추정론, 가설검정론, 분산분석법, 실험구배치법과 분석법등 통계적 방법론의 혁명적 변환을 이루었다. 이러한 그의 중요한 업적으로 현대 통계학의 창시자로 인정받고 있다.
최근까지 생존했었던 통계학자인 Neyman. 그의 연구업적은 이론통계학의 근간이 될 뿐 아니라 농학, 천문학, 생물학, 기상학 등을 포함한 여러 분야에 있어서 통계학의 정확한 사용을 제시하고 있다.
Ⅲ. 학문의 역사 - 그 필연과 우연
어떠한 학문이건 사회분야이건 간에 고정관념을 깬다는 것은 무척 큰 의미를 갖는다. 기존의 질서를 우선 거부해야하기에 그만큼 도전적이고 위험성도 크기 때문이다. 그리고 그렇게 고정관념을 깨려고 하는 노력이 있어야만 비약적인 발전이 가능한 순간이 많다는 것이다. 풀리지 않는 문제에 대한 새로운 관점에서의 시도. 그리고 직관력. 그리고 그러한 자신의 직관에 대한 확신으로 연구를 단행시켜나가는 추진력이 인류의 역사를 지금껏 이끌어온 바탕이 아니었나 싶다.
통계학을 공부하는데 있어서 확률분포를 구하는 것은 매우 중요하다. 하지만 분포를 정확히 구한다는 것은 대부분의 경우에 있어서는 쉬운 일이 아니다. 그래서 우리들은 중심극한 정리를 많이 이용하게 된다. 통계학의 극한정리 중에서 가장 중요하다 하여도 될만한 정리인 것이다. 그런데 이 정리는 라플라스가 드 무아브르의 연구를 바탕으로 계속 발전시켜나가 완성한 것이다. 드 무아브르의 연구가 아주 큰 부분을 차지한다. 그러나 앞에서 보면 드 무아브르의 정리는 발표되고 난 이후로도 한동안은 연구나 발전이 이루어지지 않았다고 했다. 이렇게 별로 중요하지도 않게 여겨지던 드 무아브르의 연구결과에 관심을 갖고 계속 연구한 결과 이런 중요한 정리가 탄생된 것을 보면 일반적인 사고의 흐름에 따라가기 보다 자신만의 관점으로 바라보고 생각하는 다시 말해 고정관념을 깰 수 있는 사람이 위대한 학자가 될 수 있는 것이다. 이것은 최소제곱법연구의 시작단계에서 오차에 대한 관점에 있어 기존의 관점을 고수했던 수학자 오일러와 새로운 관점에서 사고를 전개시켜나갔던 천문학자 마이어의 사례에서 역시 찾아볼 수 있는 예이다.
라플라스의 중심극한정리의 배경이 되었던 이항분포의 확률에 대한 정리를 제공했던 드 무아브르는 유명한 학자인 만큼 우리에게는 친숙한 이름이다. 그런데 그의 업적에 대해서는 잘 알 수 있었지만 그의 생활의 단면에 대해서는 그다지 알게된 사실이 없다. 드 무아브르는 어떤 환경에서 자랐으며 왜 통계학에 관심을 갖게 되었고 어떤 계기로 해서 이러한 이론들을 만들게 되었는지를 알수가 없는 것이 무척 아쉬움이 남았다.
드 무아브르와는 달리 사생활에 대한 많은 자료가 남아 있는 토마스 심프슨은 약간은 낯설은 이름이었지만 그 파란만장한 삶이 인상적이었다. 직공의 아들인 심프슨이 가업을 잇지 않고 14살때부터 옆마을에 가서 하숙생활을 하며 19세가 되어서는 자신과 35세나 연상인 하숙집 주인과 결혼을 하게 되는 과정이며, 독학으로 점성학, 산술학등을 공부하여 점성가로 알려지는 등 집안의 가업이던 직공이라는 직업을 물려받기 싫어서였다고 하는데 가업을 이어 받는 것이 당연하다고 여기던 시절에 이렇게 자신의 뜻에 따라 어린나이에 독립을 생각하고 실행에 옮기는 과정을 엿보며 사회적 제도와 관습에 구애받지 않는 그의 자유혼에 대해, 그의 통계학적 업적에 앞서 강렬한 인상을 받았다. 또한 그러한 과정이 자신의 삶에 해를 끼쳤다기보다는 오히려 다양한 학문을 접해볼 계기가 되었고 그의 사고의 폭도 넓어지는 계기가 되었는 것에 주목해볼 필요가 있다.
칼 피어슨이 최고의 통계학자로 추앙되는 가운데 아무도 그 권위에 도전하는 사람이 없었던 시대에 젊은 학자였던 피셔가 자신의 뜻을 굽히지 않고 그의 휘하에 들어가지 않았던 사실. 그로 인해 농업연구원격인 로담스테드 실험연구소에서 근무하면서 오히려 수리통계학의 기초를 세웠을 뿐만 아니라 실험의 계획과 분석에 대한 근대적인 방법들도 발전시켜나갔던 것. 만일 그가 계속 피어슨의 휘하에 있었더라면 그러한 학문적 성과가 없었을까? 또 한편으로 그저 대단하게만 생각했던 피어슨이라는 통계학자의 권위적인 면모를 엿볼 수도 있었다. 그리고 후에 가우스와 라플라스의 공동연구에서처럼 젊은 학자를 격려하고 오히려 이끌어 주었더라면 더 큰 성과를 가져올 수도 있지 않았을까 하는 생각도 들었다.
가우스와 라플라스의 이론적인 만남은 서로를 선의의 경쟁자로 생각하고 상대의 이론을 배척하는 것이 아니라 그 이론 위에 자신의 생각을 더해서 한층 발전하는 결과를 이끌어 낸 것이었다.
고정관념을 깨는 사고관점의 전환이나 개인의 천재적 기질에 바탕한 참으로 우연적인 발전과정, 또 기존의 사회질서나 권위에 무조건적으로 승복하기보다는 자신의 학문과 자신의 생각에 대한 확고한 믿음을 관철시켜나가는 많은 사람들. 이러한 일련의 사례들은 비단 통계학에서뿐만 아니라 많은 학문과 나아가 인간의 역사전체를 통해 볼 때도 공통적으로 나타나는 모습들이다. 그리고 이런 많은 역사의 순간들은 우연이라고 보기에는 참으로 필연적인 경우가 많다. 어쩌면 우리는 우연을 가장한 필연의 역사 속에 살아가고 있는 것인지도 모른다. 그렇다면 과연 그 필연이란 어떤 질서로 이루어진 것일까....
'backup' 카테고리의 다른 글
Mean-square convergence (0) | 2013.06.29 |
---|---|
FX마진거래 2013.6.29 (0) | 2013.06.29 |
라플라스 변환 (0) | 2013.06.28 |
C# FIX엔진 라이브러리 (0) | 2013.06.28 |
fx마진거래 2013.6.28 (0) | 2013.06.28 |