Post List

2019년 1월 21일 월요일

Order from Chaos: How Data Science Is Revolutionizing Investment Practice



Journal of Portfolio Management의 2018년 가을호에서
굉장히 의미있는 칼럼이 실렸습니다. [PDF 링크]

Joseph Simonian, Marcos López de Prado, Frank J. Fabozzi
세 분께서 데이터 과학이 투자에 미치는 영향에 대해
짧은 글을 남겼습니다.





먼저 Joseph Simonian 라는 분은 Natixis Investment Managers에서
퀀트 운용을 담당하고 계십니다.




Marcos López de Prado 이분은 작년 말 굉장히 핫했던 분이죠.
2018년 엄청난 성과 부진으로 AQR의 대규모 감원이 있음에도 불구하고
오히려 머신러닝의 헤드로 채용이 되신 분입니다.

퀀트의 바로미터인 AQR이 어떠한 미래를 그리고 있는지
이분의 합류로 대략 엿볼수 있었죠.



주변 퀀트분들에게 엄청나게 많은 추천을 받은
Advances in Financial Machine Learning의 저자이기도 합니다.






Frank J. Fabozzi 교수님은 설명이 필요없죠.

사실상 채권의 바이블인
The Handbook of Fixed Income Securities의 저자이십니다.



이러한 세명의 구루들이 데이터 과학 그리고 머신러닝이
금융과 투자를 어떻게 바꾸어나갈지에 대해 그림을 그렸습니다.

너무나 좋은 글이기에 한번 번역을 해보았습니다.
(영어 실력이 부족하여 어색한 부분도 있으니 이해 부탁드립니다.)




혼돈으로부터의 질서 : 데이터 과학이 투자 관행을 혁신하는 방법


데이터는 응용 과학에서 중요한 입력값이며, 이는 금융에서도 다르지 않습니다. 그럼에도 불구하고 금융은 탐구 영역으로서 존재해 왔기에, 대부분의 투자 이론과 실제 포트폴리오 운용은 상대적으로 원시적이고 경직된 형태의 데이터 분석에 거의 전적으로 의존해 왔습니다. 수년에 걸쳐, 오늘날 시장의 복잡성은 빠른 속도로 생성되는 데이터의 무한한 양과 함께 대부분의 투자 전문가가 사용하는 ‘수학적 화살표’로는 설명할 수 ​​없음이 분명해졌습니다. 그 결과 투자 산업은 데이터 과학으로 알려진 다양한 방법론적 접근법의 가치와 중요성을 인식하기 시작했습니다. 데이터 과학의 기본 아이디어 중 많은 부분은 앨런 튜링 (1947, 1948, 1951)까지 거슬러 올라가지만, 최근에 들어서야 계산 능력이 급속히 발전하여 튜링과 여러 개척자들의 아이디어를 현실화 할 수있게 되었습니다. 


우리는 이론 기반 모델, 닫힌 형태 (closed form)방정식, 정형화된 통계적 분포를 사용하는 현재 금융분야에서 경험 기반의 프레임 워크, 알고리즘 방식 및 비모수적인 통계가 선도적인 분석 역할을 수행하는 새로운 세계로 방법론적 혁명이 일어나고 있다고 믿습니다. 토마스 쿤 (Thomas Kuhn, 1970)이 기술 한 바와 같이, 이러한 새로운 세계로의 이동은 패러다임의 전환이며, 코페르니쿠스 혁명이 천문학을 새로 썼고, 다윈 혁명이 생물학을 변화시킨것 만큼 금융을 변화시킬 것으로 믿습니다. 이 아티클은 광범위한 투자 커뮤니티에 데이터 과학을 소개하고, 투자에 이용될 수 있는 이점 중 일부에 대해 강조하겠습니다.

데이터 과학이란 무엇일까요? 이에 대한 광범위한 정의는 없지만, 정보 기반의 의사 결정을 향상시키기 위해, 통계와 컴퓨팅을 결합하여 복잡한 데이터에서 순서를 발견하거나 정리하는 연구 분야입니다. 또한 재무와 마찬가지로 본질적으로 실용적이므로, 투자에 특히 적합합니다. 데이터 과학의 한 분야인 기계 학습은 패턴의 자동 학습과 데이터로부터 예측을 용이하게 하는 기술입니다.

기계 학습 프레임 워크와 알고리즘에는 여러 가지 유형이 있지만, 공통적으로 다음 세 가지 요소를 갖고 있습니다. (1) 고려중인 데이터의 본질적인 특징을 추출하고 표현하는 방법. (2) 모델 훈련 과정과 기간. (3) 훈련 기간 동안 파생된 ("학습된") 기능은 사후 훈련 데이터에 적용됩니다. 또한 기계학습 알고리즘은 일반적으로 두 가지 유형의 문제 중 하나를 해결하기 위해 설계되었습니다. 분류 유형(classification) 문제는 데이터를 여러 유형으로 분류하는 것이며, 회귀 유형(regression) 문제는 예측 변수가 주어졌을 때 값을 추정하는 것입니다. 두 가지 유형의 문제 모두 금융분야에서 발생하는 일반적인 문제이므로, 기계 학습은 투자 종사자가 기존에 사용하던 도구의 확장으로 볼 수 있습니다.

데이터 과학 알고리즘은 정보를 처리하는 고유한 방식으로 문제를 해결합니다. 예를 들어, 의사 결정 트리 기반 데이터 분석 형식은 데이터 분석에 대한 계층적 접근을 사용하는 반면, 신경 네트워크 알고리즘은 솔루션에 도달하기 위해 데이터의 고유 병렬 처리를 사용합니다. 많은 데이터 과학 알고리즘은 무작위화(randomization)를 사용하여 대규모 데이터 세트 (빅 데이터)와 관련된 문제 해결의 계산 시간을 줄일 수 있습니다. 예를 들어 자연 선택의 진화론에서 영감을 얻은 유전 알고리즘은 솔루션의 다양성을 촉진하기 위해, 변수 값의 무작위 변경을 생성하는 돌연변이 연산자를 사용합니다.

기계 학습 알고리즘은 데이터의 형식이 무엇이든 간에 구조적 및 비구조적 데이터를 처리하고 분석 할 수 있지만, 기존 재무 모델은 그렇지 않습니다. 계량 경제학의 시계열로 대표되는 구조화 데이터는 쉽게 관찰 할수있는 패턴과 규칙을 가진 데이터입니다. 보다 간단하게 말하면, 데이터를 행과 열로 쉽게 표현할 수 있습니다. 시계열은 시간순으로 명확하게 색인되며, 각 관측값은 시리즈의 다른 모든 관찰과 동일한 단위와 척도로 표현됩니다. 시계열 분석이 수 년 동안 투자 분석에서 많은 성과를 거두었지만, 구조화된 데이터 분석에 거의 독점적으로 초점을 맞추었기 때문에 구조화되지 않은 데이터의 풍부한 정보 자원을 수집하지는 못했습니다. 구조화되지 않은 데이터란 무엇입니까? 이름에서 알 수 있듯이 정의된 방식으로 식별되지 않는 데이터(예 : 소셜 미디어 게시, 고빈도 거시 경제 데이터 혹은 신용 카드 거래)이며, 종종 범주형 변수와 숫자가 결합되기도 합니다. 오랜 시간 동안 구조화되지 않은 데이터는 무시되거나 , 원시적이고 시간이 많이  소모되는 방법을 사용하여 처리되었습니다. 그러나 최근 몇 년 동안 데이터 과학 방법론의 빠른 개발과 보급은 실무자들에게 확장된 데이터 유형을 활용할 수 있는 도구를 제공하고, 그에 따라 수익성 있는 정보 출처의 발견을 위한 그들의 잠재력을 강화함으로써 투자 연구에 새로운 생명을 부여했습니다.

데이터 과학이 투자 과정에 어떻게 도움이 되는지 확인하기위해 다음의 예를 살펴봅시다. 주식 애널리스트는 미국의 체인점 식당인 Hungry Inc.의 주식 전망에 관심이 있습니다. 이 주식의 12 개월 가격 모멘텀은 매우 강하며, 애널리스트는 모멘텀 신호와 추가적인 정보를 결합하여 회사 주식의 구입을 추천할지 여부에 대한 최종 결정을 내리고자 합니다. 유용한 정보 중 하나는 지난 12 개월 동안 전국의 Hungry Inc. 레스토랑을 자주 방문한 고객의 수입니다. 고객의 수는 가격 모멘텀이 발생하는 기간동안 증가했거나 감소 했습니까? 이 정보를 찾는 방법은 무엇입니까? 이러한 정보를 얻는 방법 중 하나는 위성 이미지를 활용하는 것입니다. 이 이미지는 전국의 Hungry Inc. 레스토랑의 주차장에 있는 총 차량 수를 계산하는 데 사용할 수 있습니다. 지난 12 개월 동안 자동차 수가 증가했다면 강력한 가격 모멘텀이 합당한 것처럼 보입니다. 반대로 자동차 수가 같은 기간 동안 현저하게 감소했다면, 주가 모멘텀이 ‘고객’이라는 가장 근본적인 요소로 인해 발생한 것이 아니라 볼 수 있습니다.

물론 위성 이미지에는 고유한 구조가 없으므로 이를 하나로 결합할 방법이 필요합니다. 우리의 문제에 도움이 될 수있는 하나의 접근법은 앞서 언급한 신경망 알고리즘 입니다. 이름에서 알 수 있듯이 신경망은 인간의 뇌 기능에 영감을 받았습니다. 기본 설계는 뉴런 (또는 노드)이라고 불리는 레이어로 구성된 데이터 프로세서의 모음으로 구성됩니다. 정보는 외부 입력에 대한 뉴런의 응답을 통해 처리됩니다. 이러한 응답은 다음 레이어로 전달되어 결국 최종 출력까지 이르게 됩니다. 뉴런의 상호 연결성과 서로 간에 정보를 주고받는 능력은 문제의 효율적으로 해결하게 합니다. 신경 네트워크는 일련의 학습 데이터를 통해 학습하고, 다양한 유형의 오류 수정 메커니즘을 통해 점진적으로 학습 데이터가 아닌 새로운 데이터에 대한 정답을 제시하는 능력을 개발합니다. 쉽게 말하자면 신경 네트워크는 처음에는 문제에 무작위적인 해결책을 제시하고, 어느 정도는 부정확 할 것으로 예상됩니다. 초기 솔루션이 생성되면 이러한 예측 또는 분류 오류와 관련된 정보가 네트워크로 피드백되고, 다음 반복(iteration)에서 조정됩니다. 프로세스가 반복됨에 따라 네트워크는 보다 정확하게 수정되며, 결국 문제를 해결하는 방법에 대한 '이해'를 개발합니다.

위의 예에서 애널리스트는 자동차와 비 자동차를 구별하기 위해 신경망을 훈련해야하며, 이는 ‘분류 문제’ 입니다. 이 경우 훈련은 다양한 자동차와 비 자동차 이미지를 공급받는 신경 네트워크, 즉 수치 형식으로 변환된 (인코딩된) 이미지로 구성되어 있고, 시간이 지남에 따라 네트워크가 Hungry Inc. 레스토랑 주변의 디지털 지도에서 개별 차량의 픽셀을 분리해내고 숫자를 셀수 있게됩니다. 네트워크 훈련에 중요한 역할을 할 자동차의 특징은 자동차 색상의 스펙트럼, 자동차의 최소 및 최대 치수 등과 같은 것입니다. 자동차가 아닌 이미지는 식당 주차장에 있는 사람들, 주차장 아스팔트, 식당의 지붕과 같은 것들입니다. 교육이 완료되면 애널리스트는 시각적 신호를 만들어 낼 수 있습니다. 우리는 애널리스트가 각 Hungry Inc. 레스토랑의 위치가 명확하고 정확하게 확인된 미국의 픽셀화된 지도를 입수했다고 가정합니다. 훈련이 끝났다면, Hungry Inc. 식당 주차장의 암호화된 이미지를 신경 네트워크에 공급하고 지난 12개월 동안 자동차의 운행 횟수를 기다리면 됩니다.

앞의 예는 데이터 과학 방법이 기존 투자 도구를 보완 할 수있는 방법을 보여줍니다. 그렇다고 해서 데이터 과학 및 기계 학습이 단순히 전통적인 방법과 함께 존재한다는 것은 아닙니다. 많은 실제 사례에서 데이터 과학과 기계학습이 재무 데이터의 특이성을 해결하는데 더욱 좋은 기능을 갖추고 있습니다. 현대 금융 연구의 필수 요소인 일반 최소제곱 (OLS) 회귀의 경우를 생각해보십시오. 칼 프리드리히 가우스 (Carl Friedrich Gauss)가 2 세기 전에 개발 한 OLS 회귀 분석은 재무 데이터를 분석하기에는 여러 단점을 가지고 있습니다. 아마도 가장 중요한 문제는 비선형 관계가 많은 시장을 선형 모형으로 해석하려는 점입니다. 또한 OLS 회귀 분석은 예측 변수가 서로 상대적으로 독립적이라고 가정하지만, 실제 세계에서는 많은 변수가 중요한 의존 관계를 보입니다. 글로벌 시장을 주도하는 요소를 명확하게 파악하려면 이러한 의존성을 이해하는 것이 중요합니다. 단점은 여기에서 끝나지 않습니다.

추정량과 및 오류항에 대한 정규 가정, 이상치의 과도한 영향, 예측 변수에 대한 평균 민감도로서의 베타 계수의 표현, 범주형 변수와 수치를 결합 할 수 없는 점 및 상호 작용 효과가 위계적이지 않다는 가정은 OLS 회귀분석이 정확하게 실제 시장을 설명하는데 어렵게 만듭니다. 이는 OLS 회귀 및 기타 기존 도구를 사용해서는 안된다는 뜻일까요? 물론 아닙니다. 그러나, 데이터 과학이 분석에 가져오는 힘을 고려하면, OLS 회귀와 같은 전통적인 방법은 데이터 과학 방법론을 보완하거나, OLS의 단순성과 익숙함으로 인해 예비 연구를 위한 유용한 도구로서 새로운 아이디어를 테스트하는 것과 같이, 점점 더 부차적인 역할을 하게 될 가능성이 높습니다.

금융은 기계적인 모형과 시장 행동에 대한 인과관계 설명을 통해 자연 과학을 모방하려고 했습니다. 그러나 자연 과학의 연구와 달리 금융은 통제되고 반복된 실험을 하는 것이 불가능합니다. 게다가 그것은 훨씬 더 복잡한 현상, 즉 ‘인간의 의도’에 영향을 받습니다. 그럼에도 불구하고, 이제껏 많은 전문가들은 다소 지저분하지만 자본 시장에 대해 더 깊은 경험적 통찰력을 제공 할 수있는 도구와 방법론의 개발보다는, 우아하게 보이는 수식을 만드는데 우선순위를 두었습니다. 그러나, 지평선에는 새로운 새벽이 있는 것과 같이, 많은 사람들은 실제 투자에서 발생하는 문제를 해결하는데 있어 기존 투자 이론의 한계를 인식하기 시작했습니다. 결과적으로 실무자는 분석 및 의사 결정을 추진하기 위해 데이터 과학 및 기계 학습에 관심을 돌리고 있으며, 이론의 아름다움 (전통적 금융)에서 실효성 (데이터 과학)으로 바꾸어 나가고 있습니다. 컴퓨팅의 정교함과 힘이 계속 커지면서 데이터 과학은 확실히 투자 연구 및 실행의 선두로 나아가게 될 것입니다.

여행은 이제 막 시작되었습니다.

댓글 2개:

  1. 안녕하세요, 번역본 감사하게 잘 읽었습니다. 혹시 원문 파일 가지고 계시면 좀 보내주실 수 있을까요?

    답글삭제