Age-Period-Cohort 방법론은 과거엔 많이 쓰이던 방법론인데, 모형 식별이 되지 않는 문제로 인해 지금은 많이 논의되지 않는 방법론이다.
Age-Period-Cohort는 말 그대로 특정 Outcome의 발생에 미친 세 개의 Time Trend 인 Age, Period, Cohort 의 효과를 분해해서 추정하고자 하는 방법이다.
이번 글에서는 방법론과 그 문제점에 대해 소개한다.
Age, Period, Cohort 의 정의
APC 방법론을 간단히 요약하자면,
Outcome $Y$를 $Age$, $Period$, $Cohort$ 세 변수로 적합하는 모형이다.
$$ log(Y_{apc}) = \mu + \alpha_{a} * Age + \beta_{p} * Period + \gamma_{c} * Cohort $$
어떠한 집단에서의 특정 질병의 발생 여부를 세 변수로 aggregation 한 Count 값을 $Y$로 둘 수 있다.
Count 값일 경우 연결함수(Link Function)로 $log()$ 로 두는 포아송 분포를 가정할 수 있다. 포아송의 경우 offset을 사용하기도 한다.
이때 $\alpha$는 연령 효과 (Age), $\beta$는 기간 효과 (Period), $\gamma$는 출생 연도 (Cohort) 효과라 부른다.
각각은 고정효과이므로 $\sum \alpha_a = \sum \beta_p = \sum \gamma_c = 0$이다.
각 효과가 의미하는 바는 뭘까? Suzuki E. et al (2012)에서 정말 잘 설명해주었다.
1. 연령 효과 ($\alpha$): 사건이 발생했을 때의 나이를 변수로 사용
-> I can’t seem to shake off this tired feeling. Guess I’m just getting old.
2. 기간 효과 ($\beta$): 사건이 발생한 년도를 변수로 사용
-> Business is down this year, and you’ve let your fatigue build up.
3. 출생 연도 효과 ($\gamma$): 사건이 발생한 사람의 출생 연도를 변수로 사용
-> Yeah, young people these days are quick to whine. We were not like that.
저자가 일본인인데, 일본에도 라떼(Latte is horse....)가 존재하는걸까?
Cohort 효과가 제일 헷갈렸는데, 라떼 효과로 이해하게 되면 세 시간 효과를 절대 헷갈리지 않았다.
모형 식별화 문제
모형 식별이 불가하다는 것은 추정량의 Unique Solution 이 존재하지 않는다로 이해할 수 있다.
이렇게 표현해도 말 자체가 어렵다. 그냥 파라미터의 추정이 불가능한 상태를 의미한다.
세 시간 효과가 완벽한 수학적 관계를 갖기 때문이다.
$$ Age = Period - Cohort $$
수리적으로 설명하자면, Regression에서의 $X$에 포함되는 설명변수들은 모두 선형 독립(Full Rank Matrix, rank=3)이어야 한다.
역행렬은 각 열들이 모두 선형 독립일 때만 존재하고, 이 역행렬을 통해 파라미터의 추정이 이루어진다.
파라미터 추정량 계산에 사용되는 $(X^{T} X)^{-1}$ 이 존재해야 하는데,
APC 방법론에서의 $X = (Period-Cohort, Period, Cohort)$ 로 설명변수들이 선형 종속 관계를 갖고, Rank=2이다.
안타깝게도 $(X^{T} X)^-$가 존재하지 않는다.
첫 번 째 소개했던 식이 아래의 여러 변형된 형태와 같은 두 파라미터의 식으로 정리가 되는데, $\alpha_a$를 어떻게 Age 효과로 볼 수 있는지 $\beta_p$ 효과로 볼 수 있을까
$$ log(Y_{apc}) = \mu + \alpha_a * (Perod-Cohort) + \beta_p * Period + \gamma_c * Cohort $$
$$ log(Y_{apc}) = \mu + \alpha_a * Age + \beta_p * (Age+Cohort) + \gamma_c * Cohort $$
모형 식별 문제에 대하여 여러 제안들이 나왔으며, 크게 두 가지로 분리할 수 있다.
이는 다음 글에서 작성할 예정이다.
[1] (With Assumption) 모형 혹은 파라미터에 제약 조건 설정 -- 제약 조건에 따라 값이 변함 / 설득력 있는 제약 조건 하에서 좋은 결과 도출 가능
[2] (Without Assumption) 파라미터의 추정 가능한 Function 계산 -- 제약 조건에 따라 변하지 않는 값 / 정보량이 적음
APC 관련 글을 쓰기 위한 공부는 A. Bell et al (2020)의 연구와 T. R. Holford et al (1991) 중심으로 정리/작성되고 있다.
Reference
1. Suzuki, E. (2012). Time changes, so do people. Social Science & Medicine, 75(3), 452-456.
2. Bell, A. (2020). Age period cohort analysis: a review of what we should and shouldn’t do. Annals of human biology, 47(2), 208-217.
3. Holford, T. R. (1991). Understanding the effects of age, period, and cohort on incidence and mortality rates. Annual review of public health, 12(1), 425-457.
'Study > Methodology' 카테고리의 다른 글
[논문 리뷰] Interrupted Time Series Tutorial (2) | 2023.10.23 |
---|