Post

데이터들 - 인구(population)

공공영역의 데이터?

공공영역의 데이터는 보통 기업에서 다루는 데이터들의 성격과는 꽤 다릅니다. 보통 생각하는 기업의 데이터라면, 어플리케이션 베이스의 서비스에서 BaaS를 통해 실시간으로 기록되는 로그라거나, 센서가 부착된 디바이스에서 들어오는 로데이터라거나, 혹은 초당 수십-수백건씩 기록되는 트랜잭션이라거나… 사실 이렇게 예시를 들자면 끝이 없을 정도로, 업역에 따라 일반화시키기 어려울 만큼 다양한 주기와 속성의 데이터가 생산됩니다. 하지만, 공공영역에서 ‘데이터’라 지칭되는 것들은 대개 grouped data의 성격을 가집니다. 기업으로 생각한다면, 일반적으로 BA 파트에서 만드는 지표(metric or indicator)에 가까워 보이기도 합니다. 예를 들어, 인구수, 가구형태, 지하철역사별 승하차수 같은 것들이요. 시내버스의 실시간 위치정보…같은 것들은 raw에 조금 더 가깝겠죠. 어디부터 raw고 어디부터 grouped냐고 물어보면 딱 잘라서 결론을 내리는건 꽤 어렵지만, 경험상 대개 이런 성격을 가지고 있는 것 같습니다.

아마도 이 글을 보게 되실 분들 데이터를 실제로 현업에서 꾸준히 다루고 계실지도 모릅니다. 아니면 적어도 데이터에 어느정도 관심을 가지고 계실 거라고 생각하고요. 저는 어쩌다 보니 공공-민간 양쪽을 weaving하면서 살고 있는 느낌이라. 공공영역의 ‘데이터’와 민간영역의 ‘데이터’는 서로 다른 대상을 지칭할지도 모른다… 라고만 간단히 생각해주셔도 좋을 것 같습니다. 사실 중요하다면 중요하고, 그렇지 않다면 또 그렇지 않은데. 우선은 데이터라고 그냥 통칭하겠습니다.

인구를 우선 이야기하는 이유는… 말 그대로 근본이기 때문입니다. 많은 기업과 개인들은, 보통 사람을 대상으로 일을 하니까요. 이런 면에서, 이제부터의 이야기는 제가 어떤 문제에서 어떤 인구데이터를 사용해왔는지를 리뷰하는 사고의 흐름이기도 합니다. 한국에서 인구데이터를 제공하는 곳은 크게 두 곳인데, 하나는 통계청이고, 하나는 행정안전부입니다. 이 둘 간의 데이터에는 약간의 차이가 있는데.. 데이터를 쓰겠다면 이 둘 간의 차이를 알 필요가 있습니다.

통계청 센서스 데이터

통계청에서 만들어지는 센서스(인구주택총조사) 데이터는, 말 그대로 ‘국가통계’를 제공하기 위한 조사로, 아주 많은 분야의 공공영역 의사결정 기본이 됩니다. 센서스 데이터(인구, 가구, 주택, 사업체)는 통계청 SGIS를 통해 집계구(지형지물 등에 의해 규정된 경계를 합쳐 통계적 특성을 부여하기 위한 경계)로 제공되며, 공공영역에서 일반적으로 공개되는 분석단위중에 가장 해상도가 높습니다. 예를 들어 서울의 자치구는 25개, 행정동은 420개를 좀 넘고, 집계구는 2만개가 조금 안 됩니다. 서울 전체를 2만개 블록으로 나눈다면, 한 블록에 약 400~500명 정도의 사람이 들어가게 됩니다. 집계구 블록별로 성/연령별, (만 나이 기준)5세구간의 데이터가 제공됩니다. 생애주기상 5세구간의 데이터면 어느정도 코호트 정합성도 확보되는 느낌이고. (특히 공공영역) 분석의 표준이 되는 데이터로 생각하셔도 좋을 것 같습니다.

행정안전부 주민등록인구통계

센서스는 이렇게 높은 해상도를 가지지만, 그 한계도 존재합니다. 단적인 예로, 집계구 단위의 데이터에서는 개인을 특정할 수 없게 5인 이하 집계구인 경우 내림하여 0으로 처리되므로, 집계구의 합계가 전체 합계와 같지 않은 현상이 발생합니다. 또한, ‘최신’이라고 불리는 센서스 데이터의 주기는 최소 1년정도 늦습니다. 작년에 집계된 데이터가 검수를 거쳐 공개되는데 그만한 시간이 걸리기 때문입니다.

위와 같은 센서스 데이터의 특성 때문에, 풀어야 하는 문제에서 최신성이 강조된다면 행안부 등록인구통계 데이터를 사용해야 합니다. 많은 일들이 그렇듯, 트레이드오프죠. 데이터의 해상도를 행정동 단위까지 낮추는 대신, 1세구간별/외국인 여부가 포함된 지난달 말 기준의 데이터를 얻습니다. 민간과 공공을 가리지 않고, 대부분의 의사결정에서 동 레벨 이하로 내려가는 경우는 거의 없기 때문에, 일반적으로는 등록인구통계를 사용하는 경우가 훨씬 더 많을 거라고 생각합니다. 학계 역시 마찬가지일 것이고요.

서울시 생활인구 : de facto population

서울에 한정한다면, 또 다른 데이터가 있습니다. 2017년 오픈된 서울시 생활인구 데이터입니다. 서울시 열린데이터광장을 통해 제공되는 생활인구는 특정 시점의 스냅샷인 현주인구 추정데이터를 집계구 단위로 제공합니다. KT LTE 데이터와 주민등록인구를 결합해 ‘특정 시점에 그 지점에 존재하는 사람수’를 추정하는 로직입니다. (여담이지만, 서울시에 있을 당시 설계과정에 얕게 참여했었습니다. 꽤 재미있게 일했었던 기억) 생활인구 데이터는 그동안은 법정통계가 아니었지만, 아마도 곧 법정통계 영역으로 넘어가게 되지 않을까 싶습니다(2024년 기준). 인구감소로 인한 지자체 통합 등에서 근거자료로 사용될 가능성이 꽤 높기 때문에요. 올해 중으로 시범사업을 통해 조금 더 많은 지역의 생활인구를 제공한다고 하니… 순차적으로 오픈이 되지 않을까 싶습니다.

그래서?

마이크로한 해상도가 중요하고 트렌드가 유지된다면 센서스를, 매크로한 영역에서 최신성과 엄밀함이 필요한 경우 등록인구를, 실제로 존재하는 사람 수를 추정하는게 가장 중요하다면 생활인구를. 뭐 이런 느낌으로 인구데이터를 사용하고 있습니다. 사실 공공데이터에 대해서 이야기했지만, 기업에서의 일도 똑같습니다. 데이터가 어떻게 만들어졌는지를 이해하고, 어떤 속성을 가지며, 어떤 목적을 위해 사용하느냐…를 명확히 규정하고 사용하는 것이 data job의 시작이자 끝이지 않을까요. 데이터가 제멋대로 얘기하지 않게 하려면요.

This post is licensed under CC BY 4.0 by the author.