서울시는 심야 버스에 노선에 대한 최적화를 KT와 MOU를 통해 휴대전화 이력 데이터에서 유동인구 통계 정보를 바탕으로 노선을 정하였다. 서울시의 데이터 마이닝 기법은 이렇다. 우선, 서울시를 1km 반경의 1,250개 헥사셀 단위로 구분을 통해 한달 동안의 KT 휴대전화 이력 데이터로 오전 0시부터 5시 통화량을 분석을 통해 구역별 유동신우. 밀집도를 분석하고 이를 헥사셀 단위로 시각화하였다.
유동인구 밀집도 분석을 통해 기존 노선의 시간/요일별 패턴을 분석하고, 노선 부근의 유동인구 통계로 가중치를 계산하여, 노선을 최적화한다.
또한, 서울시는 유동인구 데이터를 기반으로 정류장 단위로 통행량을 추정하고 통행량을 선의 굵기로 표현하여 헥사셀로 구분된 맵에 시각화함으로써 최종적으로 요일별 배차간격을 조정하는 것을 결정했다.
KT는 공익차원에서 데이터마이닝을 통해 서울시에게 유의미한 데이터를 제공해줌으로 심야버스 노선 결정에 큰 역할을 하였다. 공공기관에서도 데이터 기반의 의사결정을 하는데 이를 민간기업과 협력해 심야버스 노선에 대한 최적화가 이루어졌다.
-심야버스 노선 최적화 상세화면-
서울시는 통신사 KT와의 MOU체결은 심야버스 노선말고도 다양한 의사결정을 할 수 있다. 예를들어, 서울시 산책로 개발, 새로운 도시 환경 구축에도 유동인구 데이터를 기반으로 의사결정을 할 수 있다. 또한, 은행사의 결제 데이터를 기반으로 반려동물 친화 지역 구축에도 활용할 수 있다.
통신사의 유동인구 분석은 수업시간에도 나온 사례이다. 수업시간의 사례를 실제 사례로 찾아보면서 느낀점은 데이터 의사결정은 이제 조건이 아닌 필수가 된 시대인 것 같다. 내가하는 대부분의 행동은 데이터에 기록이 되고 이렇게 모인 데이터는 마이닝을 통해 의사결정에 사용된다. 이 데이터 마이닝의 큰 수혜 기업은 통신사인 것 같다. 통신사는 남녀노소 모두가 가지고 다니는 스마트폰을 통해서 데이터를 축적하고 이를 다양한 곳에 사용할 수 있다. 하지만 걱정스러운 부분은 기업들은 데이터가 곧 경쟁력을 가지는 사회인데 경쟁과열로 인해 과도한 데이터를 사용자에게 추출하려 할 수도 있을 것 같다. 그렇게 되면 민감한 개인정보나 원치않는 데이터까지 저장이 되어서 보관이 될 것 같다. 따라서, 기업은 데이터 수집에 대한 가이드를 사용자에게 확실하게 제공해야하고 기업은 수집한 데이터를 안전하게 관리가 이루어져야 한다.