리서치

위치 데이터가 말해주는 것, 말해주지 않는 것

위치 데이터 기반 매출 예측 프로젝트에서 배운 것들.

임보람··18분 읽기
위치 데이터가 말해주는 것, 말해주지 않는 것

지난해 BDM Lab은 국내 한 프랜차이즈 기업과 함께 위치 데이터 기반 매출 예측 모델을 개발했다. 결론부터 말하면, 위치 데이터는 생각보다 많은 것을 말해주지만, 생각보다 많은 것을 말해주지 못한다.

이 문장이 모순처럼 들릴 수 있다. 하지만 12개월간의 프로젝트를 거치며 우리가 도달한 결론은 정확히 이것이다. 위치 데이터는 입지 선정의 '필요조건'을 규명하는 데 탁월하지만, '충분조건'을 제공하지는 못한다. 이 글에서는 프로젝트의 전 과정을 복기하면서, 위치 데이터 분석이 실무에서 어떤 가치를 갖고, 어디에서 한계에 부딪히는지를 솔직하게 공유한다.

프로젝트 배경: 직관의 비용

해당 기업은 신규 매장 입지 선정에 어려움을 겪고 있었다. 기존 방식은 부동산 중개인의 추천과 경영진의 직관에 의존했다. 결과는 들쑥날쑥했다. 100개 매장 중 20% 이상이 개점 2년 내 폐점했다.

이는 해당 기업만의 문제가 아니다. 한국프랜차이즈산업협회의 2024년 보고서에 따르면, 국내 프랜차이즈 매장의 평균 3년 내 폐점률은 약 25%에 달한다. 미국 Bureau of Labor Statistics의 데이터도 유사한 패턴을 보여주는데, 소매·외식업 신규 매장의 약 20%가 첫 해에, 50%가 5년 내에 문을 닫는다. 이 수치의 상당 부분이 부적절한 입지 선정에서 비롯된다.

여기서 중요한 것은 '직관에 의한 의사결정'의 구조적 문제다. Daniel Kahneman이 Thinking, Fast and Slow(2011)에서 체계적으로 정리한 바와 같이, 인간의 직관적 판단(시스템 1)은 특정 조건에서만 신뢰할 수 있다. Kahneman과 Gary Klein의 공동 연구(2009)는 직관이 신뢰할 수 있으려면 두 가지 조건이 충족되어야 한다고 제시했다. 첫째, 충분히 규칙적인 환경(high-validity environment). 둘째, 장기간의 반복 학습 기회. 상권 분석은 두 조건 모두에서 취약하다. 상권은 비선형적으로 변화하고, 한 경영진이 일생 동안 직접 경험하는 입지 선정 사례는 통계적으로 유의미한 패턴을 학습하기에 충분하지 않다.

더 근본적인 문제는 결과에 대한 피드백 구조다. 경영진이 A 지역에 매장을 열고 성공했다면, 그것이 입지의 힘인지 운영의 힘인지 구분할 방법이 없다. B 지역을 포기했다면, B 지역에서의 결과를 영원히 알 수 없다. 이른바 '반사실적 추론(counterfactual reasoning)'의 부재다. 이런 환경에서 직관은 체계적으로 편향될 수밖에 없다. Hillel Einhorn과 Robin Hogarth(1978)가 밝힌 것처럼, 결과에 대한 불완전한 피드백은 잘못된 판단 규칙을 강화하는 방향으로 작용한다.

우리의 과제는 명확했다. 위치 데이터를 활용해 입지별 예상 매출을 예측하고, 직관 대신 데이터에 기반한 의사결정의 근거를 제공하는 것.

방법론: 세 가지 데이터 레이어

모델에 투입한 데이터는 크게 세 가지 레이어로 구성했다. 각 레이어의 선택에는 이론적 근거와 실무적 판단이 모두 작용했다.

레이어 1. 유동인구 데이터

통신사 기반의 시간대별·요일별 유동인구 수를 활용했다. 반경 500m 내의 유동인구 패턴을 분석했으며, 구체적으로는 다음 변수들을 추출했다: 평일 주간(10-18시) 평균 유동인구, 평일 야간(18-22시) 평균 유동인구, 주말 평균 유동인구, 유동인구의 시간대별 분산(패턴의 안정성 지표), 그리고 유동인구의 월별 변동 계수.

통신사 유동인구 데이터의 방법론적 한계를 먼저 짚어야 한다. 이 데이터는 기지국(cell tower) 접속 기록을 기반으로 추정하므로, 기지국 밀도가 낮은 지역에서는 정확도가 떨어진다. 또한 통신사 점유율에 비례한 표본만 포착하므로, 모수 추정에 보정이 필요하다. 우리는 통계청의 주민등록인구 데이터와의 교차 검증을 통해 보정 계수를 산출했다.

레이어 2. 상권 특성 데이터

주변 경쟁 매장 수, 업종 구성비, 임대료, 접근성(가장 가까운 지하철역 및 버스정류장까지의 도보 거리) 등을 포함했다. 여기에 더해, 소상공인시장진흥공단의 상권분석 데이터에서 추출한 인구통계적 변수(반경 1km 내 거주인구의 연령 분포, 평균 소득 수준, 주거 유형 비율)도 통합했다.

상권 특성 데이터의 이론적 기반은 Harold Hotelling의 공간 경쟁 모델(1929)과 David Huff의 상권 매력도 모델(1964)에서 출발한다. Hotelling 모델은 경쟁자 간의 공간적 차별화가 수요에 미치는 영향을 설명하고, Huff 모델은 소비자가 매장까지의 거리와 매장의 매력도를 비교하여 방문 확률을 결정한다고 본다. 우리 모델은 이 두 이론을 데이터 기반으로 실증한 셈이다.

특히 업종 구성비 변수는 Jane Jacobs가 The Death and Life of Great American Cities(1961)에서 강조한 '다양성의 경제학(economics of diversity)'과 연결된다. Jacobs는 다양한 용도가 혼합된 지역이 단일 용도 지역보다 경제적 활력이 높다고 주장했는데, 우리 데이터에서도 업종 다양성 지수가 높은 상권이 평균적으로 더 높은 매출을 보였다.

레이어 3. 기존 매장 매출 데이터

78개 기존 매장의 월별 매출 데이터 3년치를 학습 데이터로 활용했다. 매출 데이터는 POS 시스템에서 추출했으며, 계절성 조정을 위해 12개월 이동평균과 함께 원래 시계열 데이터를 모두 투입했다. 또한 각 매장의 개점 후 경과 월수를 변수에 포함하여, 신규 매장 효과(novelty effect)와 성숙 곡선(maturation curve)을 통제했다.

예측 모델은 Gradient Boosting(XGBoost) 기반으로 구축했으며, 하이퍼파라미터 튜닝은 5-fold cross-validation으로 수행했다. 모델 해석을 위해 SHAP(SHapley Additive exPlanations) 분석을 적용했다. SHAP은 게임이론의 Shapley value에 기반한 방법으로, 각 변수가 개별 예측에 얼마나 기여하는지를 수학적으로 분해한다(Lundberg & Lee, 2017). 단순한 변수 중요도를 넘어서, 특정 매장의 예측값이 왜 높거나 낮은지를 변수별로 설명할 수 있다는 점이 실무적으로 핵심이었다. 기업 의사결정자에게 "이 모델이 좋습니다"가 아니라 "이 입지가 왜 좋은지/나쁜지"를 설명해야 했기 때문이다.

결과: 유동인구의 역설

모델의 예측 정확도는 MAPE(Mean Absolute Percentage Error) 기준 약 18%였다. 쉽게 말해, 예측 매출과 실제 매출 사이에 평균 18%의 오차가 있었다는 뜻이다. 이 수치를 어떻게 해석해야 할까?

매출 예측 분야의 벤치마크를 보면, Fildes et al.(2022)의 메타분석에 따르면 소매업 매출 예측의 평균 MAPE는 약 25-30% 수준이다. 부동산 기반 상권 분석 전문가의 정성적 예측과 비교한 연구(Worzala et al., 1995)에서는 전문가 예측의 MAPE가 통상 30-40% 범위였다. 이런 맥락에서 18%는 상당히 양호한 수치다. 다만, 이후 논의할 한계와 함께 해석해야 한다.

진짜 흥미로운 발견은 변수별 중요도에서 나왔다.

발견 1: 유동인구 자체는 생각보다 덜 중요했다.

유동인구가 많다고 매출이 높지 않았다. 서울 강남역 인근의 한 매장은 유동인구가 월 300만 명을 넘었지만, 매출은 중위권에 머물렀다. 반면, 경기도 한 주거 밀집 지역의 매장은 유동인구가 월 40만 명 수준이었지만 매출 상위 10%에 진입했다.

핵심은 '목적성 유동인구'였다. 쇼핑 목적의 유동인구와 출퇴근 통과 유동인구는 매출에 대한 기여도가 완전히 달랐다. 이 발견은 직관적으로 당연해 보일 수 있다. 하지만 실무에서는 많은 기업이 여전히 '총 유동인구'를 1순위 기준으로 사용한다. 한국감정원의 상권 분석 보고서들도 총 유동인구를 핵심 지표로 제시하는 경우가 대부분이다.

이 현상은 행동경제학의 '대표성 휴리스틱(representativeness heuristic)'으로 설명할 수 있다(Kahneman & Tversky, 1972). "사람이 많으면 매출이 높을 것이다"라는 직관은 '군중 = 소비자'라는 대표성 판단에 기반한다. 그러나 출퇴근 유동인구는 해당 지역에서 소비할 의향이 낮은 통과 인구다. 이들에게 해당 상권은 목적지가 아니라 경유지일 뿐이다.

우리는 유동인구를 체류시간 기준으로 세분화했다. 해당 반경에서 30분 이상 체류한 인구와 10분 미만 통과한 인구를 구분했을 때, 전자의 매출 예측 기여도는 후자의 약 4.2배였다. 이는 '체류형 유동인구'가 '통과형 유동인구'보다 소비 전환율이 현저히 높다는 것을 의미한다.

발견 2: 가장 강력한 예측 변수는 '주변 카페 밀집도'였다.

이것이 이 프로젝트에서 가장 의외의 결과였다. SHAP 분석에서 반경 500m 내 카페 수가 전체 예측의 약 22%를 설명하는 가장 중요한 변수로 나타났다. 카페가 많은 곳은 체류형 상권을 의미했고, 이것이 해당 프랜차이즈의 타겟 고객 행동과 높은 상관관계를 보였다.

왜 카페 밀집도가 이토록 강력한 예측 변수였을까? 우리의 해석은 카페가 일종의 '상권 품질 프록시(proxy)'로 작동한다는 것이다. 카페 운영자들은 임대 계약 전에 상권을 면밀히 분석하는 전문가 집단이다. 카페가 밀집한다는 것은 그 지역이 이미 다수의 전문가적 판단을 통과한 상권이라는 신호다. 경제학에서 말하는 '정보 캐스케이드(information cascade)'의 일종으로 볼 수 있다(Bikhchandani, Hirshleifer & Welch, 1992). 초기 카페가 성공하면, 그 성공이 후속 진입자에게 상권 품질의 신호가 되어 추가 진입을 유도한다.

더 나아가, 카페 밀집도는 해당 상권의 '체류 생태계'를 반영한다. Edward Glaeser의 도시경제학 연구(2011)가 보여주듯, 소비자의 체류 시간은 주변 어메니티(amenity)의 다양성과 밀도에 비례한다. 카페는 그 자체로 체류를 유도하는 어메니티이면서, 동시에 다른 체류형 어메니티(서점, 편집숍, 갤러리 등)와 군집하는 경향이 있다. 즉, 카페 밀집도는 단일 변수이지만, 그 이면에는 상권의 체류 생태계 전반의 정보가 압축되어 있다.

이 발견은 클라이언트에게 즉시 실행 가능한 인사이트를 제공했다. 복잡한 유동인구 분석 이전에, 후보 입지 주변의 카페 수를 세는 것만으로도 상당한 초기 스크리닝이 가능하다는 뜻이기 때문이다.

발견 3: 임대료의 이중 신호

임대료는 약한 양의 상관을 보였다. 임대료가 높은 곳이 매출도 높은 경향이 있었지만, 수익성(매출 - 비용)과는 부정적 관계였다. 이를 우리는 '임대료 함정(rent trap)'이라 부르기로 했다.

이 현상은 경쟁 시장의 균형 이론으로 설명된다. 상권의 매력도가 높은 지역은 다수의 사업자가 입점을 원하므로, 임대료가 경쟁적으로 상승한다. 균형 상태에서 임대료는 해당 입지의 기대 수익을 상쇄하는 수준까지 올라간다. Jean Tirole의 산업조직론 프레임워크(1988)에서 설명하는 '지대 소진(rent dissipation)' 현상이 그대로 관찰된 것이다.

구체적인 수치로 보면, 임대료 상위 25% 매장의 평균 매출은 하위 25% 매장보다 약 40% 높았지만, 영업이익률은 오히려 3.2%p 낮았다. 즉, 좋은 자리에서 더 많이 팔았지만, 더 많이 남기지는 못했다.

한계: 데이터가 말해주지 않는 것들

위치 데이터 모델의 한계를 솔직하게 논의하는 것이 이 프로젝트에서 가장 중요한 부분이라고 생각한다. 모델의 성과를 과장하는 것은 클라이언트에게 잘못된 확신을 심어주고, 궁극적으로 더 큰 실패로 이어진다.

한계 1: 운영 역량의 블랙박스

위치 데이터 모델의 가장 큰 한계는 운영 역량을 반영하지 못한다는 점이다. 같은 입지라도 점주의 서비스 품질, 마케팅 노력, 직원 관리 수준에 따라 매출 차이가 크게 벌어졌다. 모델이 '매출 상위 20%'로 예측한 매장 중에서도 운영 부실로 하위 30%에 머문 경우가 있었다.

이는 통계학에서 말하는 '누락 변수 편의(omitted variable bias)'의 전형적 사례다. 운영 역량이라는 중요한 변수가 모델에 포함되지 않으면, 다른 변수들의 계수가 왜곡될 수 있다. 예컨대, 운영 역량이 높은 점주가 상권 분석도 더 잘해서 좋은 입지를 선택하는 경향이 있다면, 입지 변수의 효과가 과대 추정될 수 있다.

우리는 이 한계를 부분적으로 완화하기 위해, 기존 매장의 고객 리뷰 평점과 리뷰 수를 운영 역량의 프록시로 투입하는 시도를 했다. 결과적으로 모델의 MAPE가 약 1.5%p 개선되었으나, 신규 매장에 대해서는 이 변수를 알 수 없으므로 예측 시에는 사용할 수 없다는 근본적 제약이 남았다.

한계 2: 시간적 정태성

위치 데이터는 시간에 따른 상권 변화를 포착하지 못한다. 지금 유동인구가 많다고 3년 후에도 그렇다는 보장이 없다. 대형 개발 프로젝트, 경쟁 매장의 진입·퇴출, 도로·교통 인프라 변화 등은 예측하기 어렵다.

이 문제는 'non-stationarity'로 알려진 시계열 분석의 근본적 난제다. 우리의 모델은 본질적으로 과거 데이터의 패턴이 미래에도 유지된다는 가정에 의존한다. Nassim Nicholas Taleb이 The Black Swan(2007)에서 경고한 것처럼, 과거의 규칙성이 미래를 보장하지 않는다. 특히 상권은 '티핑 포인트(tipping point)' 현상이 두드러지는 복잡계로, 점진적 변화가 아니라 급격한 전환이 발생하기 쉽다.

실제로 프로젝트 기간 중 한 매장이 위치한 상권에 대형 쇼핑몰이 개점하면서, 해당 상권의 유동인구 패턴이 3개월 만에 완전히 재편된 사례가 있었다. 이런 구조적 변화는 과거 데이터로 예측이 불가능하다.

한계 3: 인과가 아닌 상관

기계학습 모델이 발견하는 것은 본질적으로 상관관계이지, 인과관계가 아니다. 카페 밀집도가 매출의 강력한 예측 변수라는 발견이 "카페 옆에 매장을 내면 매출이 높아진다"를 의미하지는 않는다. 카페와 높은 매출이 동일한 제3의 요인(예: 상권의 근본적 매력도)에 의해 동시에 결정되는 것일 수 있다.

이 구분은 실무적으로 중대한 함의를 갖는다. 만약 상관관계를 인과관계로 오해하면, 기업은 "카페가 많은 곳에 무조건 입점하라"는 잘못된 전략을 수립할 수 있다. Judea Pearl의 인과 추론 프레임워크(2009)가 강조하는 것처럼, 관찰 데이터에서 인과적 결론을 도출하려면 개입(intervention)의 논리를 적용해야 한다. 우리의 모델은 관찰 데이터 기반이므로, 예측에는 유용하지만 정책적 개입(예: "어디에 매장을 내야 하는가")에 대한 인과적 답변을 제공하지는 않는다.

한계 4: 데이터 자체의 편향

학습 데이터인 78개 기존 매장은 이미 과거의 의사결정을 통해 선정된 입지들이다. 즉, 표본 자체가 '이미 선정된' 입지로 구성되어 있어, 선정되지 않은 입지에 대한 정보가 구조적으로 부재하다. 이는 James Heckman이 1979년 논문에서 정립한 '표본 선택 편의(sample selection bias)'의 전형적 사례다. 기각된 후보 입지들의 잠재 매출을 관찰할 수 없기 때문에, 모델은 '좋은 입지 중 더 좋은 입지'를 구분하는 데는 탁월하지만, '나쁜 입지'에 대한 학습이 부족할 수 있다.

반론 및 대안적 시각

이 프로젝트의 접근 방식에 대해 몇 가지 정당한 비판이 가능하다.

첫째, 데이터 기반 입지 선정이 상권의 동질화를 가속화한다는 비판이 있다. 모든 기업이 동일한 데이터를 보고 동일한 결론에 도달하면, 특정 상권에 유사한 브랜드가 집중되고, 상권의 다양성이 감소할 수 있다. 이는 도시 계획에서 '브랜드 동질화(brand homogenization)' 또는 '제네리피케이션(generification)'으로 논의되는 현상이다. 이 비판은 타당하며, 데이터 모델이 보편화될수록 데이터에 나타나지 않는 차별화 요소(브랜드 독자성, 커뮤니티 관계 등)의 중요성이 역설적으로 높아질 것이다.

둘째, 작은 데이터의 한계를 기계학습으로 극복하려는 시도 자체가 적절한가라는 질문이 있다. 78개 매장은 기계학습의 관점에서 매우 작은 표본이다. 전통적 통계학에서라면 다중회귀분석으로 충분히 처리할 수 있는 규모다. 실제로 우리도 선형 회귀와 XGBoost를 비교했는데, 테스트셋에서의 성능 차이는 MAPE 기준 약 2%p에 불과했다. 복잡한 모델이 항상 나은 것은 아니며, 특히 작은 데이터에서는 과적합(overfitting)의 위험이 크다. 이 프로젝트에서 XGBoost를 선택한 것은 비선형 상호작용 효과를 포착하기 위해서였지만, 이 선택이 항상 정당화되지는 않는다.

셋째, 위치 데이터의 프라이버시 문제도 간과할 수 없다. 통신사 유동인구 데이터는 집계 데이터이므로 개인 식별 위험은 낮지만, 위치 데이터 활용이 고도화될수록 프라이버시 침해 가능성은 높아진다. EU의 GDPR이나 한국의 개인정보보호법 강화 추세를 고려하면, 위치 데이터 기반 분석의 법적·윤리적 경계는 더 좁아질 수 있다.

시사점: 데이터 기반 의사결정의 현실적 프레임워크

이 프로젝트에서 도출한 시사점을 세 가지 수준으로 정리한다.

실행적 시사점: 스크리닝 도구로서의 위치 데이터

위치 데이터 기반 예측은 의사결정의 '최소 기준선(minimum threshold)'을 제공한다. "최소한 이 정도는 될 가능성이 높다"를 말해줄 수 있다. 하지만 "반드시 성공한다"를 보장하지는 않는다. 따라서 이 모델의 가장 적절한 활용법은 '입지 후보 스크리닝'이다. 100개의 후보 입지를 10개로 좁히는 데 데이터를 쓰고, 10개에서 3개를 고르는 데는 현장 조사와 정성적 판단을 활용하는 것이 현실적 프레임워크다.

기업에게 권하는 것은 명확하다. 데이터로 명백한 실패를 걸러내되, 성공은 운영으로 만들어라. 이는 '방어적 의사결정(defensive decision-making)'의 원칙이기도 하다. Warren Buffett이 투자에서 강조하는 "Rule No. 1: Never lose money"와 같은 논리다. 최적의 입지를 찾는 것보다, 최악의 입지를 피하는 것이 기대 수익을 더 크게 개선한다.

전략적 시사점: 위치 데이터를 넘어서

이 프로젝트는 위치 데이터의 가치만큼이나, 위치 데이터로는 포착할 수 없는 영역의 중요성을 부각시켰다. 운영 역량, 브랜드 파워, 고객 충성도, 점주의 지역사회 네트워크 등은 데이터에 잡히지 않지만, 매출 분산의 상당 부분을 설명한다.

이를 확장하면, 기업의 의사결정 시스템은 '데이터 계층(data layer)'과 '판단 계층(judgment layer)'의 이중 구조로 설계되어야 한다. 데이터 계층은 구조화된 변수에 기반한 정량적 분석을 담당하고, 판단 계층은 데이터로 포착할 수 없는 정성적 요인을 담당한다. 두 계층이 분리되어야 하는 이유는, 판단이 데이터를 오염시키는 것(데이터를 원하는 결론에 맞추어 해석하는 확증 편향)과 데이터가 판단을 대체하는 것(숫자에 과도한 확신을 부여하는 정밀성 편향) 모두를 방지하기 위해서다.

학술적 시사점: 예측과 인과의 간극

이 프로젝트는 예측 모델과 인과 모델의 근본적 차이를 실무적으로 확인한 사례이기도 하다. 예측이 정확하다고 해서 인과적 이해가 수반되는 것은 아니며, 인과적 이해 없이는 전략적 개입의 방향을 설정할 수 없다. 향후 이 프로젝트를 확장한다면, 자연실험(natural experiment)이나 도구변수(instrumental variable) 접근을 통해 입지 특성과 매출 간의 인과적 관계를 추정하는 것이 다음 단계가 될 것이다.


참고문헌

  • Bikhchandani, S., Hirshleifer, D., & Welch, I. (1992). A theory of fads, fashion, custom, and cultural change as informational cascades. Journal of Political Economy, 100(5), 992-1026.
  • Einhorn, H. J., & Hogarth, R. M. (1978). Confidence in judgment: Persistence of the illusion of validity. Psychological Review, 85(5), 395-416.
  • Glaeser, E. L. (2011). Triumph of the City. Penguin Press.
  • Heckman, J. J. (1979). Sample selection bias as a specification error. Econometrica, 47(1), 153-161.
  • Huff, D. L. (1964). Defining and estimating a trading area. Journal of Marketing, 28(3), 34-38.
  • Kahneman, D. (2011). Thinking, Fast and Slow. Farrar, Straus and Giroux.
  • Kahneman, D., & Klein, G. (2009). Conditions for intuitive expertise: A failure to disagree. American Psychologist, 64(6), 515-526.
  • Lundberg, S. M., & Lee, S. I. (2017). A unified approach to interpreting model predictions. Advances in Neural Information Processing Systems, 30.
  • Pearl, J. (2009). Causality: Models, Reasoning, and Inference (2nd ed.). Cambridge University Press.
  • Tirole, J. (1988). The Theory of Industrial Organization. MIT Press.

기업 프로젝트 문의는 Work With Us 페이지를 참고해주세요.

#research#prediction#case

관련 아티클