멀티에이전트 시뮬레이션을 과학으로 쓰는 5가지 의무

LLM 에이전트 수십 개가 서로 대화하며 시장이 움직이는 화면은 매혹적이다. 그래서 기업이 가장 자주 저지르는 실수가 여기서 나온다. '예쁘게 돌아가는 데모'를 '현실을 예측하는 모델'로 착각하는 것이다. 에이전트가 사람처럼 말한다고 해서, 그 시뮬레이션이 현실을 맞히는 것은 아니다. 둘은 전혀 다른 기준으로 평가된다.

이 구분은 취향이 아니라 방법론의 문제다. Collins(2024, JASSS), He 외(2025, ACM TOMACS), Larooij & Törnberg(2025, AI Review)가 각각 다른 각도에서 같은 결론에 도달한다. 시뮬레이션의 가치는 '인간 같아 보임'이 아니라, 사전 등록한 경험적 타깃에 대한 오차 구조와 관측되지 않은 상황에서의 일반화 성능으로 판정된다는 것이다. 그럴듯함은 검증이 아니다.

검증은 한 층이 아니라 세 층이다

진지한 시뮬레이션 연구는 검증을 세 층으로 분리해 보고한다. 이 셋을 뭉뚱그리는 순간, 시뮬레이션은 비싼 그림이 된다.

Verification(구현 검증) — 코드와 로직이 설계한 대로 작동하는가. "버그 없이 의도대로 도는가"의 문제다.
Calibration(보정) — 모수와 초기 조건을 현실 데이터에 맞췄는가. 모델을 관측에 정렬하는 단계다.
Validation(타당성) — 그렇게 맞춘 모델이 학습에 쓰지 않은, 관측되지 않은 상황에서도 현실의 구조를 보존하는가. 진짜 예측력은 여기서만 증명된다.

많은 기업 프로젝트가 ①에서 멈추거나, ②와 ③을 섞는다. "현실 데이터에 맞췄다(Calibration)"를 "현실을 예측한다(Validation)"로 포장하는 것이 가장 흔한 과장이다. 맞춘 데이터를 다시 맞히는 건 누구나 한다. 모델이 과학이 되는 건, 본 적 없는 상황을 맞힐 때다.

재현성 위기 — 돌아가는 코드와 재현되는 결과는 다르다

Heather 외(2025)는 의료 시스템 분야의 공개된 이산사건 시뮬레이션(DES) 연구들을 직접 재현해 봤다. 결과는 뼈아팠다. 모델 하나당 최대 28시간의 추가 디버깅이 필요했고, 절반만이 완전히 재현됐다. 공개된 코드가 곧 재현 가능한 연구는 아니라는 뜻이다.

그래서 표준이 만들어지고 있다. CoMSES Net의 FAIR 코드 아카이빙, ACM REP의 Replicated Computation Results 인증, 행위자 기반 모델의 ODD·TRACE 보고 규약이 그것이다. 공통점은 하나다. "결과를 믿어 달라"가 아니라, 남이 그대로 재현할 수 있게 모든 조건을 기록하라는 것이다. LLM 시뮬레이션에서는 이게 더 절박하다. 프롬프트, 모델 버전, 시드, 온도(temperature) 하나만 바뀌어도 결과가 흔들리기 때문이다.

윤리·규제라는 또 하나의 검증

합성 페르소나는 공짜로 무한정 굴릴 수 있는 자원이 아니다. 규제가 이미 선을 긋고 있다.

유럽 데이터보호위원회(EDPB)는 2024년 의견서에서 **"개인정보로 학습된 AI 모델이 자동으로 익명화된 것으로 간주되지 않는다"**고 명시했고, 2025년 의사익명화(pseudonymization) 가이드라인이 이를 재확인했다. EU AI Act는 조작·사회적 점수화·직장 내 감정추론을 직접 제한한다. 미국 NIST의 AI RMF는 confabulation(환각)·데이터 프라이버시·유해 편향을 핵심 위험으로 다루지만, 2026년 현재 '멀티에이전트 전용' 프레임워크는 아직 없다.

한국은 더 실무적이다. 개인정보보호위원회의 2024년 「AI 개발·서비스를 위한 공개된 개인정보 처리 안내서」, 2025년 「생성형 AI 개발·활용을 위한 개인정보 처리 안내서」, 그리고 자동화 결정에 대한 거부·설명 요구권을 명문화한 개정 개인정보보호법이 합쳐졌다. 합성 페르소나 데이터를 출처 점검 없이 무한정 굴리던 시대는 이미 끝났다. 어떤 개인정보가 페르소나에 학습됐는지를 추적하는 것 자체가 검증의 일부가 됐다.

시뮬레이션을 과학으로 만드는 5가지 의무

연구실이 합성 소비자·합성 사회 프로젝트를 수행할 때 지키는 원칙이다.

세 층을 분리 보고하라. 결과 보고서에 Verification·Calibration·Validation을 따로 적는다. 어디까지 검증됐는지가 한눈에 보여야 한다.
재현성 로그를 의무화하라. 프롬프트·모델 버전·시드·온도를 전부 기록한다. 기록 없는 결과는 결과가 아니다.
단일 사양 결과를 금지하라. 하나의 설정에서 나온 그림 한 장이 아니라, 다중 사양(multiverse)·민감도 분석을 함께 제출한다. 결론이 설정 하나에 매달려 있으면 그건 결론이 아니다.
개인정보 출처를 점검하라. 합성 페르소나에 실제 개인정보가 학습됐는지를 EDPB 기준으로 확인한다.
'반대 옹호자'를 상시 배치하라. 시뮬레이션 결과를 의사결정에 쓰는 회의에는, 그 결과를 깨려 드는 역할을 항상 둔다. 매혹적인 데모일수록 더.

합성 시뮬레이션이 강력한 이유는 현실에서 불가능한 실험을 가상에서 돌릴 수 있기 때문이다. 그러나 그 힘은 검증이라는 비용을 치를 때만 신뢰가 된다. 그럴듯하게 돌아가는 화면은 누구나 만든다. 본 적 없는 현실을 맞히고, 그걸 남이 재현하게 만드는 것 — 그게 시뮬레이션을 과학으로 만든다.

— 임보람

멀티에이전트 시뮬레이션을 과학으로 쓰는 5가지 의무

검증은 한 층이 아니라 세 층이다

재현성 위기 — 돌아가는 코드와 재현되는 결과는 다르다

윤리·규제라는 또 하나의 검증

시뮬레이션을 과학으로 만드는 5가지 의무

관련 아티클

AgentSociety: 출시 전에 100번 살아보는 시대

합성 소비자: 신상품 개발의 게임이 바뀐다

AI로 매출을 97.7% 맞추다 — 한 프랜차이즈 기업의 매출 예측 프로젝트