데이터 집계는 기본, 머신러닝(ML)으로 인과관계 규명하고 LLM으로 전략 보고서 자동 생성
데이터 분석의 출발점은 현황 파악이다. 데이터베이스(DB)에 저장된 성별·연령별 응답을 집계하는 과정에서는 복잡한 인공지능보다는 정교한 데이터 가공 로직이 핵심 역할을 한다.
Pandas나 SQL과 같은 도구를 활용해 기술 통계(Descriptive Statistics)를 산출하고, 두 변수 간의 관계를 보여주는 교차 분석(Crosstabulation)을 진행한다. 여기에 K-평균 군집화(K-Means Clustering) 기술을 더하면 응답자들을 특성에 따라 ‘기술 관심도가 높은 20대 남성’ 등의 그룹으로 묶어 전체적인 데이터 분포를 한눈에 파악할 수 있다.

로지스틱 회귀(Logistic Regression): 특정 선택에 영향을 준 요인을 계수로 산출해 영향력을 파악한다. 의사결정 나무(Decision Tree): 데이터가 분류되는 과정을 나무 모양의 지도로 시각화하여 "20대 이상 남성이 A를 선택했다"는 식의 명확한 의사결정 규칙을 제시한다. SHAP(설명 가능한 AI): XGBoost나 LightGBM 등 고성능 모델에 SHAP 기술을 결합하면, 각 결과에 대해 성별이나 지역이 몇 %의 기여도를 가졌는지 수치로 정교하게 설명할 수 있다. 카이제곱 검정(Chi-square Test): 결과의 차이가 단순한 우연인지, 통계적으로 유의미한 차이인지를 판별해 분석의 신뢰도를 뒷받침한다.
데이터 분석 발전의 최종 단계에서는 거대언어모델(LLM)이 활용되는 사례가 늘고 있다. 과거에는 전문가가 수치와 그래프를 보고 며칠에 걸쳐 보고서를 썼지만, 이제는 AI가 그 역할을 수행한다. 앞선 단계에서 도출된 통계치와 ML의 분석 결과를 LLM에 입력하면, AI는 이를 문장 형태로 요약해 리포트를 완성한다. ‘이번 조사의 핵심 원인은 성별이며, 특히 20대 남성 고객의 유입 경로에 주목해야 한다’는 식의 인사이트를 인간의 언어로 즉시 제공하는 방식이다.
IT 업계 관계자는 "단순 집계는 이제 기본"이라며, "머신러닝으로 원인을 규명하고 LLM으로 누구나 이해하기 쉬운 리포트를 생성하는 기술 결합이 향후 기업 의사결정의 핵심 경쟁력이 될 것"이라고 전했다.
황인석 빅데이터뉴스 기자 his@thebigdata.co.kr
<저작권자 © 빅데이터뉴스, 무단 전재 및 재배포 금지>
