Corgi - Diagonal Select 2 데이터마이닝(Data Mining)과 데이터사이언스(Data Science) Corgi - Diagonal Select 2

IT Terminology/IT Terms

데이터마이닝(Data Mining)과 데이터사이언스(Data Science)

sujin-note 2025. 6. 23. 01:56

안녕하세요! 수진입니다:) 

 

데이터마이닝(Data Mining)과 데이터사이언스(Data Science)에 대해서 기록해보겠습니다!

 

데이터마이닝(Data Mining)

데이터마이닝은 대규모 데이터 속에서 유용한 패턴(규칙), 트렌드, 연관성을 자동 또는 반자동으로 발굴하는 과정입니다. 

마이닝은 채굴이라는 의미며 대량의 데이터를 분석해서 지금까지 몰랐던 것을 발견하는 것을 데이터 마이닝이라고 합니다.

 

데이터마이닝(Data Mining)의 특징

- 데이터에서 패턴만 발굴

- 도메인 지식 없어도 자동화된 알고리즘 중심

- 주로 대규모 정형 데이터에 적용

 

데이터마이닝(Data Mining)의 목적

숨겨진 지식을 찾아내 의사결정 지원이나 예측 모델 구축하는데 활용합니다.

 

데이터마이닝(Data Mining)의 주요 기법

분류(Classification): 연속성 목표값을 예측

회귀(Regression): 연속형 목표값을 예측

클러스터링(Clustering): 라벨 없이 데이터끼리 유사도 기준으로 그룹화

연관 규칙 발굴(Associatiion Rule Mining): 항 목 간, 자주 발생하는 연관 패턴(A -> B)을 찾음

이상치 탐지(Anomaly Detection): 정상적인 패턴에서 벗어난 이상 데이터를 식별

 

데이터마이닝(Data Mining)의 프로세스

비즈니스 이해: 해결할 비즈니스 문제 정의

데이터 이해: 데이터 수집 및 탐색적 분석(EDA)

데이터 준비: 전처리(클렌징, 결측치 처리, 변수 변환)

모델링: 적절한 알고리즘 선택, 학습, 파라미터 튜닝

평가: 모델의 성능 및 비즈니스 목표 부합 여부 확인

배포: 실제 시스템에 모델 적용 및 모니터

 

데이터사이언스(Data Science)

데이터사이언스는 데이터 기반 문제 해결 전반을 아우르는 학문, 실무 분야로, 데이터 회득 -> 처리 -> 분석 -> 시각화 -> 의사소통의 전체 사이클을 포함합니다. 수학과 통계학, 프로그래밍 등을 활용해서 비즈니스에 도움되는 정보를 추출하는 것을 데이터 사이언스라고 한다. 

 

데이터사이언스(Data Science)의 특징

- 비즈니스 가치 창출에 초점

- 종합 역량으로 프로그래밍, 통계, 도메인 지식, 시각화, 커뮤니케이션 역략 필요

- 범용성: 정형,비정형(텍스트, 이미지, 로그) 데이터 모두 다룸.

 

데이터사이언스(Data Science)의 목적

비즈니스, 사회, 과학 분야의 의사결정 및 혁신

 

데이터사이언스(Data Science)의 구성요소

데이터 엔지니어링 = 데이터 파이프라인 설계 및 구축(ETL),빅데이터 플랫폼 관리(Spark, Hadoop)

통계, 수리 모델링 = 가설 검정, 베이지안 분석, 시계열 모델 등

머신러닝, 딥러닝 = 예측 모델, 추천 시스템, 자연어 처리, 컴퓨터 비전

데이터 시각화, 스토리텔링 = Power BI, D3.js등을 활용해 통찰 전달

도메인 전문지식 = 산업,연구 분야의 맥락을 이해해 분석 결과 해석 및 실행 전략 수립

 

데이터사이언스(Data Science)의 프로세스

Obtain: 데이터 수집(API,크롤링, DB등)

Scrub: 클렌징,정형화,EDA

Explore & Model: 통계 분석 및 머신러닝

Interpret: 결과 해석 및 시각화

Communicate: 보고서, 대시보드, 프레젠테이션으로 전달

 

광부가 원석을 캐내는 데이터마이닝(Data Mining)과 보석 세공사가 보석을 다듬는 데이터사이언스(Data Science) 과정을 비유적으로 그려보았습니다. 쉽게 이해가 되나요? sujin-note


용어와 관련 이야기

텍스트 마이닝

대량의 문장을 대상으로 한 데이터 마이닝을 텍스트 마이닝이라고 부르며 단어의 상관관계를 분석해서 유용한 정보를 골라냅니다.

데이터 정리의 필요성

데이터 마이닝에는 대량의 데이터가 필요하고 복수의 시스템에서 수집해 시계열로 축적한 데이터를 보존하는 시스템을 데이터 웨어하우스라고 부른다. 연관지어서 알면 좋겠지요~!


용어 사용의 예시

데이터 마이닝 기법을 실무에 적용하려면 데이터 사이언스의 기본 통계 지식이 필수적일까요?

 

관련 용어

빅데이터, 오픈 데이터, 데이터분석