내배캠_Data_3기/TIL

240705_데이터 리터러시

케일라(Data_3기) 2024. 7. 5. 17:32

강의 : 데이터 리터러시

 

1-1 데이터 리터러시란?

 

  • 데이터를 읽는 능력
  • 데이터를 이해하는 능력
  • 데이터를 비판적으로 분석하는 능력
  • 결과를 의사소통에 활용할 수 있는 능력

 

  • 데이터 수집과 데이터 원천을 이해
  • 데이터에 대한 활용법을 이해
  • 데이터를 통한 핵심지표를 이해

=> 데이터 리터러시는 올바른 질문을 던질 수 있도록 만들어줌

 

심슨의 역설(Simpson's Paradox)

  • 전체에 대한 결론이 언제나 개별 집단에 그대로 적용되는 것은 아님
  • 데이터에 기반한 결론이라고 해서 이를 맹목적으로 받아들여서는 안됨

 

시각화를 활용한 왜곡

  • 자료의 표현 방법에 따라서 해석의 오류 여지가 존재
  • 전체를 대표하지 못하는 편향된 샘플 선정으로 인해 오류가 발생

상관관계와 인과관계

상관관계

  • 두 변수가 얼마나  상호 의족적인지를 파악하는 것을 의미
  • 파악 방법은 한 변수가 증가하면 다른 변수도 따라서 증가/감소하되 그 추이를 따름

인과관계

  • 실질적으로 하나의 요인으로 인해 다른 요인의 수치가 변하는 형태를 의미
  • 원인과 결과가 명확한 것

 

데이터 리터러시가 필요한 이유

문제 및 가설 정의 + 생각 ->데이터 분석 + 생각 -> 결과 해석 및 액션 도출 + 생각

  • 데이터 리터러시가 필요한 '생각'부분에서 문제가 되는 경우가 많음
  • 데이터 분석이 목적이 된지 않도록 '왜?'를 항상 생각해야함

 

 

1-2 문제 정의

 

문제정의란?

  • 데이터 분석 프로젝트의 성공을 위한 초석
  • 분석하려는 특정 상황이나 현상에 대한 명확하고 구체적인 진술
  • 프로젝트의 목표를 설정하고 분석 방향을 결정

 

*구매전환율 : 고객이 방문한 후 구매까지 전환됐는지의 여부

*구매고객수/방문고객수*100 = 구매 전환율(%)

 

문제 정의 방법론 : MECE

MECE : Mutually Exclusive, Collectively Exhaustive

  • 문제해결과 분석에서 널리 사용되는 접근 방식
  • 문제를 상호 배타적( Mutually Exclusive)이면서, 전체적으로 포괄적( Collectively Exhaustive)인 구성요소로 나누는것
  • MECE를 통해 복잡한 문제를 체계적으로 분해하고, 구조화된 방식으로 분석할 수 있음

로직 트리(Logic Tree)

  • MECE 원칙을 기반으로 복합한 문제를 더 작고 관리하기 쉬운 하위 문제로 분해하는데 사용
  • 상위 문제로부터 시작하여 하위 문제로 계층적 접근
  • 일반적으로 도표 형식으로 표현되어 쉽게 파악할 수 있음

문제정의와 관련된 팁

결과를 공유하고자 하는 사람이 누구인지 정의하기

결과를 통해 원하는 변화를 생각하기

회사소속이라면, 경영자의 입장에서 보려고 노력

많은 사람들과 의견을 나눠보는 것도 방법

반드시 혼자서 오래 고민해보는 시간을 가질 것

 

 

1-3 데이터의 유형

정성적 데이터(Qualitative Data)

  • 비수치적인 정보로 사람의 경험, 관점, 태도와 같은 주관적인 요소를 포함
  • 대부분 텍스트, 비디오, 오디오 형태로 존재
  • 정형되지 않고 구조화 되어있지 않다
  • 데이터를 구조화하기 어렵다
  • 새로운 현상이나 개념에 대한 이해를 심화하는데 사용

정량적 데이터(Quantitative Data)

  • 수치적으로 표현되는 정보로 양적인 측정과 분석을 통해 얻을 수 있음
  • 데이터가 숫자 형태로 존재하기 때문에 통계적으로 분석하기 쉽다
  • 개인의 해석이나 주관이 적게 작용하는 객관성을 가지고 있다.
  • 지표로 만들기에 용이하다
  • 설문조사,  실험, 인구 통계, 지표 분석 등에 활용한다.

데이터 유형별 비교

  • 비즈니스 목표를 위해서 두 가지 데이터를 적절하게 활용해야 함
  • 지표설정과 분석에 활용하기 위한 정량적 데이터를 중점적으로 살펴볼 예정