내배캠_Data_3기/TIL 27

240828_데이터 전처리_인덱스(Index)

데이터 저장하기df.to_csv("tips_data.csv", index=False) # csv형태로 저장df.to_excel("tips_data.xlsx", index=False) # 엑셀파일로 저장 데이터 불러오기df = pd.read_csv("tips_data.csv")# pd.read_파일형식("파일경로/파일이름.형식")  인덱스df = pd.DataFrame({ 'A':[1,2,3], 'B':['a','b','c']}, index = ['idx1','idx2','idx3'])df 해당값 보기df.loc['idx2'] 인덱스 정렬df.sort_index() 인덱스를 A로 지정df.set_index('A') 인덱스 보기df.index 인덱스지정df.index = ['1','2','3'] ..

240827_데이터 전처리(Pandas)

강의 : 데이터 전처리(Pandas)강의 목표: Python의 Pandas 라이브러리를 활용해서 데이터를 전처리하는 과정을 학습해보자. 데이터 전처리>데이터 전처리란?내가 원하는 데이터를 보기 위해 하는 모든 활동 = 데이터 전처리 >데이터 전처리 왜함?실제 데이터는 원하는 형태로 구축되어있지 않다.그래서 데이터를 필요한 형태로 하나하나 가공해서 활용해야한다. >데이터 전처리는 어떻게 함?데이터 전처리는 꼭 방향성을 가지고 해야한다.데이터를 통해 얻고자 하는지, 그 목적을 달성하기 위해 데이터 전처리가 필요하다.  Pandas>Pandas 와 Excel1. 자동화와 프로그래밍 기능Pandas는 다양한 라이브러리를 사용하여 데이터를 불러오고, 변환하며, 분석할 수 있다. 이를 통해 반복적이고 복잡한 작업을..

240826_데이터 분석가란?

강의 : 데이터 분석가란?강의 목표 : 데이터 분석가는 어떤 일을 하는지 알아보고 앞으로의 방향성을 설정하자. >내가 생각하는 데이터 분석가는 누구인가? Data Analyst Business Analyst 비즈니스 관점매출, 비용, 가격, 대외적인 이슈 등 Product Analyst 유저, 제품 관점유입/전환, 결제율, 이탈 등 BI Analyst DL, DW, DM, ETLVisualization가장 '엔지니어'스러운 분석가 BA, PA, BI, DS, DA, ... 등비즈니스 분석가주로 비즈니스 문제를 이해하고 해결하기 위해 데이터를 분석한다.비즈니스 프로세스 및 요구 사항을 파악하고, 데이터 기반으로 의사결정을 지원한다.주로 업무 프로세스 개선, 비즈니스 모델 분석, 요구 사항 관리 등을 수행..

240812_머신러닝 기초 1. 머신러닝의 기초

강의 : 머신러닝의 애하와 라이브러리 활용 기초 1. 머신러닝의 기초 머신러닝(Machine Learning, ML)은 기술 통계 등을 통하여 집계된 정보로 의사결정을 했던 과거와 달리 데이터 수집과 처리 기술의 발전으로 대용량 데이터의 패턴을 인식하고 이를 바탕으로 예측, 분류하는 방법론을 말한다. 머신러닝 관련 용어AI : 인간의 지능을 요구하는 업무를 수행하기 위한 시스템Machine Learning :  관측된 패턴을 기반으로 의사 결정을 하기 위한 알고리즘Deep Learning : 인공신경망을 이용한 머신러닝Data Science : AI를 포괄하여 통계학과 컴퓨터공학을 바탕으로 발전한 융합학문Data Analysis : 데이터 집계, 통계 분석, 머신러닝을 포함한 행위 머신러닝 종류Super..

240809_통계학 기초 5주차 상관관계

상관관계5.1 피어슨 상관계수 1) 피어슨 상관계수란 무엇일까?피어슨 상관계수두 연속형 변수 간의 선형 관계를 측정하는 지표피어슨 상관계수 그래프에서 x와 y의 선형 관계를 보여준다.-1에서 1 사이의 값을 가지며1은 완전한 양의 선형 관계-1은 완전한 음의 선형 관계0은 선형 관계가 없음을 의미더보기import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns from scipy.stats import pearsonr # 예시 데이터 생성 np.random.seed(0) study_hours = np.random.rand(100) * 10 exam_scores = 3 * study_hours + np..

240808_통계학 기초 4주차

통계학 기초 4주차 - 회귀(Regression) 4.1 단순선형회귀단순선형회귀 : 하나의 독립 변수(X)와 하나의 종속 변수(Y) 간의 관계를 직선으로 모델링하는 방법회귀식 :  Y = β0 + β1X, 여기서 β0는 절편, β1는 기울기(1차함수)특징독립 변수의 변화에 따라 종속 변수가 어떻게 변화하는지 설명하고 예측.데이터가 직선적 경향을 따를 때 사용한다.간단하고 해석이 용이하다.데이터가 선형적이지 않을 경우 적합하지 않다. 단순선형회귀를 사용할 때하나의 독립변수와 종족변수와의 관계를 분석 및 예측광고비(X)와 매출(Y) 간의 관계 분석.현재의 광고비를 바탕으로 예상되는 매출을 예측 가능. 4.2 다중선형회귀다중선형회귀 : 두 개 이상의 독립 변수(X1, X2, ..., Xn)와 하나의 종속 변수..

240807_통계학 기초 3주차

유의성검정 A/B 검정 : 두 그룹(A, B)과 비교하는 게 포인트A/B검정은 두 버전(A와 B) 중 어느 것이 더 효과적인지 평가하기 위해 사용되는 검정 방법.마케팅, 웹사이트 디자인 등에서 많이 사용됨.사용자들을 두 그룹으로 나누고, 각 그룹에 다른 버전을 제공한 후, 반응을 비교.일반적으로 전환율, 클릭률, 구매수, 방문 기간, 방문한 페이지 수, 특정 페이지 방문 여부, 매출 등의 지표를 비교.목적 : 두 그룹 간의 변화가 우연이 아니라 통계적으로 유의미한지를 확인. A/B 검정이 실제로 어떻게 적용되어질까?두 개를 비교하여 구매 전환율이 큰 것을 선택 : 온라인 쇼핑몰에서 두 가지 디자인(A와 B)에 대한 랜딩 페이지를 테스트하여 어떤 디자인이 더 높은 구매 전환율을 가져오는지 평가.

240806_통계학 기초 2주차 데이터의 분포

강의 : 통계학 기초 2주차 데이터의 분포 모집단과 표본모집단 : 관심의 대상이 되는 전체 집단표본 : 모집단에서 추출한 일부 표본을 사용하는 이유현실적인 제약비용과 시간: 전체 모집단을 조사하는 것은 비용과 시간이 많이 들기 때문에 대부분의 경우 불가능하거나 비효율적이다. 표본 조사는 이러한 자원을 절약하면서도 유의미한 결과를 도출할 수 있는 방법이다.접근성 : 모든 데이터를 수집하는 것이 물리적으로 불가능한 경우가 많다. 예를 들어, 특정 질병에 걸린 모든 환자의 데이터를 수집하는 것은 어려울 수 있다.대표성표본의 대표성잘 설계된 표본은 모집단의 특성을 반영할 수 있습니다. 이를 통해 표본에서 얻은 결과를 모집단 전체에 일반화할 수 있습니다.무작위로 표본을 추출하면 편향을 최소화하고 모집단의 다양한 ..

240805_통계학 기초 1주차 데이터의 분석과 통계

통계학 기초 1주차1-1 데이터 분석에 있어서 통계가 중요한 이유데이터 분석하고 이를 바탕으로 결정을 내릴 수 있다.데이터 분석에서 통계는 데이터를 이해하고 해석하는 데 중요한 역할을 한다.데이터를 요약하고 패턴을 발견할 수 있다추론을 통해 결론을 도출화는 과정을 돕는다.즉, 데이터 기반의 의사결정을 내릴 수 있다.결국 기업이 보다 현명란 결정을 내리고 수익을 창출하기 위해 필요하다. 1-2 기술통계와 추론통계1) 기술통계 : 데이터를 요약하고 설명하는 통계 방법주로 평균, 중앙값, 분산, 표준편차 등을 사용한다.데이터를 특정 대표값으로 요약 ex)회사의 매출 데이터를 요약하기 위해 평균 매출, 매출의 표준편차 등을 계산데이터에 대한 대략적인 특징을 간단하고 쉽게 알 수 있음단, 데이터 중 예외(이상치)..

240718_파이썬, PYTHON, WHILE문

while문은 조건문이 참이면 계속해서 반복실행한다.while 문을 사용하여 1부터 10까지의 숫자를 출력하는 프로그램을 작성하기더보기# 방법 1count = 0while count     count = count + 1    print(count)# 방법 2count = 0while True:    count = count + 1    if count>10:        break    print(count)   컴프리핸션 : 코드로 잘난척하기ㅋㅋㅋ장점 코드가 간결해진다.리스트를 만드는 과정이 한 눈에 들어온다더 빠른 실행 속도를 가질 수 있다.단점복잡한 로직을 포함할 경우 가독성이 떨어진다.너무 긴 컴프리핸션은 코드의 이해를 어렵게 한다.# 기존 방식numbers = [1, 2, 3, 4, 5]squ..