내배캠 63

240828_데이터 전처리_인덱스(Index)

데이터 저장하기df.to_csv("tips_data.csv", index=False) # csv형태로 저장df.to_excel("tips_data.xlsx", index=False) # 엑셀파일로 저장 데이터 불러오기df = pd.read_csv("tips_data.csv")# pd.read_파일형식("파일경로/파일이름.형식")  인덱스df = pd.DataFrame({ 'A':[1,2,3], 'B':['a','b','c']}, index = ['idx1','idx2','idx3'])df 해당값 보기df.loc['idx2'] 인덱스 정렬df.sort_index() 인덱스를 A로 지정df.set_index('A') 인덱스 보기df.index 인덱스지정df.index = ['1','2','3'] ..

240806_통계학 기초 2주차 데이터의 분포

강의 : 통계학 기초 2주차 데이터의 분포 모집단과 표본모집단 : 관심의 대상이 되는 전체 집단표본 : 모집단에서 추출한 일부 표본을 사용하는 이유현실적인 제약비용과 시간: 전체 모집단을 조사하는 것은 비용과 시간이 많이 들기 때문에 대부분의 경우 불가능하거나 비효율적이다. 표본 조사는 이러한 자원을 절약하면서도 유의미한 결과를 도출할 수 있는 방법이다.접근성 : 모든 데이터를 수집하는 것이 물리적으로 불가능한 경우가 많다. 예를 들어, 특정 질병에 걸린 모든 환자의 데이터를 수집하는 것은 어려울 수 있다.대표성표본의 대표성잘 설계된 표본은 모집단의 특성을 반영할 수 있습니다. 이를 통해 표본에서 얻은 결과를 모집단 전체에 일반화할 수 있습니다.무작위로 표본을 추출하면 편향을 최소화하고 모집단의 다양한 ..

아티클 분석 및 정리 (7) 20240806

오늘 읽은 아티클은 [엑셀로 온라인 서비스의 RDB 이해하기]링크 : https://yozm.wishket.com/magazine/detail/1721/ 요약 : 우리는 엑셀로 데이터를 다루고 있지만, RDB와는 차이가 있다. 주요 포인트 :우리는 이미 엑셀(Excel)로 데이터를 다루고 있다. 엑셀의 핵심 기능은 데이터의 기록과 관리이다.엑셀과 RDBMS의 DB는 비슷하면서 다르다. 엑셀은 직관적이지만 SQL은 명령어로 진행되기 때문에 같은 작업도 복잡해 보인다. 또 엑셀에서는 사용자가 표를 만들고 데이터를 조회하고 입력하고 수정하고 삭제할 수 있지만 온라인 서비스의 DB에서는 이러한 권한을 나누고 제한한다. 핵심개념 : RDBMS(Relational Database Management System) ..

240718_파이썬, PYTHON, WHILE문

while문은 조건문이 참이면 계속해서 반복실행한다.while 문을 사용하여 1부터 10까지의 숫자를 출력하는 프로그램을 작성하기더보기# 방법 1count = 0while count     count = count + 1    print(count)# 방법 2count = 0while True:    count = count + 1    if count>10:        break    print(count)   컴프리핸션 : 코드로 잘난척하기ㅋㅋㅋ장점 코드가 간결해진다.리스트를 만드는 과정이 한 눈에 들어온다더 빠른 실행 속도를 가질 수 있다.단점복잡한 로직을 포함할 경우 가독성이 떨어진다.너무 긴 컴프리핸션은 코드의 이해를 어렵게 한다.# 기존 방식numbers = [1, 2, 3, 4, 5]squ..

아티클 분석 및 정리 (6) 20240717

오늘 읽은 아티클은 [SQL 질문 잘 하는 방법]링크 : https://datarian.io/blog/how-to-ask-good-sql-questions SQL 질문 잘 하는 방법막막함에 부딪혔을 때 이 글이 도움이 되길 바랍니다. 새로운 걸 배우는 모두가 멋있어요.datarian.io  요약 : 문제를 해결하는 두 가지 방법은 인터넷 검색을 하거나 같이 공부하는 사람이나 멘토에게 물어보기가 있다.  주요 포인트 : 질문 전 체크리스트를 점검해보고 해결 되지 않을 때,   인터넷 검색을 하거나 같이 공부하는 사람이나 멘토에게 물어보기.체크리스트코드에 오탈자가 없는가?쿼리 실행 후 에러메세지를 읽어보고 그에 맞는 조치를 취했는가?문제에서 요구하는 조건을 빠짐없이 작성하였는가? 특히 WHERE 절의 필터링..

[코딩연습]프로그래머스_조건별로 분류하여 주문상태 출력하기

문제 FOOD_ORDER 테이블에서 2022년 5월 1일을 기준으로 주문 ID, 제품 ID, 출고일자, 출고여부를 조회하는 SQL문을 작성해주세요. 출고여부는 2022년 5월 1일까지 출고완료로 이 후 날짜는 출고 대기로 미정이면 출고미정으로 출력해주시고, 결과는 주문 ID를 기준으로 오름차순 정렬해주세요. 조건어떤 테이블에서 데이터를 뽑을 것인가 : FOOD_ORDER어떤 컬럼을 이용할 것인가 : ORDER_ID, PRODUCT_ID, OUT_DATE어떤 조건을 지정해야 하는가 : 출고여부는 2022년 5월 1일까지 출고완료로 이 후 날짜는 출고 대기로 미정이면 출고미정으로 출력어떤 함수(수식)을 이용해야 하는가 : CASE WHEN, ORDER BY

[코딩연습]프로그래머스_조건에 맞는 도서와 저자 리스트 출력하기

문제'경제' 카테고리에 속하는 도서들의 도서 ID(BOOK_ID), 저자명(AUTHOR_NAME), 출판일(PUBLISHED_DATE) 리스트를 출력하는 SQL문을 작성해주세요. 결과는 출판일을 기준으로 오름차순 정렬해주세요. 조건어떤 테이블에서 데이터를 뽑을 것인가 : BOOK, AUTHUR어떤 컬럼을 이용할 것인가 : BOOK_ID, AUTHUR_NAME, PUBLISHED_DATE어떤 조건을 지정해야 하는가 : CATEGORY='경제'어떤 함수(수식)을 이용해야 하는가 : LEFT JOIN, WHERE, ORDER BY, SUBSTR, DATE_FORMAT

240716_파이썬 종합반 2주차

강의 : 데이터분석 파이썬 종합반 2주차 파이썬의 뼈대 : 리스트, 튜플, 딕셔너리데이터를 담고 정리하고 꺼낼 때 필요하다.설명딥러닝 모델을 반복 학습하며 결과를 리스트에 추가데이터 불러올 때, 경러 처리할 때 split 사용데이터를 임의의 범위만큼 선택하 때 슬라이싱, 인덱싱 사용데이터를 변경 불가능하게 사용하고 싶을 때데이터를 담는 하나의 방법

아티클 분석 및 정리 (5) 20240716

오늘 읽은 아티클은 [데이터 분석가가 갖춰야 할 9가지 역량]링크 : https://yozm.wishket.com/magazine/detail/2070/ 요약 : 데이터 분석가에게 필요한 하드 스킬 5가지와 소프트 스킬 4가지를 알려준다.주요 포인트 : 하드 스킬은 사용언어(SQL, 파이썬 등 이용), 통계학, 도메인 및 비즈니스에 대한 이해, 툴을 다루는 역량, 업무 자동화와 데이터 엔지니어링이 있다.최근에는 데이터 마트, 데이터 파이프라인을 만드는 데이터 엔지니어링 역량도 함께 요구되고 있어 Airflow, SQL 등 분성을 위한 데이터 엔지니어링 언어와 도구를 활용할 수 있도록 준비해야 한다.습득하는데 오랜 시간이 소프트 스킬은 커뮤니케이션 능력, 협업 능력과 태도, 문제 정의 및 문제 해결 능력,..

[코딩연습]프로그래머스_보호소에서 중성화한 동물

문제보호소에서 중성화 수술을 거친 동물 정보를 알아보려 합니다. 보호소에 들어올 당시에는 중성화1되지 않았지만, 보호소를 나갈 당시에는 중성화된 동물의 아이디와 생물 종, 이름을 조회하는 아이디 순으로 조회하는 SQL 문을 작성해주세요.조건중성화를 거치지 않은 동물은 성별 및 중성화 여부에 Intact, 중성화를 거친 동물은 Spayed 또는 Neutered라고 표시되어있습니다.어떤 테이블에서 데이터를 뽑을 것인가 : ANIMAL_INS, ANIMAL_OUTS어떤 컬럼을 이용할 것인가 : ANIMAL_ID, NAME, ANIMAL_TYPE, SEX_UPON_INTAKE, SEX_UPON_OUTCOME어떤 조건을 지정해야 하는가 : 보호소에 들어올 당시에는 중성화1되지 않았지만, 보호소를 나갈 당시에는 중..

카테고리 없음 2024.07.16