본문 바로가기

분류 전체보기122

데이터프레임 월단위 칼럼 데이터 일괄 변경하기 (for문, if문 사용) 데이터 가공작업에서 연간 데이터 처리시에 월별 칼럼 데이터의 변환이 필요한 경우가 있습니다.이럴 때 for문을 사용하여 쉽게 하는 방법에 대해 알아보고자 합니다. 월별 데이터 변환 작업[예시]컬럼명이 '25.1월' ~ '25.12월' 처럼 반복되는 경우, for문을 돌면서 astype("Int64") 로 변환할 수 있습니다.예시 코드로 보여드릴게요:import pandas as pdimport numpy as np# 샘플 데이터 생성df = pd.DataFrame({ '25.1월': [1.0, 2.0, np.nan, 4.0], '25.2월': [10.0, np.nan, 30.0, 40.0], '기타': [100, 200, 300, 400]})# 변환할 컬럼명 리스트 만들기 (25.1월 ~.. 2025. 9. 8.
숫자데이터의 타입 float 을 int 로 변경하기 파이썬에서 엑셀이나 csv로 데이터를 불러올 때 정수 데이터 인데 중간에 데이터가 누락 등 여러 가지 원인으로 float 타입으로 인식되는 경우가 많습니다.데이터 가공 후 저장할 때 정수 데이터로 표출하기 위해서 몇가지 경우에 따른 수정방법은 다음과 같습니다. float → int 변환 시 NaN 값 때문에 에러가 발생합니다.(int 타입은 NaN을 가질 수 없기 때문입니다.)해결 방법은 크게 세 가지가 있습니다.1. NaN 을 채운 뒤 int 변환NaN 을 0이나 다른 값으로 채운 후 astype(int) 변환import pandas as pdimport numpy as npdf = pd.DataFrame({"num": [1.0, 2.0, np.nan, 4.0]})# NaN → 0 으로 채우고 int.. 2025. 9. 8.
데이터프레임-특정필드의 데이터타입이 float를 int 로 변경하고자 할 때 NA 로 되어 있는 경우 오류 해결 숫자 데이터를 정수로 표현하고자 하는데 csv, excel에서 원천 데이터를 불러올 때 실수(float)로 보이는 경우가 많습니다.이럴 경우 정수인데 소숫점으로 보여서 보기가 안좋은 경우가 있는데 단순히 astype(int) 로 변경시 오류가 발생되기도 합니다. 왜 오류가 생기고, 어떻게 해결하면 되는지 정리해보았습니다. 파이썬 pandas에서는float 타입 컬럼을 int 타입으로 변환할 때,NaN(결측치) 가 있으면 바로 오류가 발생합니다:ValueError: cannot convert float NaN to integer✅ 해결 방법바로 int로 변환하지 말고,pandas의 Int64 (nullable integer) 타입을 사용하면 됩니다!Int64 타입은 NaN도 허용하는 정수형입니다.✅ 코드.. 2025. 8. 18.
데이터프레임-transform() 활용하기 데이터 분석을 위한 데이터 가공에서 평균, 최대, 최소, 정규화 등 다양한 요구사항에 맞는 작업을 해야할 경우가 있습니다.방법은 여러가지가 있겠지만 groupby 와 transform 을 활용하면 좀 더 쉽게 작업할 수 있어서 몇가지 예시를 들어 보겠습니다. 👉 그룹별 계산된 값을 원래 행(row) 개수만큼 되돌려주는 기능을 합니다.transform()은 원본 크기를 유지하면서 새로운 계산 컬럼을 만들어줄 때 유용합니다.1. 기본 예제import pandas as pddf = pd.DataFrame({ "부서": ["영업", "영업", "영업", "개발", "개발", "개발"], "이름": ["A", "B", "C", "D", "E", "F"], "급여": [500, 600, 550,.. 2025. 8. 18.
파이썬-데이터프레임 변환 melt, pivot 함수 사용하기 보통 원본 데이터는 사람이 보기 좋게 "가로로 넓게(wide)" 되어 있는데, 분석 라이브러리(pandas groupby, seaborn, matplotlib, pivot_table) 등은 "세로(long)" 구조일 때 더 다루기 편리합니다. 다음의 예시의 경우 melt() 함수를 이용하여 쉽게 분석작업이 가능합니다. 1. melt() 사용이 유리한 상황 예시1️⃣ 월별 데이터를 시각화할 때df = pd.DataFrame({ "지역": ["서울", "부산", "대구"], "1월": [100, 150, 120], "2월": [200, 250, 300], "3월": [130, 180, 160]})현재 구조: wide문제점: matplotlib이나 seaborn으로 월을 x축에, 매출을.. 2025. 8. 17.
파이썬-피봇테이블(pivot table) NaN, 다중컬럼 처리하기 데이터프레임을 활용한 통계작업으로 pivot_table 과 groupby 를 많이 사용합니다.그런데 다양한 통계데이터 처리를 하기 위해 몇가지 팁을 알면 좀 더 효율적인 작업이 가능합니다. 이번에는 기본적인 피봇테이블 사용과 데이터가 결측치로 없을 때 처리방법, 그리고 여러 컬럼의 데이터를 통계로 한번에 표출하는 방법에 대해 정리하였습니다. 1. 기본 Pivot Table 만들기일반적인 데이터프레임에서 values, index, columns, aggfunc 값을 지정 👉 aggfuncsum (합계), count (개수), mean (평균), median (중앙값), min (최소값), max (최대값), std (표준편차) 인덱스 2개, 컬럼 1개에 대한 sum 사용import pandas as p.. 2025. 8. 17.
반응형