728x90
반응형
- [Cell]-[Run All]: 파이썬을 중단하고 다시 시작했으니, 더 이상 메모리에 존재하지 않는 내용을 다시 읽어 드려 다음 작업이 가능해지도록 하기 위함
- 변수이름.descibe(): 수치형데이터에 해당하는 열의 데이터 계산 진행(count(개수), mean(평균), std(표준편차), min(최소값), 25%(1사분위수), 50%(중앙값), 75%(3사분위수), max(최대값)), 파이썬의 기본 함수는 아니고 pandas를 import하지 않으면 사용할 수 없음
- 왜 다양한 값을 계산해 볼 수 있어야할까? 쵀댯값, 최솟값, 범위 등은 데이터 값이 어떤 범위에 해당하느냐에 따라 데이터가 적정한지 알 수 있어서
- 사분위수: 데이터의 대부분이 어디에 분포하며 그 구간이 넚은지, 좁은지 쉽게 파악
- 평균, 중앙값: 데이터 전체를 대표하는 숫자를 찾는 것
- 분산, 표준편차: 평균을 중심으로 데이터가 얼마나 흩어져 있는지를 알려주는 값
- type(변수이름): 변수의 타입 보여줌, 'pandas.core.frame.DataFrame'라고 결과가 나옴, read_csv함수를 사용하여 데이터 파일을 읽으면 DataFrame 타입의 구조가 됨
- Pandas: 엑셀같은 테이블 구조를 가진 DataFrame타입 사용하여 데이터분석에 편리한 기능 제공, 변수를 하나 만들어 DataFrame타입의 데이터를 담으면 변수는 DataFrame의 다양한 기능을 상속, 변수가 DataFrame이 되면 DataFrame타입이 사용할 수 있는 기능을 자동으로 사용할 수 있게 됨
- pandas사용에서 '변수이름.기능의 이름(내용)'의 경우 끝의 괄호는 함수와 같은 성격이고, 특정 데이터 타입에 연결되어 있는 함수를 '메소드'라고 한다.
- pandas사용에서 '변수이름.기능의 이름.내용'의 경우 끝에 괄호가 사용되지 않는 것은 Attribute라고 하는 속성 정보에 해당한다.
- 변수이름.columns: 변수에 들어있는 컬럼을 순서대로 볼 수 있다.
- 변수이름.head(): 데이터의 첫 5줄을 보여준다.
- 인덱스: 0부터 시작한다. 앞에 표시되는 행의 번호
- 변수이름.head(10): 보고싶은 줄의 수로 변경
- 변수이름.tail(): 데이터의 마지막 5줄
- 변수이름.shape: 데이터의 행, 열의 크기를 알아보고 싶은 경우, 출력은 '(36595, 15)' 이런식으로 행과 열의 개수가 나온다.
- 변수이름.info(): 데이터에 대한 전반적인 정보를 보여주는 메소드
- 'RangeIndex: 36595 entries, 0 to 36594 Data columns (total 15 columns)': 행과 열의 개수
- dtypes: int64(5): 수치형 데이터 컬럼 5개
- dtypes: object(10)': 수치형이 아닌 데이터 컬럼 10개
- Non Null Count: null이 아닌 데이터 개수
- 변수이름.describe: 기본적인 기술통계값을 한 번에 알아보는 방법 ※특정한 기술통계값만 계산해보는 메소드도 있음
- 주요 메소드
count NA값을 제외한 값의 수를 반환 describe 각 열에 대한 요약 통계 min 최솟값 max 최댓값 sum 합계 mean 평균 var 분산 std 표준편차 skew 왜도(치우침 정도) kurt 첨도(뾰족함 정도) cumsum 누적 합 - 변수이름.sum(): 수치형 데이터가 아닌 10개의 컬럼까지 모두 합계한 결과가 보임
- 모든 컬럼말고 필요한 컬럼만 선택해서 평균 내는 방법은? DataFrame의 특정 컬럼만 추출하여 보는 방법은? 대괄호를 사용하는 방법 and 점을 찍고 해당 컬럼 이름을 명시하는 방법
- 변수이름.컬럼이름: 해당 컬럼을 인덱스와 함께 앞, 뒤 다섯줄씩 보여줌
- 변수이름.컬럼이름.sum(): 모든 컬럼의 데이터의 합
- 대괄호를 사용하는 방법: 변수이름['컬럼이름']: 변수이름.컬럼이름과 같은 결과가 보여짐 ※대괄호 사용시 '따옴표' 필수
- 변수이름['컬럼이름'].sum(): 변수이름.컬럼이름.sum()와 같은 결과가 보여짐
- 변수이름['컬럼이름'].unique(): 해당 컬럼의 배열을 보여줌
- 변수이름['컬럼이름'].value_counts(): 컬럼의 내용별로 데이터가 몇개인지 요약해서 나타냄
- 변수이름['컬럼이름'].value_counts(normalize=True): 컬럼의 내용별로 데이터의 비율을 나타냄
- 데이터가 수치형일텐데 object타입으로 인식되는 경우:
- 결과값이 '\\N': ANSI타입으로 읽어 들이면서 빈칸으로 표시될 윈도우 형식의 표식을 문자로 해석하고 읽어 들여 전체 컬럼이 문자로 인식
- 특정한 컬럼에 특정한 값을 가진 행을 찾을 경우엔 대괄호 안에 조건을 입력해야 함: 변수명[변수명.컬럼명=='\\N']
728x90
반응형
'IT지식 > Python' 카테고리의 다른 글
►파이썬 코딩 도장-16.6 심사문제: 구구단 출력하기 (0) | 2021.10.23 |
---|---|
파이썬 for문 모든것 (0) | 2021.10.23 |
jupyter notebook 에서 초기사용(패키지, import, os, getcwd,pandas, csv, encoding, isnull(), sum(), sep(), \t) (0) | 2021.10.19 |
파이썬 elif사용하기, if와 elif차이 (0) | 2021.10.14 |
►파이썬 코딩 도장-14.7 심사문제: 합격 여부 판단하기 (0) | 2021.10.12 |