본문 바로가기

Python

파이썬 시각화 시각화 라이브러리 - matplotlib - seaborn 데이터 준비 1) 데이터 다운로드 - 2022년 2월 서울특별시 중구 대기정보 데이터 사용 에어코리아 → 통계정보 → 최종확정 측정자료 조회 → 확정자료 다운로드 → 2022년 데이터 다운로드 https://www.airkorea.or.kr/web/last_amb_hour_data?pMENU_NO=123 에어코리아 : 최종확정 측정자료 조회 최종확정 측정자료 조회 www.airkorea.or.kr 2) 데이터 준비 - 라이브러리 # 라이브러리 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns - 데이터 준비 df = pd.read_.. 더보기
파이썬 데이터프레임 집계 데이터프레임 집계 # 타이타닉 데이터 불러오기 import pandas as pd import numpy as np import seaborn as sns titanic = sns.load_dataset(('titanic')) # # survived, pclass, sex, age, embarked 컬럼만 조회할 수 있는 데이터 프레임 생성 df = titanic[['survived','pclass','sex','age','fare']] df => titanic 데이터에서 survived, pclass, sex, age, fare 데이터만 조회할 수 있는 데이터프레임 생성 데이터프레임 데이터 형태별 집계 방법 범주형 데이터 갯수, 최빈값 연속형 데이터 합, 평균, 최댓값, 최솟값 # 합 print('합'.. 더보기
파이썬 데이터프레임 - pandas 기초(4-2) 4. 데이터프레임 변경 4.2.1 결측치 처리 결측치(NaN)은 정확한 분석을 방해, 오류가 발생할 수 있음 # 라이브러리 불러오기 import pandas as pd import numpy as np import seaborn as sns # 타이타닉 데이터 불러오기 titanic = sns.load_dataset(('titanic')) # survived, pclass, sex, age, embarked 컬럼만 조회할 수 있는 데이터 프레임 생성 df = titanic[['survived','pclass','sex','age','embarked']] df - 결측치 찾기 info() # info() df.info() => info() 함수를 통해 데이터 정보 확인. => 결측치는 Non-Null Co.. 더보기
파이썬 데이터프레임 - pandas 기초(4-1) 4. 데이터프레임 변경 # 라이브러리 불러오기 import pandas as pd import numpy as np import seaborn as sns # 타이타닉 데이터 불러오기 titanic = sns.load_dataset(('titanic')) # survived, pclass, sex, age 컬럼만 조회할 수 있는 데이터 프레임 생성 df = titanic[['survived','pclass','sex','age']] df 4.1.1 컬럼명 변경 모든 컬럼명 변경 - 변경할 컬럼명을 리스트로 생성 후, 리스트를 데이터프레임 컬럼명에 대입해준다. li = ['생존', '티켓클래스', '성별', '나이'] df.columns = li df.head() => 리스트 li 바꿔줄 컬럼명을 넣고, .. 더보기
파이썬 데이터프레임 - pandas 기초(3) 3. 데이터프레임 조회 # 라이브러리 불러오기 import pandas as pd import numpy as np import seaborn as sns # 타이타닉 데이터 불러오기 titanic = sns.load_dataset(('titanic')) titanic.head() 3.1 특정 컬럼 조회 df.loc[:, ['컬럼명1', '컬럼명2']] df[['컬럼명1', '컬럼명2']] ******** loc : 행과 열이름으로 데이터 조회 가능 # pclass 컬럼 불러오기 titanic.loc[:, 'pclass'] # titanic['pclass'] => 데이터 컬럼 pclass를 조회. 시리즈 형태로 출력(컬럼 하나만 출력할 경우, 시리즈 형태로 출력됨) # pclass 컬럼 불러오기 tita.. 더보기
파이썬 배열 - numpy 기초 배열 numpy()를 사용하여 배열 생성 1차원, 2차원, 3차원 배열 생성 가능 reshpe로 배열 형태 바꿀 수 있음 인덱싱/슬라이싱 사용 가능 배열 사이 기본적인 연산 수행 가능(리스트는 연산 불가) # numpy 라이브러리 불러오기 import numpy as np - 곱셈 # 배열 a = np.array([1, 2, 3, 4, 5]) print(a) # 2 곱하기 a = a * 2 print(a) [1 2 3 4 5] [ 2 4 6 8 10] - 짝수만 # 배열 a = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9]) print(a) # 짝수만 a = a[a % 2 == 0] print(a) [1 2 3 4 5 6 7 8 9] [2 4 6 8] => 위처럼 배열은 연산이 사용가.. 더보기
파이썬 Excel 다루기 Excel 다루기 openpyxl 라이브러리 사용 파이썬을 이용해 업무 자동화 구현 1. 파일 열기 - 라이브러리 불러오기 # 라이브러리 import openpyxl as xl - 엑셀 파일 열기 # wb 변수에 엑셀 파일 저장 wb = xl.load_workbook('practice.xlsx') - 시트 이름 확인 # 시트 이름 확인 wb.sheetnames ['Sheet1', 'Sheet2'] 2. 파일 읽기 - 시트 선택 # 시트 선택 sheet1 = wb['Sheet1'] - 셀 이름으로 셀 값 확인 # 셀 이름으로 셀 값 확인 sheet1['A1'].value 'water' - 행, 열 번호로 셀 값 확인 # 행과 열 번호로 셀 값 확인 # sheet1.cell(row=1, column=1).v.. 더보기
파이썬 워드클라우드 워드클라우드 텍스트 파일로 저장 데이터 수집 텍스트 전처리 split() 메소드를 사용하여 단어 단위로 나누기 단어별 빈도수 계산하여 딕셔너리 형태로 저장 분석에 의미 없는 조사, 단어 제거 워드클라우드 만들기 1. 텍스트 파일로 저장 - 데이터 수집 : 크롤링을 사용하거나 직접 파일로 저장 - 아직 크롤링을 잘하지 못하여 네이버에 "데이터"를 검색하여 제일 첫 번째 뉴스기사를 복사하여 메모장에 저장함 - 출처 : http://www.kbmaeil.com/news/articleView.html?idxno=950753 패러다임의 전환:디지털 트윈 그리고 미래항공모빌리티 - 경북매일 고등학생 시절, 첫 해외여행을 위해 인천공항에 도착하여 창문 밖으로 보이는 비행기들을 바라보며 느꼈던 그때의 감격은 아직도 가.. 더보기