본문 바로가기

데이터프레임6

[CSV 다루기] Python으로 제목이 비슷한 csv 파일 합쳐주기 (feat.Pandas) [CSV 다루기] Python으로 제목이 비슷한 csv 파일 합쳐주기 (feat.Pandas) 한 폴더 내에서, 제목의 일부가 동일한 파일을 찾아서 둘을 합쳐주는 코드. import pandas import os filePath = 'C://Users//' #폴더주소 입력(윈도우 기준) fileAll = os.listdir(filePath) for i in range(len(fileAll)): # 폴더 내 파일 하나씩 검토함 for o in range(i+1, len(fileAll)): # 폴더 내 다른 파일과 파일명이 같은 경우가 있는지 확인함 if fileAll[i][:-4] in fileAll[o][:-4]: df_i = pd.read_csv(filePath + fileAll[i]) df_i.col.. 2021. 1. 21.
[CSV 다루기] Python으로 대문자를 소문자로, 소문자를 대문자로 변환하기 (feat.Pandas) 파이썬 판다스 - 폴더에 있는 csv 파일 한꺼번에 대문자/소문자로 변환하기feat.Pandas) 엑셀, csv 파일을 많이 다루다 보면, csv 파일의 내용을 소문자나 대문자로 변환해 주어야 할 때가 있다. 하나하나 열어서 언제 다 하나.. 할 때 판다스를 쓰면 간편함. 특히, 여러 개를 변환할 때에는 한 폴더에 csv 파일을 모두 몰아넣고 한꺼번에 변환! 하면 편하다. 1. 대문자로 변환하기 filePath = 'C://Users//' # 폴더 주소 입력 (윈도우 기준) fileAll = os.listdir(filePath) for file in fileAll: df = pd.read_csv(filePath + file) df = df.applymap(str.upper) df.to_csv(filePa.. 2021. 1. 20.
[CSV 다루기] Python 특정 열만 남기기. 특정 컬럼 뽑아내기 (feat.Pandas) 파이썬 판다스 - csv 파일의 특정 컬럼/열만 남기기 csv 파일이나 excel 파일에서, 다른 컬럼 다 필요 없고 특정 컬럼만 필요하게 될 때. 하나 하나 다 열어서 삭제하고 저장...(...) 할 수도 있겠지만 그건 큰 노동이 필요한데다, 엑셀이 허용하는 행 수를 초과하면 제대로 열리지도 않는다. 이 때 파이썬과 판다스를 이용하면 넘나 편한 것. import pandas as pd import os filePath = 'C://Users//' # 폴더 입력 (윈도우 기준임) fileAll = os.listdir(filePath) for file in fileAll: df = pd.read_csv(filePath + file, header=None) df = df.iloc[:, [0]] # 첫 번째 .. 2021. 1. 18.
[CSV 다루기] Python으로 파일 쪼개기/분리하기 (feat.Pandas) 파이썬 판다스 - 폴더에 있는 모든 csv 파일을 mb 단위로 쪼개기/분리하기feat.Pandas) 대량의, 크기가 큰 csv 파일을 어딘가에 업로드 해야하거나, 직접 열어서 보고 수정하면 편할 일이 있는 데 csv가 너무 길어서 쪼개기 전엔 그게 안될 때. 한 폴더에 csv 파일들을 몰아넣고 한번에 원하는 행수대로 쪼개줄 수 있다. import pandas as pd import os filePath = 'C://Users//' # 폴더 주소 입력 fileAll = os.listdir(filePath) for file in fileAll: rowsize = sum(1 for row in (open(filePath + file, encoding='UTF-8'))) newsize = 5000000 # 쪼개.. 2021. 1. 17.
[CSV 다루기] Python으로 행 수 세기 (feat.Pandas) [CSV 다루기] Python으로 행 수 세기 파이썬에서 csv를 데이터프레임 형태로 불러와서, 각각의 데이터프레임의 길이를 구하려면 shape나 len()을 쓰면 된다. 그런데 한 폴더에 있는 모든 csv 파일의 행수를 한꺼번에 구하고 싶을 때! 아래와 같이 한번에 쭈루룩 뜨도록 명령할 수 있다. import pandas as pd import os filePath = 'C://Users//' # 폴더 주소를 입력 fileAll = os.listdir(filePath) fileCsv = [filePath + file[:-4] for file in fileAll if file.endswith('.csv')] # csv에만 적용해라 for file in fileCsv: df = pd.read_csv(fil.. 2021. 1. 15.