Insung Hwang
Posted on October 2, 2024
공공데이터 포털에서 제공하는 국토교통부 공공데이터를 다운로드해 윈도우 환경에서 열어보면, 한글이 깨지는 현상을 볼 수 있습니다. 특히 VScode나 Python으로 파일을 열 때 이런 문제가 발생하는데, 이는 파일 인코딩 설정이 맞지 않기 때문입니다. 보통 Excel로 파일을 열 경우 자동으로 인코딩이 변환되어 깨지지 않지만, Python으로 데이터를 다룰 때는 직접 인코딩을 설정해줘야 합니다.
문제 상황
다음은 다세대 전세 실거래가 공공데이터 파일을 VSCode 로 열었을 때 발생하는 한글 깨짐 문제입니다.
해결 방법
import pandas as pd
inputfile_path = "input_file.csv"
outputfile_path = "output_file.csv"
file = open(inputfile_path).read()
with open(inputfile_path, "r") as infile:
content = infile.read()
with open(outputfile_path, "w", encoding="utf-8") as outfile:
outfile.write(content)
# 15줄까지는 머리말이라 skip
df = pd.read_csv(outputfile_path, skiprows=15)
df.describe()
위의 코드를 통해 한글이 깨진 CSV 파일을 utf-8 인코딩으로 다시 저장하고, Pandas로 데이터를 문제 없이 읽어올 수 있습니다.
💖 💪 🙅 🚩
Insung Hwang
Posted on October 2, 2024
Join Our Newsletter. No Spam, Only the good stuff.
Sign up to receive the latest update from our blog.