Skip to content

PY-3: Data Cleaning

ข้อมูลจากโลกจริงไม่เคยสะอาด 100% — มีค่าว่าง, ข้อความรูปแบบไม่ตรง, ชนิดข้อมูลผิด บทนี้จะสอนเทคนิคที่ใช้มากที่สุดในการ clean data ด้วย pandas

  • ตรวจจับและจัดการ missing values ด้วย .isna(), .fillna(), .dropna()
  • ใช้ .str accessor จัดการข้อความ — strip, lower, contains, replace, zfill
  • แปลงชนิดข้อมูลด้วย .astype() และ pd.to_numeric(errors='coerce')
  • เข้าใจ Nullable Integer Type (Int64) และเมื่อไรควรใช้
Progress 0 / 4

เนื้อหาในบทนี้

Section titled “เนื้อหาในบทนี้”

ถ้าข้อมูลไม่สะอาด ผลวิเคราะห์จะไม่น่าเชื่อถือ ตัวอย่างปัญหาที่พบบ่อย:

ปัญหาตัวอย่างผลกระทบ
Missing valuesราคาว่างบางแถวค่าเฉลี่ยผิดพลาด
ข้อความไม่ตรง”กรุงเทพ” vs “กทม.”groupby ได้หลายกลุ่ม
ชนิดข้อมูลผิดราคาเป็น stringคำนวณไม่ได้
Leading zeros หายzipcode 01234 → 1234join ไม่เจอ