ตอนนี้สองของบทความนี้ จะเขียนถึงกระบวนการ Exploratory data analysis(EDA) เพื่อใช้ในการสำรวจ Data ก่อนเริ่มดำเนินการวางแผนและทำการเทรนโมเดลต่อไป ซึ่งในการแข่งขันนี้ทีมงาน planet ได้เตรียมข้อมูลจำนวนมากมาให้ โดยแบ่งออกเป็น 2 ส่วนนั้นคือ Label และ Image
1. Class Label
ประเภทแรกเป็นข้อมูล Label ที่จัดเตรียมในรูปแบบไฟล์ CSV เชื่อมโยง ID ภาพ เข้ากับ class label สำหรับ Training Data เพื่อบอกให้รู้ว่าแต่ละ Chip นั้นจัดจำแนกอย่างไร
ตัวอย่าง training data แสดงประเภทของ tag ในแต่ละ image
training data จะมีลักษณะเป็น multi-label ทำการจำแนกทางสถิติเพื่อเตรียมทำ multi-label classification เริ่มต้นจากการนับจำนวน label ทั้งหมดที่มีใน data set เพื่อดูค่าสถิติของประเภท label ส่วนใหญ่
จากค่าสถิติจะพบ class ของ tag ประเภท primary จะมีปริมาณมากที่สุด ตามมาด้วยกลุ่ม agriculture และ road รันค่าเพื่อจำแนกข้อมูลราย Chip บน training data จำนวน 40478 มาแสดงในรูปแบบตาราง
ทดลองวิเคราะห์ค่า correlation ของ tag บนภาพใน training data พบว่าบาง class มีลักษณะความสัมพันธ์ที่เป็น positive correlation กัน เช่น Road และ habitation หรือ habitation และ agriculture อนุมานว่ามีโอกาสจะเกิด class เหล่านี้ร่วมกันบน Chip ส่วนบาง tag เรียกว่า uncorrelated กัน หรือมีค่า R น้อยมาก เช่นกลุ่มของ blow_down, bare_ground ,conventional_mine, artisinal_mineข้อมูลตรงนี้ใช้ในการทำ multi-label classification ต่อไป
2. Chip (Image) Data
ทดลองดึงข้อมูล Chip และ Tag มาแสดงผลร่วมกัน โดยสุ่มดึงภาพจำนวน 18 ภาพใน class ต่างๆขึ้นมา
ข้อมูล Chip ใน training data set มีจำนวนมากกว่า 40478 ชิ้นแต่ละภาพจัดเก็บในรูปแบบ .jpeg ขนาดภาพ 256*256 pixel ทดลองแสดงผลภาพ Chip แบบ RGB
ใส่ความเห็น