Understanding the Amazon Rain forest from Space #2 EDA

ตอนนี้สองของบทความนี้ จะเขียนถึงกระบวนการ Exploratory data analysis(EDA) เพื่อใช้ในการสำรวจ Data ก่อนเริ่มดำเนินการวางแผนและทำการเทรนโมเดลต่อไป ซึ่งในการแข่งขันนี้ทีมงาน planet ได้เตรียมข้อมูลจำนวนมากมาให้ โดยแบ่งออกเป็น 2 ส่วนนั้นคือ Label และ Image

1. Class Label
ประเภทแรกเป็นข้อมูล Label ที่จัดเตรียมในรูปแบบไฟล์ CSV เชื่อมโยง ID ภาพ เข้ากับ class label สำหรับ Training Data เพื่อบอกให้รู้ว่าแต่ละ Chip นั้นจัดจำแนกอย่างไร

7-23-2018 7-47-39 PM

ตัวอย่าง training data แสดงประเภทของ tag ในแต่ละ image

training data จะมีลักษณะเป็น multi-label ทำการจำแนกทางสถิติเพื่อเตรียมทำ  multi-label classification เริ่มต้นจากการนับจำนวน label ทั้งหมดที่มีใน data set เพื่อดูค่าสถิติของประเภท label ส่วนใหญ่

ดาวน์โหลด

จากค่าสถิติจะพบ class ของ tag ประเภท primary จะมีปริมาณมากที่สุด ตามมาด้วยกลุ่ม agriculture และ road รันค่าเพื่อจำแนกข้อมูลราย Chip บน training data จำนวน 40478 มาแสดงในรูปแบบตาราง

7-23-2018 7-48-59 PM

ทดลองวิเคราะห์ค่า correlation ของ tag บนภาพใน training data พบว่าบาง class มีลักษณะความสัมพันธ์ที่เป็น positive correlation กัน เช่น Road และ habitation  หรือ habitation และ agriculture  อนุมานว่ามีโอกาสจะเกิด class เหล่านี้ร่วมกันบน Chip ส่วนบาง tag เรียกว่า uncorrelated กัน หรือมีค่า R น้อยมาก เช่นกลุ่มของ blow_down, bare_ground ,conventional_mine, artisinal_mineข้อมูลตรงนี้ใช้ในการทำ multi-label classification ต่อไป

111

2. Chip (Image) Data

ทดลองดึงข้อมูล Chip และ Tag มาแสดงผลร่วมกัน โดยสุ่มดึงภาพจำนวน 18 ภาพใน class ต่างๆขึ้นมา

122

 

ข้อมูล Chip ใน training data set มีจำนวนมากกว่า 40478 ชิ้นแต่ละภาพจัดเก็บในรูปแบบ .jpeg ขนาดภาพ 256*256 pixel  ทดลองแสดงผลภาพ Chip แบบ RGB

22

ใส่ความเห็น

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  เปลี่ยนแปลง )

Facebook photo

You are commenting using your Facebook account. Log Out /  เปลี่ยนแปลง )

Connecting to %s

บลอกที่ WordPress.com .

Up ↑

%d bloggers like this: