Understanding the Amazon Rain forest from Space #1

สัปดาห์ที่ผ่านมาเตรียม slide ไปพูดใน meeting ของกลุ่มเล็กๆนักพัฒนา AI ด้วยความที่ช่วงนี้งานยุ่งเลยจับเอา ตัวอย่างโปรเจคเก่าเมื่อปีที่แล้ว ที่ผมมีโอกาสได้ทำไปนำเสนอ เป็นงานของโปรเจคแข่งขันที่ kaggle จัดโดยบริษัท planet (โดยสรุปบริษัทนี้ทำ Big Data ด้าน Satellite imagery and image processing services ) โดยจัดโครงการขึ้นชื่อ “Understanding the Amazon from Space” โดยแข่งขันชิงรางวัล $60000

เป้าหมายการแข่งขันอยากให้ Data scientist ช่วยกันสร้างวิธีการติดตามการเปลี่ยนแปลงของพื้นที่ป่าอเมซอน โดยเฉพาะการถูกบุกรุกที่เกิดตลอดเวลา key สำคัญที่อยากได้ไม่ใช่เทคนิคแบบเดิมที่ใช้คนมานั่งแปลภาพถ่ายดาวเทียมเพื่อติดตาม ทาง Planet อยากได้แนวคิดใหม่เทคนิคใหม่ robust method ทำงานกับภาพถ่ายดาวเทียมรายละเอียดสูง และทำงานได้อย่างอัตโนมัติด้วย AI

ความน่าสนใจของ Project นี้คือข้อมูล ที่ ซึ่งทาง planet เตรียมให้ผู้ร่วมแข่งขันได้ใช้งาน โดยเฉพาะภาพถ่ายดาวเทียมรายละเอียดสูง(Geotiff) จำนวน 4-band (R,G,B ,NIR)ผ่านกระบวนการปรับแก้ Ortho มาแล้ว  สามารถเข้าไปดูรายละเอียดภาพถ่ายดาวเทียมของ planet ได้จาก link 

Figure_A-Planet-Imagery-Product-Offerings

ข้อมูลภาพถ่ายดาวเทียมที่ใช้ในการแข่งขันจำนวน 1600 ซีนจะมาจากดาวเทียม 2 ดวง(2 sensor type) และถ่ายต่างช่วงเวลา ระหว่าง January 1, 2016 และ February 1, 2017 ทุกซีนครอบคลุมพื้นที่ป่า Amazon basin ในเขตประเทศ Brazil, Peru, Uruguay, Colombia, Venezuela, Guyana, Bolivia, and Ecuador ครอบคลุมพื้นที่ 30 million hectares (โครงการใหญ่ไม่ใช่เล่นเลย)

chipdesc

ภาพถ่ายดาวเทียมยังถูกจัดทำอยู่ในรูปแบบ Chip (Image) Data Format เพื่อใช้ในการทำ Image Classification ด้วย  Machine Learning ได้อีกด้วย โดย Chip Image จะมี GSD ที่ 3.7 m แต่ผ่านการทำ Ortho rectification ขนาดของ pixel size จะกลายเป็น 3 m ขนาดรวมของ Chip size อยู่ที่ 256 *256

ข้อมูล Chip Image จำนวนกว่า 150,000 chips ถูกจัดทำให้สอดคล้องกับโลกความจริงโดยแบ่งเป็นยาก กับ ง่าย สิ่งที่ยากคือ เมฆ หมอก และควัน เพราะถือว่าเป็นอุปสรรค์ในการประมวลผล(จะมาอธิบายต่อในตอนหน้า) รวมถึง class ที่เป็นพื้นที่กิจกรรมของคน เช่น Burn agriculture, blow down, mining  ซึ่งในแต่ละ chip จะเชื่อมโยงกับ Class Labels เพื่อให้ผู้แข่งขันสามารถใช้ในการทำการวิเคราะหฺ์และจำแนกประเภทของภาพต่อไป โดยจะมี class หลัก 17 class ได้แก่ agriculture, artisinal_mine, bare_ground, blooming, blow_down, clear, cloudy, conventional_mine, cultivation, habitation, haze, partly_cloudy, primary, road, selective_logging, slash_burn, water

ความท้าทายมันไม่จบแค่นั้นเพราะ Chip ขนาด 256 *256 ครอบคลุมพื้นที่ 222 เอเคอร์ ดังนั้นทำให้จำนวน label ใน 1 chip ส่วนใหญ่จะมีมากกว่าหนึ่ง ทำให้กลายเป็นโจทย์ Multi-label classification ทันที

 

chips

ด้านการประเมินผลก็ใช้กติการการแข่งขัน สร้างโมเดลจำแนกภาพถ่ายดาวเทียม ที่แม่นยำมากสุด โดยวัดประเมินคะแนนจาก F_{2}) score ที่ผู้แข่งขันส่งโมเดลเข้ามา ซึ่งผู้ชนะเรียกว่าทำ score ได้สูงระดับ 98% เลยทีเดียว

mine1

ตัวอย่างภาพถ่ายดาวเทียม conventional mine

bare

ตัวอย่างภาพถ่ายดาวเทียม Bare ground

road

ตัวอย่างภาพถ่ายดาวเทียม road

habitation2

ตัวอย่างภาพถ่ายดาวเทียมครอบคลุมพื้นที่ เมือง(city)

agg1

ตัวอย่างภาพถ่ายดาวเทียมครอบคลุมพื้นที่ เกษตร

Advertisements

ใส่ความเห็น

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  เปลี่ยนแปลง )

Google+ photo

You are commenting using your Google+ account. Log Out /  เปลี่ยนแปลง )

Twitter picture

You are commenting using your Twitter account. Log Out /  เปลี่ยนแปลง )

Facebook photo

You are commenting using your Facebook account. Log Out /  เปลี่ยนแปลง )

Connecting to %s

บลอกที่ WordPress.com .

Up ↑

%d bloggers like this: