cycle_machinlerning_visual

เรากำลังอยู่ในขั้นตอนการวิเคราะห์ข้อมูลดิบ ซึ่งในกระบวนการสร้างโมเดลคณิตศาตร์ สำคัญมากคือต้องเข้าใจข้อมูล(Data Understanding)ที่จะนำมาเข้ากระบวนการเตรียมข้อมูลเพื่อสร้างโมเดล ซึ่งเครื่องมือที่ใช้ในการเตรียม(Data Preparation) ทำหน้าที่วิเคราะห์ข้อมูลเพื่อให้ได้ข้อมูลและรู้เงื่อนไขและขอบเขตของข้อมูลที่จะนำมาสร้างโมเดล โดยเครื่องมือที่ใช้วิเคราะห์ข้อมูลได้ Include มากับ RapidMiner Studio 7 แล้วเป็นลักษณะการวิเคราะห์ข้อมูลทางสถิติและแสดงผลในแบบ Visualizing Data ลักษณะเป็นกราฟ  ซึ่งต่อไปนี้ใน RapidMiner Studio 7 จะเรียก ข้อมูลที่เป็นแถว(row) ว่า examples และเรียก ตารางข้อมูล(data table) ว่า example sets

ข้อมูลที่ Import เข้ามาใน RapidMiner Studio 7 เมื่อ Run โปรแกรมจะแสดงผลในหน้าต่าง Results เมื่อคลิกที่เมนู Statistics จะแสดงค่าสรุปทางสถิติตามคอลัมน์ ต่างๆดังนี้

  • Name  แสดงชื่อ แอตทริบิวต์
  • Type    แสดงประเภทข้อมูลในแต่ละแอตทริบิวต์เช่น Real,Integer และ Polynominal เป็นต้น
  • Miss    แสดงจำนวนของข้อมูลแต่ละแอทตริบิวต์ที่มีค่าว่าง หรือ ไม่มีข้อมูล
  • Statistics แสดงค่าสรุปของแอตทริบิวต์ทางสถิติเช่น Min,Max,Average,Least,Most

statistics

นอกจากนี้ยังสรุปจำนวน  Example ทั้งหมดที่ Import เข้ามาในส่วนล่างของหน้าแสดงผลซึ่งจากภาพด้านบนข้อมูลที่ Import เข้ามามีจำนวน 55,519 Example และที่สำคัญข้อมูลในคอลัมน์ Statistics ยังแสดงในลักษณะ Visual High-Level กราฟรูปต่างๆได้ และสามารถเลือกชนิดกราฟและข้อมูลได้ดังแสดงตัวอย่างการวิเคราะห์ข้อมูลดังนี้

g1

scatter