เรากำลังอยู่ในขั้นตอนการวิเคราะห์ข้อมูลดิบ ซึ่งในกระบวนการสร้างโมเดลคณิตศาตร์ สำคัญมากคือต้องเข้าใจข้อมูล(Data Understanding)ที่จะนำมาเข้ากระบวนการเตรียมข้อมูลเพื่อสร้างโมเดล ซึ่งเครื่องมือที่ใช้ในการเตรียม(Data Preparation) ทำหน้าที่วิเคราะห์ข้อมูลเพื่อให้ได้ข้อมูลและรู้เงื่อนไขและขอบเขตของข้อมูลที่จะนำมาสร้างโมเดล โดยเครื่องมือที่ใช้วิเคราะห์ข้อมูลได้ Include มากับ RapidMiner Studio 7 แล้วเป็นลักษณะการวิเคราะห์ข้อมูลทางสถิติและแสดงผลในแบบ Visualizing Data ลักษณะเป็นกราฟ ซึ่งต่อไปนี้ใน RapidMiner Studio 7 จะเรียก ข้อมูลที่เป็นแถว(row) ว่า examples และเรียก ตารางข้อมูล(data table) ว่า example sets
ข้อมูลที่ Import เข้ามาใน RapidMiner Studio 7 เมื่อ Run โปรแกรมจะแสดงผลในหน้าต่าง Results เมื่อคลิกที่เมนู Statistics จะแสดงค่าสรุปทางสถิติตามคอลัมน์ ต่างๆดังนี้
- Name แสดงชื่อ แอตทริบิวต์
- Type แสดงประเภทข้อมูลในแต่ละแอตทริบิวต์เช่น Real,Integer และ Polynominal เป็นต้น
- Miss แสดงจำนวนของข้อมูลแต่ละแอทตริบิวต์ที่มีค่าว่าง หรือ ไม่มีข้อมูล
- Statistics แสดงค่าสรุปของแอตทริบิวต์ทางสถิติเช่น Min,Max,Average,Least,Most
นอกจากนี้ยังสรุปจำนวน Example ทั้งหมดที่ Import เข้ามาในส่วนล่างของหน้าแสดงผลซึ่งจากภาพด้านบนข้อมูลที่ Import เข้ามามีจำนวน 55,519 Example และที่สำคัญข้อมูลในคอลัมน์ Statistics ยังแสดงในลักษณะ Visual High-Level กราฟรูปต่างๆได้ และสามารถเลือกชนิดกราฟและข้อมูลได้ดังแสดงตัวอย่างการวิเคราะห์ข้อมูลดังนี้