การ Import Data เป็นการนำข้อมูลเข้ามาใช้งานเพื่อวิเคราะห์หรือสร้าง model ใน RapidMiner โดยข้อมูลที่ Import เข้ามาจะถูกเก็บอยู่ใน “Repository” ซึ่งเป็นศูนย์กลางเก็บข้อมูลและโปรเซสใน RapidMiner เพื่ออำนวยความสะดวก ที่จะไม่ต้องโหลดข้อมูลทุกครั้ง ก่อนที่จะนำข้อมูลเข้าจะต้องเตรียมข้อมูลก่อน
Arrival Time Database
ข้อมูลที่จะนำเข้าเป็นข้อมูล เวลาที่ใช้เดินทางระหว่างป้าย มีรายละเอียดดังตาราง

- A dayofweek เป็นวันอาทิตย์-วันเสาร์
- B time5mins เป็นช่วงเวลาใน 1 วัน
- C stop1 หมายเลย Link ที่เริ่มเดินทาง
- D stop2 หมายเลย Link ที่รถจอด
- E linkID ต้นและปลาย link หมายถึงช่วงถนนระหว่างป้ายรถ
- F distance หรือระยะทางระหว่างป้าย หน่วยเป็นเมตร
- G timebtstops คือระยะเวลาเดินทางระหว่างป้าย หน่วยเป็นนาที
คำนิยามเกี่ยวกับ DATA
- ข้อมูล แถว(colum) A-G เรียกว่า แอตทริบิวต์ (attribute)
- ข้อมูล แนว(row) 1-12 เรียกว่า example
ประเภทของข้อมูลแต่ละแอตทริบิวต์
- Integer คือข้อมูลประเภทตัวเลขจำนวนเต็ม
- Real คือข้อมูลประเภทตัวเลขทศนิยม
- Date time คือข้อมูลประเภทวันที่และเวลา
- Polynominal คือข้อมูลประเภทที่เป็นตัวเลขและมีมากกว่า 2 ตัวเลือก เช่น dayofweek
ประเภทข้อมูลที่สามารถ Import เข้ามาใน RapidMiner เพื่อ Process
RapidMiner สามารถใช้ข้อมูลมาโปรเซสถึง 16 ฟอร์เมท ดังรูปด้านล่าง แต่หนึ่งในนั้นที่นิยมนำมาใช้กันคือ ฟอร์เมทที่เป็น CSV และ Excel ซึ่งในตัวอย่างที่แสดงให้ดูจะใช้ CSV
Import data
- Import ไฟล์ CSV เข้ามาใน Repository
- ไปที่ค้นหาของเมนู Operator พิมพ์คำว่า read เพื่อเรียกใช้ operator สำหรับ Import ข้อมูล
- เลือก Operator ชื่อ Read CSV ลากมาวางที่หน้าต่าง Main Design ดังรูป
- คลิกที่ Operator แล้วไปที่หน้าต่า Parameter เพื่อตั้งค่า Operator “Read CSV”
- คลิกที่
Import Configuration Wizard
- เลือกไฟล์
ที่จะ Import เข้ามาใน RapidMiner ซึ่งในที่นี่้เราไฟล์ไฟล์ CSV ชื่อ “19Days”
- คลิก
Next
- เลือก
Comma และ คลิก
Next [การแยกข้อมูมระหว่างคอลัมน์นั้น เลือก comma เนื่องจาก ฟอร์แมท CSV คั่นข้อมูลระหว่างคอลัมน์ด้วย comma]
- กำหนดรายละเอียดให้กับแอตทริบิวต์ โดยกำหนดให้แถวแรกเป็นชื่อ
ของแอตทริบิวต์ และคลิก
Next
ความหมายของการกำหนดรายละเอียดของแถว
- – คือกำหนดให้แถวนั้นๆเป็นข้อมูล
- Name คือกำหนดแถวนั้นให้เป็นชื่อของแอตทริบิวต์
- Comment คือกำหนดให้แถวนั้นเป็นการบรรยายรายละเอียดของแอตทริบิวต์
- Unit คือ กำหนดให้แถวนั้นหน่วยของแอตทริบิวต์)
- ตรวจสอบ
แอตทริบิวของข้อมูลทั้งหมดว่าถูกต้องหรือไม่ซึ่งในที่นี้ ต้องเปลี่ยนแอตทริบิวต์ของ stop1,stop2 เป็นประเภท Polynominal คลิก
Finish
ลากต่อเส้นจากพอร์ค exa ของโอเปอเรเตอร์ Read CSV ไปยังพอร์ต res คลิก ปุ่ม
เพื่อตรวจสอบว่า Import ข้อมูลเข้ามาสำเร็จหรือไม่
- ข้อมูลที่ Import เข้ามาใน RapidMiner Studio 7 แสดงในหน้าต่าง Results ตรวจสอบได้จากรายละเอียดข้อมูลและจำนวนแถวข้อมูลที่เข้ามา
ข้อมูลที่แสดงที่หน้าต่าง Result หรือข้อมูลที่ได้จากเอาท์พุทของโอเปอเรเตอร์ แสดง 5 รูปแบบ คือ
- A แสดงข้อมูลในรูปแบบตาราง(Data ) ซึ่งเป็นค่าเริ่มต้นในการแสดงหลังจากจาก Run เสร็จ หรือเป็นค่า เริ่มต้น
- B แสดงข้อมูลในรูปของค่าทางสถิติ (Statistic) ที่สรุปมาเป็นค่า Min, Max, Average,Least,Most
- C แสดงกราฟแบบต่างๆสามารถเลือกชนิดกราฟได้
- D แสดงกราฟแบบต่างๆสามารถตั้งค่าการพล๊อตกราฟเองได้ โดยสามารถปรับสีและFont เองได้
- E แสดงรายละเอียดของ ข้อมูลเช่น ข้อมูลที่ Import เข้ามา ได้มาจากแหล่งข้อมูลแหล่งได ยกตัวอย่างเช่น D:\suporn\bus checkin\algorithm_predictTravel time\dataSet\19Days.csv