การ Import Data เป็นการนำข้อมูลเข้ามาใช้งานเพื่อวิเคราะห์หรือสร้าง model ใน RapidMiner  โดยข้อมูลที่ Import เข้ามาจะถูกเก็บอยู่ใน “Repository” ซึ่งเป็นศูนย์กลางเก็บข้อมูลและโปรเซสใน RapidMiner เพื่ออำนวยความสะดวก ที่จะไม่ต้องโหลดข้อมูลทุกครั้ง ก่อนที่จะนำข้อมูลเข้าจะต้องเตรียมข้อมูลก่อน

Arrival Time Database
ข้อมูลที่จะนำเข้าเป็นข้อมูล เวลาที่ใช้เดินทางระหว่างป้าย มีรายละเอียดดังตาราง
prepareData
  • A   dayofweek เป็นวันอาทิตย์-วันเสาร์  
  • B    time5mins  เป็นช่วงเวลาใน 1 วัน  
  • C    stop1  หมายเลย Link  ที่เริ่มเดินทาง
  • D    stop2  หมายเลย Link  ที่รถจอด
  • E    linkID ต้นและปลาย link  หมายถึงช่วงถนนระหว่างป้ายรถ
  • F    distance  หรือระยะทางระหว่างป้าย หน่วยเป็นเมตร
  • G    timebtstops   คือระยะเวลาเดินทางระหว่างป้าย หน่วยเป็นนาที

คำนิยามเกี่ยวกับ DATA

  • ข้อมูล แถว(colum) A-G    เรียกว่า แอตทริบิวต์ (attribute)  
  • ข้อมูล แนว(row) 1-12  เรียกว่า example

ประเภทของข้อมูลแต่ละแอตทริบิวต์

  • Integer      คือข้อมูลประเภทตัวเลขจำนวนเต็ม
  • Real            คือข้อมูลประเภทตัวเลขทศนิยม
  • Date time  คือข้อมูลประเภทวันที่และเวลา
  • Polynominal   คือข้อมูลประเภทที่เป็นตัวเลขและมีมากกว่า 2 ตัวเลือก เช่น dayofweek

 

ประเภทข้อมูลที่สามารถ Import เข้ามาใน  RapidMiner เพื่อ Process 

RapidMiner สามารถใช้ข้อมูลมาโปรเซสถึง 16 ฟอร์เมท ดังรูปด้านล่าง แต่หนึ่งในนั้นที่นิยมนำมาใช้กันคือ ฟอร์เมทที่เป็น CSV และ Excel ซึ่งในตัวอย่างที่แสดงให้ดูจะใช้ CSV

ประเภทข้อมูล

Import  data

  •  Import ไฟล์ CSV เข้ามาใน Repository
    • ไปที่ค้นหาของเมนู Operator  พิมพ์คำว่า read เพื่อเรียกใช้ operator สำหรับ Import ข้อมูล
    • เลือก Operator ชื่อ Read CSV ลากมาวางที่หน้าต่าง Main Design ดังรูปimportFile1
    • คลิกที่ Operator แล้วไปที่หน้าต่า Parameter เพื่อตั้งค่า Operator “Read CSV”importFile2
    • คลิกที่  1   Import Configuration Wizard
    • เลือกไฟล์  2 ที่จะ Import เข้ามาใน  RapidMiner ซึ่งในที่นี่้เราไฟล์ไฟล์ CSV ชื่อ “19Days”
    • คลิก 3 Next
    • เลือก 4Comma  และ คลิก 5 Next [การแยกข้อมูมระหว่างคอลัมน์นั้น เลือก comma เนื่องจาก         ฟอร์แมท CSV คั่นข้อมูลระหว่างคอลัมน์ด้วย comma]comma
    • กำหนดรายละเอียดให้กับแอตทริบิวต์ โดยกำหนดให้แถวแรกเป็นชื่อ 7ของแอตทริบิวต์  และคลิก 8Next importFile3ความหมายของการกำหนดรายละเอียดของแถว
      • –      คือกำหนดให้แถวนั้นๆเป็นข้อมูล
      • Name     คือกำหนดแถวนั้นให้เป็นชื่อของแอตทริบิวต์
      • Comment   คือกำหนดให้แถวนั้นเป็นการบรรยายรายละเอียดของแอตทริบิวต์
      • Unit    คือ กำหนดให้แถวนั้นหน่วยของแอตทริบิวต์)
    • ตรวจสอบ 9 แอตทริบิวของข้อมูลทั้งหมดว่าถูกต้องหรือไม่ซึ่งในที่นี้ ต้องเปลี่ยนแอตทริบิวต์ของ stop1,stop2 เป็นประเภท Polynominal คลิก 10 FinishimportFile4
    • 11 ลากต่อเส้นจากพอร์ค exa ของโอเปอเรเตอร์ Read CSV ไปยังพอร์ต res    คลิก ปุ่ม  run เพื่อตรวจสอบว่า Import ข้อมูลเข้ามาสำเร็จหรือไม่importFile5
    • ข้อมูลที่ Import เข้ามาใน RapidMiner Studio 7 แสดงในหน้าต่าง Results ตรวจสอบได้จากรายละเอียดข้อมูลและจำนวนแถวข้อมูลที่เข้ามาcompleatDataImport

ข้อมูลที่แสดงที่หน้าต่าง Result หรือข้อมูลที่ได้จากเอาท์พุทของโอเปอเรเตอร์ แสดง 5 รูปแบบ  คือ

  • A     แสดงข้อมูลในรูปแบบตาราง(Data ) ซึ่งเป็นค่าเริ่มต้นในการแสดงหลังจากจาก Run เสร็จ หรือเป็นค่า เริ่มต้น
  • B     แสดงข้อมูลในรูปของค่าทางสถิติ (Statistic) ที่สรุปมาเป็นค่า Min, Max, Average,Least,Most
  • C     แสดงกราฟแบบต่างๆสามารถเลือกชนิดกราฟได้
  • D     แสดงกราฟแบบต่างๆสามารถตั้งค่าการพล๊อตกราฟเองได้ โดยสามารถปรับสีและFont เองได้
  • E     แสดงรายละเอียดของ ข้อมูลเช่น ข้อมูลที่ Import เข้ามา ได้มาจากแหล่งข้อมูลแหล่งได ยกตัวอย่างเช่น D:\suporn\bus checkin\algorithm_predictTravel time\dataSet\19Days.csv