การทำเหมืองข้อมูล
ปัจจุบันการเขียนโปรแกรมคอมพิวเตอร์ เพื่อพัฒนาโปรแกรมระบบงานด้านธุรกิจขึ้นมาใช้งาน อำนวยความสะดวกในเรื่องของการคำนวณ ประมวลผล เก็บรวบรวมข่าวสาร ค้นหา และออกรายงานได้อย่างรวดเร็ว ด้วยความสามารถของคอมพิวเตอร์นั้น ถือเป็นเรื่องปกติพื้นฐานไปเสียแล้วสำหรับการพัฒนาระบบงานในปัจจุบัน
ถ้าหาก programmer หรือผู้ที่มีส่วนเกี่ยวข้องในการพัฒนาโปรแกรมระบบงานด้านธุรกิจ ไม่มีการพัฒนาแนวคิดใหม่ ๆ ที่จะนำเทคนิควิธี หรือ Algorithm มาใช้กับข้อมูล ในขณะที่มีอุปกรณ์และเครื่องมือสมัยใหม่ต่าง ๆ ที่เอื้อประโยชน์ในการพัฒนา ความสามารถของเครื่องคอมพิวเตอร์ก็วิวัฒนาการอย่างรวดเร็ว มีประสิทธิภาพสูง ความจุมหาศาล แต่ถ้าเราไม่สามารถที่จะใช้สิ่งที่มีอยู่ได้อย่างเต็มประสิทธิภาพและคุ้มค่า ย่อมจะส่งผลต่อระบบงานที่ล้าหลัง ล้าสมัย ขาดการวิเคราะห์และสกัดข้อมูลที่ซ่อนเร้นอยู่ในฐานข้อมูลนั้นขึ้นมาใช้ประโยชน์อย่างที่ควรจะเป็น และนั่นก็บ่งบกถึงประสิทธิภาพของบุคคลที่ขาดความคิดสร้างสรรค์ ขาดความสามารถ องค์กรของเราก็จะล้าหลังในธุรกิจ ตามคู่แข่งไม่ทัน ขาดข้อมูลข่าวสารที่จะนำไปสร้างกลยุทธ์ และสร้างความได้เปรียบให้กับองค์กร และมันอาจจะนำมาซึ่งอนาคตขององค์กร ว่าจะสามารถคงอยู่ได้หรือไม่ กับสภาวการณ์การแข่งขันด้านธุรกิจในปัจจุบันที่มีความรุนแรง
ดังนั้นเราควรทำความรู้จักกับ การแสวงหาความรู้ใหม่ด้วยเทคนิคของการการทำเหมืองข้อมูล
(Data Mining: Concepts and Techniques) ดังต่อไปนี้
1 เหมืองข้อมูล (Data Mining)
Data Mining คือ การค้นหาความสัมพันธ์และรูปแบบ(Pattern) ทั้งหมด ซึ่งมีอยู่จริงในฐานข้อมูล แต่ได้ถูกซ่อนไว้ภายในข้อมูลจำนวนมาก Data Mining จะทำการสำรวจและวิเคราะห์อย่างอัตโนมัติหรือกึ่งอัตโนมัติ ในปริมาณข้อมูลจำนวนมากให้อยู่ในรูปแบบที่เต็มไปด้วยความหมายและอยู่ในรูปของกฎ (Rule) โดยความสัมพันธ์เหล่านี้แสดงให้เห็นถึงความรู้ต่าง ๆ ที่มีประโยชน์ในฐานข้อมูล
Data Mining จะเป็นการสังเคราะห์ข้อมูลอย่างละเอียดจากฐานข้อมูลขนาดใหญ่ หรืออาจวิเคราะห์มาจากรายการ Transaction โดยเรียนรู้ข้อมูลจากอดีต หรือปัจจุบันผลลัพธ์ที่ได้จากการสังเคราะห์ของ Data Mining อาจจะเป็นข้อมูลแบบ Unknow , Valid, หรือ Actionable ซึ่งความหมายของข้อมูลทั้ง 3 ประเภทนี้ มีดังนี้
1. ข้อมูลแบบ Unknow เป็นข้อมูลที่ผู้ใช้งานไม่เคยรู้มาก่อน ไม่ชัดเจน ไม่สามารถตั้งสมมติฐานล่วงหน้าว่าจะเป็นแบบใด เช่น
Ex: ห้างสรรสินค้าแห่งหนึ่งค้นพบพฤติกรรมของผู้บริโภค ที่พ่อบ้านมักซื้อเบียร์และผ้าอ้อมในวันศุกร์ตอนเย็น ดังนั้นเป็นสัญญาณให้เจ้าของกิจการควรจะเตรียมสินค้าไว้เพื่อจำหน่าย ในขณะที่ห้างคู่แข่งอาจจะไม่รู้ข้อมูลเหล่านี้
Ex: เจ้าของร้านขายรถยนต์พบว่ารถยนต์ขนาดใหญ่ ราคาแพงมักจะถูกซื้อโดยคนที่สูงอายุ ซึ่งเจ้าของร้านไม่เคยรู้มาก่อน แต่ข้อมูลดังกล่าวไม่เป็นลักษณะของ Unknow เพราะสมมติฐานดังกล่าวมีอยู่ คือ คนที่มีอายุมักมีฐานะดีขึ้น เมื่อเทียบกับคนในวัยที่อายุน้อย
2. ข้อมูลแบบ Valid เมื่อผู้ใช้เริ่มใช้เทคนิคของ Data Mining จะค้นพบสิ่งที่น่าสนใจตลอดเวลา แต่จะต้องพิจารณาด้วยว่าสิ่งนั้นถูกต้อง (Valid) หรือไม่ เช่น มักจะพบว่ามีความสัมพันธ์ของการซื้อสินค้า 2 อย่างเสมอ เมื่อจำนวนความหลากหลายของสินค้ามากขึ้น แต่ไม่ได้หมายความว่าจะต้องให้ห้างสรรพสินค้า เก็บสินค้าในคลังมากขึ้น เพราะข้อมูลที่ได้อาจเกิดความคลาดเคลื่อน เพราะฉะนั้นจะต้องทำการตรวจสอบความถูกต้อง (Validation and Checking) ของข้อมูลและวิเคราะห์ความถูกต้องอีกครั้ง
3. ข้อมูลแบบ Actionable : ข้อมูลจะต้องถูกแปลงออกมาและนำมาตัดสินใจ เพื่อสร้างความได้เปรียบในเชิงธุรกิจ บางครั้งข้อมูลที่เราค้นพบเป็นสิ่งที่คู่แข่งได้ทำไปเสียแล้ว (เราช้าไป) หรืออาจผิดกฎหมาย ซึ่งจะต้องมีวิจารณญาณในการใช้ด้วย บางทีข้อมูลดังกล่าวอาจไม่มีประโยชน์อะไร
2 วิวัฒนาการของ Data Mining
1. ปี ค.ศ 1960 :Data Collection มีการนำข้อมูลมาจัดเก็บอย่างเหมาะสมในอุปกรณ์ที่น่าเชื่อถือ เพื่อ
ป้องกันการสูญหายได้เป็นอย่างดี
2. ปี 1980: Data Access มีการนำข้อมูลที่จัดเก็บมาสร้างความสัมพันธ์ระหว่างกัน เพื่อนำไป
วิเคราะห์ และตัดสินใจอย่างมีประสิทธิภาพ
3. ปี 1990: Data Warehouse and Dicision Support มีการนำข้อมูลมาเก็บลงในฐานข้อมูลขนาดใหญ่
ครอบคลุมการใช้งานทั้งหมดขององค์กร เพื่อช่วยสนับสนุนการตัดสินใจ
4.ปี 2000 : Data Mining นำข้อมูลจากฐานข้อมูลมาวิเคราะห์และประมวลผล โดยสร้างแบบจำลอง
และความสัมพันธ์ทางสถิติ
3 วัตถุประสงค์ในการใช้ Data Mining
1. เพื่อการค้นพบองค์ความรู้ใหม่ในฐานข้อมูล (Knowledge discovery in databases)
2. เพื่อการสกัดองค์ความรู้ที่ซ่อนเร้นอยู่ (Knowledge extraction)
3. เพื่อจัดการกับข้อมูลในอดีต (Data archeology)
4. เพื่อสำรวจข้อมูล (Data exploration)
5. เพื่อค้นหา Pattern ของข้อมูลที่ซ่อนอยู่ (Data pattern processing)
6. เพื่อใช้ขุดเจาะข้อมูล (Data dredging)
7. เพื่อเก็บเกี่ยวผลประโยชน์ให้ได้มาซึ่งสารสนเทศที่มีประโยชน์
4 เป้าหมายหลักของ Data Mining
คุณลักษณะและเป้าหมายหลักของ Data Mining คือ ใช้สกลับหรือค้นหา Pattern ของข้อมูลที่ฝังลึกและซ่อนเร้นอยู่ภายในฐานข้อมูลขนาดใหญ่ โดยใช้สถาปัตยกรรม Client-Server (Client/server architecture) ใช้เครื่องมือสมัยใหม่ที่สามารถแสดงผลแบบกราฟฟิก ผู้ใช้สามารถดูข้อมูลแบบเจาะลึก (data drills) และสามารถใช้เครื่องมือในการสอบถามข้อมูลได้อย่างง่ายดาย โดยไม่ต้องอาศัยความชำนาญของ programmer บ่อยครั้งเราอาจค้นพบผลลัพธ์ที่เราไม่คาดหวังมาก่อน เครื่องมือจะทำให้เราใช้งานได้ง่าย ซึ่งเครื่องมือนอกจากจะแสดงผลกราฟิกได้แล้วยังรวม Spreadsheets เอาไว้ด้วย
5 กระบวนการของ Data Mining (A KDD Process)
เป็นกระบวนการในการค้นหาลักษณะแฝงของข้อมูล (Pattern) ที่ซ่อนอยู่ในฐานข้อมูล

รูป กระบวนการของ Data Mining (KDD : Knowledge Discovery in Database)
ขั้นตอนของการค้นหาความรู้ใหม่ (Steps of a KDD Process)
1. เรียนรู้และศึกษาเกี่ยวกับโปรแกรมที่จะใช้ (Learning the application domain)
2. คัดเลือกข้อมูล (data selection) เป็นการระบุถึงแหล่งข้อมูลที่จะนำมาทำ mining รวมถึงการนำข้อมูลที่ต้องการออกจากฐานข้อมูล เพื่อสร้างกลุ่มข้อมูลสำหรับพิจารณาในเบื้องต้น
3. การกรองข้อมูลและประมวลผล (Data cleaning and preprocessing) ข้อมูลที่เก็บรวมรวมมามีจำนวนมากจะต้องนำมากรอง เพื่อเลือกข้อมูลที่ตรงประเด็น เพราะบางข้อมูลอาจจะไม่เป็นประโยชน์กับเรา ในขั้นตอนนี้เป็นขั้นตอนที่เราจะได้มาซึ่งคุณภาพของข้อมูล ที่จะนำไปวิเคราะห์
4. การแปลงรูปแบบข้อมูล (Data reduction and transformation) ลดรูปและจัดข้อมูลให้อยู่ในรูปแบบ เดียวกัน มีรูปแบบ (Format) ที่เป็นมาตรฐาน และเหมาะสมที่จะนำไปใช้กับ Algorithm และแบบจำลองที่ใช้ทำ Data Mining
5. เลือก Functions ของ data mining เช่น summarization, classification, regression, association และ clustering เป็นต้น
6. เลือก Algorithm ของ data mining เป็นเทคนิคสำหรับการ Mine ข้อมูล
7. ทำการค้นหา Patterns ที่เราสนใจ
8. ประเมินผล Pattern และนำเสนอองค์ความรู้ ในขั้นตอนนี้จะเป็นการวิเคราะห์ผลลัพธ์ที่ได้ และแปลความหมาย และประเมินผลว่าผลลัพธ์นั้นเหมาะสมหรือตรงวัตถุประสงค์หรือไม่และนำเสนอ
9. ใช้องค์ความรู้ที่ค้นพบ (Use of discovered knowledge)
6 ชนิดขององค์ความรู้ที่ค้นพบ (Types of knowledge to be mined)
1. องค์ความรู้เกี่ยวกับคุณลักษณะของข้อมูล (Characterization) เช่น รู้ว่าคนที่สามารถเรียนต่อในระดับปริญญาเอกได้จะพิจาณาได้จากคุณลักษณะใด
2. องค์ความรู้เกี่ยวกับการจำแนกข้อมูล (Discrimination)
3. องค์ความรู้เกี่ยวกับความสัมพันธ์ของข้อมูล (Association) เช่น มีความสัมพันธ์ของการซื้อสินค้าพบว่า ถ้าลูกค้าป๊อบคอร์น จะต้องซื้อเป๊บซี่ตามมา
4. องค์ความรู้เกี่ยวกับการแยกประเภทข้อมูลและการพยากรณ์ (Classification/prediction)
5. องค์ความรู้เกี่ยวกับการจัดกลุ่มข้อมูล (Clustering)
6. องค์ความรู้เกี่ยวกับการวิเคราะห์ข้อมูลจากภายนอก (Outlier analysis)
7. องค์ความรู้เกี่ยวกับข้อมูลอื่น ๆ ในงานที่ค้นพบ (Other data mining tasks)
7 Data Mining และ Business Intelligence
Data Mining เป็นระดับการนำข้อมูลไปใช้ที่สูงกว่า Data Warehouse และ Data Mart นำเอาข้อมูลมาใช้เพื่อการวิเคราะห์ให้เกิดประโยชน์สูงสุด เพื่อช่วยสนับสนุนการตัดสินใจแก่ฝ่ายบริหาร โดยอาศัยกฏเกณฑ์ต่าง ๆ ในการทำงาน
BI (Business Intelligence) คือ ข้อมูลสรุปที่สามารถนำมาช่วยในการตัดสินใจ หรือตอบคำถามในเชิงธุรกิจให้กับผู้บริหารได้ ดังนั้นระบบ BI ที่ดีจะต้องสามารถ นำเสนอข้อมูลสารสนเทศในเชิงภาพรวมของธุรกิจทั้งหมดขององค์กรได้ เพื่อทำให้ขีดความสามารถในการวิเคราะห์ข้อมูลสารสนเทศดี เนื่องจากสามารถวิเคราะห์และตอบคำถามของทั้งระบบธุรกิจได้(http://www.g-able.com/thai/solutions/g-biz/bis.htm)

รูป เหมืองข้อมูลและเครื่องมือทางธุรกิจ
8 สถาปัตยกรรมของ Data Mining (Architecture of a Typical Data Mining System)
ประเภทของข้อมูลที่จะใช้ใน Data Mining
1. ข้อมูลที่มาจากฐานข้อมูลเชิงสัมพันธ์ (Relational databases)
2. ข้อมูลจากคลังข้อมูล (Data warehouses)
3. ข้อมูลจากฐานข้อมูลรายการปรับปรุง (Transactional databases)
4. จากฐานข้อมูลพิเศษหรือที่เก็บข่าวสารพิเศษ ซึ่งได้แก่
- ฐานข้อมูลเชิงวัตถุ
- ข้อมูลเกี่ยวกับเวลา
- ฐานข้อมูลข้อความ (Text databases) และฐานข้อมูลมัลติมีเดีย
- ฐานข้อมูลแบบเก่าในอดีตหรือข้อมูลที่มาจากต่างฐานข้อมูลกัน
- ข้อมูลจากแหล่ง WWW
9. Data Mining Functionalities (Data Mining Task)
งานของ Data Mining สามารถทำงานในการขุดค้นข้อมูล ดังนี้
1. การวิเคราะห์คุณสมบัติและการแยกแยะข้อมูล (Characterization and discrimination)
2. การหาความสัมพันธ์ของข้อมูล (Association)
3. การจัดหมวดหมู่และการวิเคราะห์การถดถอย (Classification/ Regression)
การจัดหมวดหมู่ (Classification)
ตัวอย่างของการจัดหมวดหมู่ ที่นำมาใช้กับงานด้านธุรกิจ เช่น มีนักวิเคราะห์ขององค์กร
แห่งหนึ่งต้องการรู้เหตุผลว่า “ทำไมถูกค้าบางกลุ่มถึงยังคงซื่อสัตย์จงรักภักดีต่อยี่ห้อสินค้า (Band Loyalty) ขององค์กร และขณะเดียวกันก็มีลูกค้าอีกกลุ่มที่เปลี่ยนใจไปหาคู่แข่ง “ ในการหาคำตอบนี้ นักวิเคราะห์ต้องทำนายลักษณะนิสัยของลูกค้าที่องค์กรอาจต้องเสียไปให้กับคู่แข่ง ดังนั้นเมื่อมีเป้าหมายคือ “อยากทราบเหตุผล” นักวิเคราะห์สามารถนำข้อมูลการซื้อสินค้า ของลูกค้าในอดีตมาทดลองกับแบบจำลองเพื่อวิเคราะห์ผลว่าทำไมลูกค้าบางกลุ่มซื่อสัตย์ บางกลุ่มไม่ซื่อสัตย์
จุดประสงค์คือ : ต้องการศึกษา “อ๊อบเจ็คลูกค้า” โดยสมมติให้อ๊อบเจ็คลูกค้า มี Field ที่เกี่ยวข้อง ดังนี้
Table: Cutomer
Field
|
Data Type
|
Value
|
Description
|
Cus_id
|
Int
|
unique
|
รหัสลูกค้า
|
Time
|
Int
|
Integer
|
ระยะเวลาที่ลูกค้าอยู่กับองค์กร
|
Trend
|
Text
|
เพิ่มขึ้น, คงที่, ลดลง
|
ตัวบ่งชี้แนวโน้มการใช้สินค้า 6 เดือนล่าสุด
|
Status
|
Text
|
สูง,กลาง, ต่ำ, ไม่ทราบ
|
การสำรวจผลความพอใจของลูกค้า
|
Cus_type
|
Text
|
ซื่อสัตย์,ไม่ซื่อสัตย์
|
ลูกค้ายังคงอยู่กับองค์กรหรือเสียไปให้คู่แข่ง
|
ตารางที่ 1 แสดงตารางข้อมูลเกี่ยวกับลูกค้า
คำตอบที่เราต้องการ (Output) คือรหัสลูกค้า (Cus_type) ถือเป็นตัวแปรตาม(Dependent vairable) ซึ่งผลของตัวแปรตามจะขึ้นอยู่กับตัวแปรอิสระ ((Independent vairable) ในที่นี้คือฟีลด์ Time, Trend และ Status
มีหลายเทคนิคของ Data Mining ที่ใช้ในการแก้ปัญหาแบบ Classification แต่ละเทคนิคก็จะมีหลาย Algorithm ให้เลือกและแต่ละ Algorithm จะให้ผลลัพธ์ที่ต่างกัน ซึ่งปัญหาประเภทนี้จะให้ผลลัพธ์เป็นค่าที่แน่นอน เช่น อาจจะได้คำตอบเป็น (Yes, No) หรือ (High, Medium, Low) เป็นต้น
เทคนิคของ Data Mining ที่ใช้ ในการแก้ปัญหาแบบ Classification ได้แก่
1. Decision Tree
2. Neural Networks
3. Naïve-Bayes
4. K-nearest neighbor (K-NN)
การวิเคราะห์การถดถอย (Regression)
ปัญหาแบบ Regression จะเหมือนกับแบบ Classification ต่างกันตรงที่ผลลัพธ์ที่ได้จาก Regression เป็นค่าแน่นอน ที่ไม่จำกัด จะเป็นค่าอะไรก็ได้ เช่น แบบจำลองทำนายว่า นาย B จะตอบรับข้อเสนอของบริษัท ถ้านาย B ได้รับผลกำไร 1,000 บาท (1,000 เป็นคำตอบเฉพาะที่แน่นอน แต่ไม่จำกัด ซึ่งตัวเลขอาจจะเป็นค่าอื่นไปได้เรื่อย ๆ ต่างจากคำตอบแบบ Yes, No )
4. การวิเคราะห์การรวมกลุ่ม หรือ การแบ่งแยกข้อมูล (Cluster analysis/ Segmentation)
การวิเคราะห์การรวมกลุ่ม (Clustering)
เป็นการรวมกลุ่มข้อมูลที่มีลักษณะเหมือนกัน รูปแบบหรือแนวโน้มที่จะเหมือนกัน การใช้เทคนิค Clustering จะไม่มีผลลัพธ์ (Output) ไม่มีตัวแปรอิสระ (Independent Variable) ไม่มีการจัดโครงร่างของวัตถุ เราจะเรียกเทคนิคของClustering ว่าเป็นแบบเรียนรู้ข้อมูลโดยไม่ต้องอาศัยครูสอน(Unsupervied Learning) การทำ Clustering จะทำบนพื้นฐานของข้อมูลในอดีต
Ex : องค์กรต้องการทราบความเหมือนที่มีในกลุ่มของลูกค้าของตน เพื่อที่จะให้เข้าใจลักษณะเฉพาะของลูกค้ากลุ่มเป้าหมาย และสร้างกลุ่มของลูกค้าเพื่อที่องค์กรจะได้สามารถขายสินค้าได้ในอนาคต องค์กรจะทำการแยกกลุ่มของข้อมูลลูกค้าออกเป็นกลุ่ม ๆ (หาส่วนที่เป็น Intersection และ Union)
เทคนิคของ Data Mining เพื่อแก้ปัญหาแบบ Clustering คือวิธี Demographic Clustering กับ Neural Clustering
5. การประเมินและการพยากรณ์ (Estimation/Prediction)
การประเมิน (Estimation)
เป็นการประเมินที่ไม่สามารถกำหนดค่าหรือคุณสมบัติที่ชัดเจนได้ ใช้จัดการกับค่าที่มีผล
แบบต่อเนื่อง เช่น ใช้ประเมินรายได้ของครอบครัว ประเมินความสูงของบุคคลในครอบครัว ประเมินจำนวนเด็ก ๆ ในครอบครัว
การพยากรณ์ (Prediction)
จะเหมือนกับ Classification และ Estimation ต่างกันตรงที่ Record ถูกแยกจัดลำดับในการ
ทำนายค่าในอนาคต และนำข้อมูลในอดีตมาสร้างเป็นแบบจำลอง ใช้ทำนายสิ่งที่จะเกิดขึ้นในอนาคต เช่น การทำนายว่าลูกค้ากลุ่มใด ที่องค์กรจะสูญเสียไปในอีก 6 เดีอนข้างหน้า หรือ การทำนายยอดซื้อของลูกค้าจะเป็นเท่าใด ถ้าบริษัทลดราคาสินค้าลง10%
6. การบรรยายและการแสดงภาพของข้อมูล (Description / Visualization)
การบรรยาย (Description)
เป็นการหาคำอธิบายถึงสิ่งที่จะเกิดขึ้น โดยอาศัยข้อมูลจากฐานข้อมูล เช่น กลุ่มคนที่มี
การศึกษาหรือรายได้น้อย จะเลือกนักการเมืองที่มีนโยบายทุนนิยม มากกว่ากลุ่มคนชั้นกลาง
การแสดงภาพของข้อมูล (Visualization)
เป็นการนำเสนอข้อมูลในรูปแบบกราฟฟิก หรืออาจนำเสนอในแบบ 2 มิติ สร้างรายละเอียด
ในการนำเสนอให้เข้าใจมากยิ่งขึ้น เช่น องค์กรต้องการหาสถานที่ในขยายสาขาใหม่ที่อยู่ในเขตพื้นที่ภาคเหนือของประเทศ ดังนั้นองค์กรจึงใช้แผนที่ Plot ที่ตั้งขององค์กรคู่แข่งที่มีสาขาอยู่ในเขตนั้น เพื่อพิจารณาสถานที่ตั้งที่เหมาะสมที่สุด
10 เครื่องมือและเทคโนโลยีของ Data Mining (Data Mining Tools and Technologies)
1. Neural Network เป็นแนวคิดให้คอมพิวเตอร์ทำงานสมองของมนุษย์ เปลี่ยนตัวเองจากการประมวลผลตามลำดับ (Sequential Processing) ให้เป็นการประมวลผลแบบคู่ขนานได้ (Parallel Processing) มีลักษณะการทำงานโดยแต่ Process จะรับInput เข้าไปคำนวณ และสร้าง Output ออกมาในลักษณะที่ไม่ใช่การทำงานแบบเชิงเส้นตรง เพราะ Input แต่ละตัวจะถูกให้ลำดับความสำคัญของค่าไม่เท่ากัน ค่าของ Output ที่ได้จากการเชื่อมโยงกันนี้ จะถูกนำมาเปรียบเทียบกับ Output ที่ได้ตั้งเอาไว้ ถ้าค่าที่ออกมาเกิดความคลาดเคลื่อน ก็จะนำไปสู่การปรับค่าหรือน้ำหนัก (weight) ของค่าที่ใส่ไว้ให้แต่ละ Input
Neural Network เป็นการสร้างแบบจำลอง ที่เลียนแบบการทำงานของสมองมนุษย์ มีโครงสร้างเป็นกลุ่มของ Node ที่เชื่อมโยงถึงกันในแต่ละ Layer คือ Input layer, Hidden layer, output layer
2. Decision Trees เป็นการนำข้อมูลมาสร้างแบบจำลองการพยากรณ์ในรูปแบบ
โครงสร้างต้นไม้(Decision Trees) ซึ่ง Decision Trees จะมีการทำงานแบบ Supervised Learning (คือการเรียนรู้แบบมีครูสอน) สามารถสร้างแบบจำลองการจัดหมวดหมู่ได้จากกลุ่มตัวอย่างข้อมูลที่กำหนดไว้ก่อนล่วงหน้า เรียกว่า Training set ได้อัตโนมัติ และพยากรกลุ่มของรายการที่ยังไม่เคยนำมาจัดหมวดหมู่ ได้ด้วยรูปแบบของ Tree โครงสร้างประกอบด้วย Root Node, Child และ Leaf Node
3. Memory Based Reasoning (MBR) เปรียบเหมือนกับประสบการณ์ การเรียนรู้ของ
มนุษย์ ซึ่งอาศัยการสังเกตที่เกิดขึ้น แล้วสร้างรูปแบบของสิ่งนั้นขึ้นมา เราใช้ MBR เพื่อวิเคราะห์ฐานข้อมูลที่มีอยู่ และกำหนดลักษณะพิเศษของข้อมูลที่อยู่ในนั้น ซึ่งข้อมูลจะต้องมีลักษณะที่สมบูรณ์ การสังเกตจึงจะสมบูรณ์และทำนายผลได้แม่นยำยิ่งขึ้น แบบจำลองจะถูกบอกคำตอบที่ถูกต้อง มีการเก็บคำตอบสำหรับแก้ปัญหาไว้ก่อนล่วงหน้าแล้ว (Supervised Learning)
4. Cluster Detection คือจะแบ่งฐานข้อมูลออกเป็นส่วน ๆ เรียกว่า Segment (กลุ่ม Record ที่มีลักษณะคล้ายกัน) ส่วน Record ที่ต่างกันก็จะอยู่นอก Segment, Cluster Detection ถูกใช้เพื่อค้นหากลุ่มย่อย (Sub Group) ที่เหมือน ๆ กันในฐานข้อมูล เพื่อที่จะเพิ่มความถูกต้องในการวิเคราะห์ และสามารถมุ่งไปยังกลุ่มเป้าหมายได้ถูกต้อง
5. Link Analysis มุ่งเน้นทำงานบน Record ที่มีความสัมพันธ์กัน หรือเรียกว่า Association เทคนิคนี้จะมุ่งไปที่รูปแบบการซื้อหรือเหตุการณ์ที่เกิดขึ้นเป็นลำดับ มีอยู่ 3 เทคนิค คือ
5.1 Association Discovery ใช้วิเคราะห์การซื้อขายสินค้าในรายการเดียวกัน ศึกษาความสัมพันธ์อย่างใกล้ชิดที่ถูกปิดซ่อนอยู่ของสินค้า ซึ่งสินค้าเหล่านั้นอาจมีแนวโน้มที่จะถูกซื้อควบคู่กันไป การวิเคราะห์แบบนี้เรียกว่า Market Basket Analysis คือ รายการทั้งหมดที่ลูกค้าซื้อต่อครั้งที่ Super market การวิเคราะห์นี้สามารถนำมาใช้ประโยชน์ในการตัดสินใจ เช่น การเตรียมสินค้าคงเหลือ การวางแผนจัดชั้นวางสินค้า การทำ Mailing list สำหรับ Direct Mail การวางแผนเพื่อจัด Promotion สนับสนุนการขาย ตัวอย่างของ Association เช่น 75% ของผู้ซื้อน้ำอัดลมจะซื้อข้าวโพดคั่วด้วย
5.2 Sequential Pattern Discovery ถูกใช้ระบุความเกี่ยวเนื่องกันของการซื้อสินค้าของลูกค้า มีจุดหมายที่จะเข้าใจพฤติกรรมการซื้อสินค้าของลูกค้าในลักษณะ logn term เช่น ผู้ขายอาจพบว่าลูกค้าที่ซื้อ TV มีแนวโน้มที่จะซื้อ VDO ในเวลาต่อมา
5.3 Similar Time Sequence Discovery ค้นหาความเกี่ยวเนื่องกันระหว่างข้อมูล 2 กลุ่ม ซึ่งขึ้นต่อกันทางด้านเวลา โดยมีรูปแบบการเคลื่อนที่เหมือนกัน ผู้ขายสินค้ามักใช้เพื่อดูแนวโน้มเพื่อเตรียม Stock เช่น เมื่อไรก็ตามที่ยอดขายสินค้าน้ำอัดลมสูงขึ้น ยอดขายมันฝรั่งจะสูงขึ้นตาม
11 การประยุกต์ใช้ Data Mining กับงานด้านธุรกิจ
สามารถนำเทคนิคของ Data Mining ไปวิเคราะห์ข้อมูลในฐานข้อมูล เพื่อนำข้อมูลที่ได้ไปใช้ประโยชน์ในงานด้านต่าง ๆ ดังต่อไปนี้
1. งานด้านการตลาด (Marketing) เช่น การทำ Promotion ส่งเสริมการขาย
2. งานด้านธนาคารและการเงิน (Banking / Financial Analysis) เช่น ใช้ในการวิเคราะห์การให้สินเชื่อแก่ลูกค้า การจัดทำ Package ในการกู้ยืม การทำนายอัตราการจ่ายเงินกู้ การแบ่งกลุ่มลูกค้าเพื่อหาเป้าหมายทางการตลาด (ลูกค้าชั้นดี)
3. งานด้านการขายปลีก (Retailing and sales) เป็นงานที่มีการเก็บข้อมูลจำนวนมาก ประยุกต์ใช้เพื่อหากลยุทธ์ ทำให้เกิดการได้เปรียบคู่แข่งทางการค้าในการหาลักษณะการซื้อของลูกค้า ความสัมพันธ์ของการซื้อกับช่วงเวลา ความสัมพันธ์ระหว่างตัวสินค้า และการวิเคราะห์ประสิทธิภาพของการโฆษณา เป็นต้น ช่วยให้สามารถหาวิธีการตอบสนองความต้องการของลูกค้าได้มากที่สุด และอาจหมายถึงส่วนแบ่งทางการตลาดที่เพิ่มขึ้นนั่นเอง
4. งานด้านการวางแผนในการผลิตสินค้า (Manufacturing and production) เช่น การพยาการณ์ยอดจำนวนการผลิตสินค้าเพื่อให้ได้กำไรมากสุด
5. งานด้านนายหน้าและความปลอดภัยด้านการค้า (Brokerage and securities trading) เช่น การพัฒนาวิธีการเพื่อสร้างความเชื่อมั่นในเรื่องความปลอดภัยของข้อมูล ในขณะที่มีการพัฒนาวิธีการเข้าถึงข้อมูล การและ Mining ให้สะดวกต่อการใช้งานมากขึ้น
6. งานด้านชีวการแพทย์และวิเคราะห์ DNA (Biomedical an DNA Analysis) เช่น การวิเคราะห์รูปแบบการจัดเรียงตัวของหน่วยพันธุกรรม เพื่อหาสาเหตุความผิดปกติที่ทำให้เกิดโรค รวมไปถึงด้านการวินิจฉัยโรค การป้องกัน และการรักษา
1. งานด้านการตลาด (Marketing) เช่น การทำ Promotion ส่งเสริมการขาย
2. งานด้านธนาคารและการเงิน (Banking / Financial Analysis) เช่น ใช้ในการวิเคราะห์การให้สินเชื่อแก่ลูกค้า การจัดทำ Package ในการกู้ยืม การทำนายอัตราการจ่ายเงินกู้ การแบ่งกลุ่มลูกค้าเพื่อหาเป้าหมายทางการตลาด (ลูกค้าชั้นดี)
3. งานด้านการขายปลีก (Retailing and sales) เป็นงานที่มีการเก็บข้อมูลจำนวนมาก ประยุกต์ใช้เพื่อหากลยุทธ์ ทำให้เกิดการได้เปรียบคู่แข่งทางการค้าในการหาลักษณะการซื้อของลูกค้า ความสัมพันธ์ของการซื้อกับช่วงเวลา ความสัมพันธ์ระหว่างตัวสินค้า และการวิเคราะห์ประสิทธิภาพของการโฆษณา เป็นต้น ช่วยให้สามารถหาวิธีการตอบสนองความต้องการของลูกค้าได้มากที่สุด และอาจหมายถึงส่วนแบ่งทางการตลาดที่เพิ่มขึ้นนั่นเอง
4. งานด้านการวางแผนในการผลิตสินค้า (Manufacturing and production) เช่น การพยาการณ์ยอดจำนวนการผลิตสินค้าเพื่อให้ได้กำไรมากสุด
5. งานด้านนายหน้าและความปลอดภัยด้านการค้า (Brokerage and securities trading) เช่น การพัฒนาวิธีการเพื่อสร้างความเชื่อมั่นในเรื่องความปลอดภัยของข้อมูล ในขณะที่มีการพัฒนาวิธีการเข้าถึงข้อมูล การและ Mining ให้สะดวกต่อการใช้งานมากขึ้น
6. งานด้านชีวการแพทย์และวิเคราะห์ DNA (Biomedical an DNA Analysis) เช่น การวิเคราะห์รูปแบบการจัดเรียงตัวของหน่วยพันธุกรรม เพื่อหาสาเหตุความผิดปกติที่ทำให้เกิดโรค รวมไปถึงด้านการวินิจฉัยโรค การป้องกัน และการรักษา
นอกจากที่กล่าวมา ยังนำไปประยุกใช้กับธุรกิจทางด้านประกันภัย (Insurance), Computer hardware และ software, หน่วยงานรัฐบาลและกระทรวงกลาโหม (Government and defense), สายการบิน (Airlines), งานด้านสุขภาพ (Health care), งานด้านการข่าว (Broadcasting) และงานด้านกฎหมาย (Law enforcement) ได้อีกด้วย
12 Intelligent Data Mining
ใช้ Intelligent Data Mining เพื่อการค้นพบข้อมูลและข่าวสารภายในคลังข้อมูล (Data warehouses) ที่ซึ่งการสอบถามและการออกรายงาน (Reports) นั้นจะไม่แสดงผลออกมา เช่น การค้นหา Patterns ในข้อมูลและลงความเห็นตามกฎ ที่เราได้กำหนดไว้ การใช้ Patterns และ Rules ในการแนะแนวทางการตัดสินใจและ
การทำนาย ซึ่งข้อมูลที่จัดเป็น Intelligent Data Mining ได้แก่ ข้อมูลข่าวสาร 5 ประเภท ต่อไปนี้
1) ข้อมูลความสัมพันธ์ (association)
2) ข้อมูลการจัดลำดับ (sequences)
3) ข้อมูลการแยกประเภทหรือจัดหมวดหมู่ (classifications)
4) ข้อมูลการแบ่งกลุ่มหรือจัดกลุ่ม (clusters)
5) ข้อมูลการทำนายหรือพยากรณ์ (forecasting)
13 เครื่องมือหลักที่ใช้ใน Intelligent Data Mining
สามารถใช้เครื่องมือหรือเทคนิคต่อไปนี้ในการขุดค้นข้อมูลใน Intelligent data mining
1. Case-based Reasoning
2. Neural Computing
3. Intelligent Agents
4. เครื่องมือชนิดอื่น ๆ (Other Tools) ได้แก่
- Decision trees
- Rule induction
- Data visualization
ไม่มีความคิดเห็น:
แสดงความคิดเห็น