สหสัมพันธ์ การวิเคราะห์ถดถอย และ ผังการกระจาย
Correlation, Regression and Scatter Diagrams

เนื้อหาสหสัมพันธ์

ค่าสัมประสิทธิ์สหสัมพันธ์ คือ ดัชนีบ่งบอกความชัดเจน หรือความรุนแรง ของสหสัมพันธ์ระหว่างตัวแปร 2 ตัว ในผังการกระจาย

เมื่อให้ r คือ สัมประสิทธิ์สหสัมพันธ์ของตัวอย่าง

เมื่อ n คือจำนวณคู่ของข้อมูล xy (เท่ากับจำนวนจุดบนกราฟ)
คำนวณ r ได้จากสมการ 6.1
S(xx) คือ ผลรวมของกำลังสอง ของผลต่างระหว่างค่า x แต่ละค่า กับ ค่าเฉลี่ย x บาร์ (สมการ 6.2)
S(yy) คือ ผลรวมของกำลังสอง ของผลต่างระหว่างค่า yแต่ละค่า กับ ค่าเฉลี่ย y บาร์ (สมการ 6.3)
S(xy) คือ ค่าความผันแปรร่วมกัน (Covariation) คำนวณจากสมการ 6.4

ค่าสัมประสิทธิ์สหสัมพันธ์
ความหมาย
l r l > 1
คำนวณผิด ให้คำนวณใหม่
r เข้าใกล้ -1 หรือ 1
ตัวแปรทั้งสองมีสหสัมพันธ์ชัดเจน
r ยิ่งเข้าใกล้ 0
ตัวแปรทั้งสองมีสหสัมพันธ์ยิ่งน้อยลง
r = 1 หรือ r = -1
ตัวแปรทั้งสองมีสหสัมพันธ์เป็นเส้นตรง 1 เส้น

โรงงานผลิตถังพลาสติก เกิดปัญหาถังมีความหนาไม่ได้ขนาด พบว่าความหนาของถัง เป็นผลมาจากความดันลมของเครื่องเป่าถัง โดยความดันลมไม่สม่ำเสมอ จึงทดลองเก็บข้อมูลความดันลม (kgf/cm^2) กับ เปอร์เซ็นต์ถังเสีย (%) เก็บข้อมูล 30 คู่


 

ข้อมูลจากตาราง 6.1 นำมาคำนวณค่าต่าง ๆ แสดงในตาราง 6.2 ได้แก่

  • x^2
  • y^2
  • x*y
  • SUM(x)
  • SUM(y)
  • SUM(x^2)
  • SUM(y^2)
  • SUM(x*y)

 

นำค่าที่คำนวณได้ในตาราง 6.2 ไปแทนค่า

 

ผลลัพธ์
ความหมาย
r = 0.59
  • แสดงว่า เปอร์เซ็นต์ถังเสีย (y) กับ ความดันลม ของเครื่องเป่าถัง (x) มีสหสัมพันธ์กันทางบวก
  • กล่าวคือเมื่อความดันลม ของเครื่องเป่าถังสูง จะทำให้ถังขยายตัวเร็ว ผนังถังพลาสติก ก็จะบางลงด้วย และกลายเป็นถังเสีย

 

การวิเคราะห์สหสัมพันธ์ คือ กระบวนการสร้างผังการกระจาย และ คำนวณค่าดัชนีตัวหนึ่ง ได้แก่ สัมประสิทธิ์สหสัมพันธ์ กระบวนการวิเคราะห์นี้ มีข้อควรสังเกต หรือข้อควรระวัง เพื่อการสรุปผลที่ถูกต้อง ดังต่อไปนี้

  • รูป A แสดงสเกลที่เหมาะสม ทำให้เห็นรูปแบบสหสัมพันธ เป็นลบ แบบไม่ชัดเจนนัก
  • รูป B แสดงสเกลแกน x ไม่เหมาะสม คือหยาบขึ้นเป็น 2 เท่า ทำให้ กลุ่มข้อมูล มีลักษณะการกระจาย ในแนวตั้ง มากผิดความเป็นจริง
  • รูป C แสดงสเกลแกน y ไม่เหมาะสม คือหยาบขึ้นเป็น 2 เท่า ทำให้ กลุ่มข้อมูล มีลักษณะการกระจาย ในแนวนอน มากผิดความเป็นจริง


พิจารณากรณีตัวอย่างในรูป 6.5 (ก) และ (ข)
แสดงผลเสียผังการกระจายที่ไม่จำแนกข้อมูล

รูป 6.5 (ก) และ (ข) เป็นผังการกระจาย แสดงความสัมพันธ์ระหว่าง ปริมาณสิ่งแปลกปลอม (x) ที่มีต่อ ความหนืดผลิตภัณฑ์ (y) โดยวัตถุดิบมาจากผู้ขายสองราย เก็บข้อมูลมา 40 ชุด

รูป (ก) ลงจุดข้อมูลทั้ง 40 ชุด ลงในผังการกระจายเดียวกัน โดยไม่จำแนกข้อมูล ผลคือ มองเห็นว่า ไม่มีสหสัมพันธ์ต่อกัน รูป (ข) เมื่อจำแนกข้อมูล ตาม แหล่งวัตถุดิบ เป็น ผู้ขาย A (สี่เหลี่ยม) และ B (สามเหลี่ยม) ผลคือเห็นได้ทันทีว่า y กับ x มีสหสัมพันธ์แบบบวกต่อกัน กล่าวคือ ยิ่งปริมาณ สิ่งแปลกปลอมมาก ความหนืด ก็จะเพิ่มขึ้นมากด้วย

 

พิจารณากรณีตัวอย่างอีกอันหนึ่งในรูป 6.5 (ค) และ (ง) เมื่อมีข้อมูลจากหลายแหล่ง พึงระวังเรื่องการจำแนกข้อมูล

รูป 6.5 (ค) เป็นผังการกระจาย ของข้อมูล 50 ชุด ที่มีแหล่งที่ มาสองแหล่ง คือ A และ B อย่างละ 25 ชุด พิจารณา ด้วยสายตา จะเห็นว่ามี สหสัมพันธ์กัน ชัดเจน พอสมควร

รูป 6.5 (ง) แต่เมื่อจำแนกข้อมูล ตามแหล่งที่มา ด้วย สัญญลักษณ์ต่างกัน พบว่า ข้อมูลสองแหล่ง แยกกันชัดเจน และกลับกลายเป็นว่า ข้อมูลแต่ละกลุ่ม ไม่แสดงสหสัมพันธ์ ระหว่าง x กับ y เลย

รูป 6.3.6 ข้อมูล 30 ชุด ในช่วงแกน x ระหว่าง 0 ถึง 8 ข้อเท็จจริง แสดงว่า ข้อมูลไม่มีสหสัมพันธ์กัน

รูป 6.6.1 แต่เมื่อเลือก พิสัยแกน x ระหว่าง 0 ถึง 4 มาลงจุด จะแสดงว่า เหมือน มีสหสัมพันธ ์แบบบวก

รูป 6.6.2 ขณะที่เมื่อเลือก พิสัยแกน x ระหว่าง 4 ถึง 8 มาลงจุด จะกลายเป็นว่า มีสหสัมพันธ ์แบบลบ

 

พิจารณารูป 6.7
การเลือกพิสัยแคบเกินไป ทำให้การวิเคราะห์ ผิดพลาดจากความจริง ว่าไม่มีสหสัมพันธ์ ทั้งที่ความจริงมีสหสัมพันธ์กัน

รูป 6.3.2 ข้อมูล 30 ชุด พิสัยแกน x ระหว่าง 0 ถึง 7แสดงว่ามีสหสัมพันธ์ แบบบวก ชัดเจนพอสมควร

รูป 6.7.1 แต่เมื่อตัดตอนข้อมูล 17 ชุด ในพิสัยแกน x ระหว่าง 3 ถึง 6 มาลงจุด ปรากฎว่า เหมือนกับไม่มีสหสัมพันธ์

 

สรุปข้อควรสังเกตหรือข้อควรระวัง

  • การกำหนดสเกลแกนนอน
    และแกนตั้ง
การกำหนดสเกลไม่เหมาะสม ทำให้การสังเกตและสรุปผลผิดพลาด
  • การจำแนกข้อมูล
การไม่จำแนก ข้อมูล
ทำให้การสังเกตและสรุปผลผิดพลาด
  • พิสัยของตัวแปร
การเลือกพิสัยแคบเกินไป ทำให้การสังเกตและสรุปผลผิดพลาด
  • สหสัมพันธ์ที่ไม่เป็นจริง
เมื่อ y เปลี่ยนแปรตาม x แล้ว
ค่า x ไม่จำเป็นต้องแปรตาม y ด้วย

ชุดข้อมูล
x
(%)
y
(kg/mm^2)
1
2.0
43
2
2.4
46
3
2.2
45
4
2.3
44
5
2.5
45
6
2.8
48
7
2.2
43
8
2.7
47
9
2.4
44
10
2.3
45
ชุดข้อมูล
x
(%)
y
(kg/mm^2)
11
2.0
42
12
2.2
44
13
2.6
47
14
2.1
44
15
2.5
46
16
2.7
47
17
2.1
42
18
2.6
48
19
2.4
45
20
2.1
43
ชุดข้อมูล
x
(%)
y
(kg/mm^2)
21
2.3
45
22
2.2
43
23
2.3
46
24
2.4
47
25
2.3
44
26
2.4
45
27
2.6
46
28
2.5
42
29
2.6
46
30
2.4
46

 

ผังการกระจาย

การวิเคราะห์ถดถอย