ในสถิติ ค่าผิดปกติหรือ "ค่าผิดปกติ" คือ Datum ที่เบี่ยงเบนไปจาก Datum อื่นภายในตัวอย่างหรือชุดของ Datum มาก (ชุดของ Datum เรียกว่า data) บ่อยครั้ง ค่าผิดปกติในชุด Datum สามารถทำหน้าที่เป็นคำเตือนแก่นักสถิติเกี่ยวกับความผิดปกติหรือข้อผิดพลาดจากการทดลองในการวัดที่ดำเนินการ ซึ่งอาจทำให้นักสถิตินำค่าผิดปกติออกจากชุด Datum หากนักสถิติลบค่าผิดปกติออกจากชุดข้อมูล ข้อสรุปที่ได้จากการศึกษาจะแตกต่างกันมาก ดังนั้น การรู้วิธีคำนวณและวิเคราะห์ค่าผิดปกติจึงสำคัญมากเพื่อให้แน่ใจว่ามีความเข้าใจที่ถูกต้องของชุดข้อมูลสถิติ
ขั้นตอน
ขั้นตอนที่ 1 เรียนรู้วิธีระบุ Datum ที่อาจผิดปกติ
ก่อนที่เราจะตัดสินใจว่าจะลบ Datum นอกเหนือออกจากชุด Datum หรือไม่ แน่นอนว่าเราต้องระบุ Datum ที่อาจจะกลายเป็น Outliers โดยทั่วไป ค่าผิดปกติคือ Datum ที่เบี่ยงเบนไกลจาก Datum อื่นในชุด Datum ชุดหนึ่ง กล่าวอีกนัยหนึ่ง Outlier คือ "ภายนอก" ของ Datum อื่น การตรวจหาค่าผิดปกติในตารางข้อมูลหรือ (โดยเฉพาะ) กราฟมักเป็นเรื่องง่าย หากมีการอธิบายชุดของ Datum ชุดหนึ่งด้วยกราฟ Datum ภายนอกจะดูเหมือน "อยู่ไกลมาก" จาก Datum อื่น ตัวอย่างเช่น หาก Datum ส่วนใหญ่ในชุด Datum เป็นเส้นตรง Datum ภายนอกจะไม่ถูกตีความอย่างสมเหตุสมผลว่ากำลังสร้างเส้นนั้น
มาดูชุดของ Datum ที่แสดงถึงอุณหภูมิของวัตถุ 12 ชิ้นที่แตกต่างกันในห้องกัน ถ้าวัตถุ 11 ชิ้นมีอุณหภูมิประมาณ 70 องศาฟาเรนไฮต์ (21 องศาเซลเซียส) แต่วัตถุที่ 12 เตาอบมีอุณหภูมิ 300 องศาฟาเรนไฮต์ (150 องศาเซลเซียส) จะเห็นได้ทันทีว่าอุณหภูมิของเตาอบมีแนวโน้มสูงที่จะเป็น ค่าผิดปกติ
ขั้นตอนที่ 2 จัดเรียง Datum ในชุด Datum จากต่ำสุดไปสูงสุด
ขั้นตอนแรกในการคำนวณค่าผิดปกติในชุด Datum คือการหาค่ามัธยฐาน (ค่ากลาง) ของชุด Datum งานนี้กลายเป็นเรื่องง่ายมากหากจุดอ้างในชุดของ Datum จัดเรียงจากที่เล็กที่สุดไปหาใหญ่ที่สุด ดังนั้น ก่อนดำเนินการต่อ ให้จัดเรียง Datum ในชุด Datum ชุดหนึ่ง
มาต่อกันที่ตัวอย่างข้างต้น นี่คือชุดของ Datum ที่แสดงอุณหภูมิของวัตถุหลายอย่างในห้องหนึ่ง: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69} หากเราจัดเรียง Datum จากต่ำสุดไปสูงสุด ลำดับของ Datum จะกลายเป็น: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}
ขั้นตอนที่ 3 คำนวณค่ามัธยฐานของชุดข้อมูล
ค่ามัธยฐานของชุด Datum คือ Datum โดยที่อีกครึ่งหนึ่งของ Datum อยู่เหนือ Datum นั้นและอีกครึ่งหนึ่งที่เหลืออยู่ต่ำกว่า Datum โดยพื้นฐานแล้ว Datum นั้นเป็น Datum ที่อยู่ใน "ตรงกลาง" ของ Datum หากจำนวนของ Datum ในชุด Datum เป็นเลขคี่ จะหาได้ง่ายมาก-ค่ามัธยฐานคือ Datum ที่มีจำนวนเท่ากันทั้งด้านบนและด้านล่าง อย่างไรก็ตาม หากจำนวนของ Datum ในชุดของ Datum เป็นเลขคู่ เนื่องจากไม่มี Datum ใดที่พอดีตรงกลาง Datum 2 ตัวที่อยู่ตรงกลางจะถูกหาค่าเฉลี่ยเพื่อหาค่ามัธยฐาน ควรสังเกตว่าเมื่อคำนวณค่าผิดปกติ ค่ามัธยฐานมักจะถูกกำหนดให้กับตัวแปร Q2-ni เพราะ Q2 อยู่ระหว่าง Q1 และ Q3 ซึ่งเป็นควอไทล์ล่างและบน ซึ่งเราจะพูดถึงในภายหลัง
- เพื่อไม่ให้สับสนกับชุด Datum ที่จำนวน Datum เป็นเลขคู่ ค่าเฉลี่ยของ Datum 2 ตัวกลางมักจะส่งคืนตัวเลขที่ไม่ได้อยู่ในชุด Datum เอง ซึ่งก็ไม่เป็นไร อย่างไรก็ตาม หาก 2 ดาตัมกลางเป็นตัวเลขเดียวกัน ค่าเฉลี่ยก็จะเป็นตัวเลขเดียวกันด้วย ซึ่งก็ดีเช่นกัน
- ในตัวอย่างข้างต้น เรามี 12 datum จุดอ้างกลาง 2 จุดคือจุดอ้างที่ 6 และ 7-70 และ 71 ตามลำดับ ดังนั้น ค่ามัธยฐานของชุดจุดอ้างจึงเป็นค่าเฉลี่ยของตัวเลข 2 ตัวนี้: ((70 + 71) / 2), = 70.5.
ขั้นตอนที่ 4 คำนวณควอร์ไทล์ล่าง
ค่านี้ที่เรากำหนดให้กับตัวแปร Q1 คือ Datum ที่แทน 25% (หรือหนึ่งในสี่) ของ Datum กล่าวคือ มันคือ Datum ที่แบ่ง Datum ที่ต่ำกว่าค่ามัธยฐาน หากจำนวน Datum ที่ต่ำกว่าค่ามัธยฐานเป็นเลขคู่ คุณต้องเฉลี่ย 2 Datum ที่อยู่ตรงกลางอีกครั้งเพื่อหา Q1 เช่นเดียวกับที่คุณจะหาค่ามัธยฐานเอง
ในตัวอย่างของเรา มี Datum 6 ตัวที่อยู่เหนือค่ามัธยฐาน และ 6 Datum ที่อยู่ใต้ค่ามัธยฐาน ซึ่งหมายความว่า ในการหาควอไทล์ที่ต่ำกว่า เราจะต้องหาค่าเฉลี่ย 2 Datum ที่อยู่ตรงกลางของ 6 Datum ที่ต่ำกว่าค่ามัธยฐาน Datum ที่ 3 และ 4 ของ Datum 6 ตัวที่ต่ำกว่าค่ามัธยฐานคือ 70 ทั้งคู่ ดังนั้นค่าเฉลี่ยคือ ((70 + 70) / 2) = 70. 70 กลายเป็น Q1 ของเรา
ขั้นตอนที่ 5. คำนวณควอไทล์บน
ค่านี้ที่เรากำหนดให้กับตัวแปร Q3 คือ Datum ซึ่งมี Datum อยู่ที่ 25 เปอร์เซ็นต์ในชุด Datum การหา Q3 ค่อนข้างจะเหมือนกับการหา Q1 ยกเว้นว่า ในกรณีนี้ เรากำลังดูที่จุดอ้างที่อยู่เหนือค่ามัธยฐาน ไม่ใช่ต่ำกว่าค่ามัธยฐาน
ต่อจากตัวอย่างของเราด้านบน 2 datum ที่อยู่ตรงกลางของ 6 datum เหนือค่ามัธยฐานคือ 71 และ 72 ค่าเฉลี่ยของ 2 datum นี้คือ ((71 + 72)/2), = 71, 5. 71, 5 คือ Q3 ของเรา
ขั้นตอนที่ 6 ค้นหาระยะทางระหว่างควอไทล์
ตอนนี้เราพบ Q1 และ Q3 แล้ว เราจำเป็นต้องคำนวณระยะห่างระหว่างตัวแปรสองตัวนี้ ระยะทางจาก Q1 ถึง Q3 หาได้โดยการลบ Q1 ออกจาก Q3 ค่าที่คุณได้รับสำหรับระยะทางระหว่างควอร์ไทล์มีความสำคัญมากสำหรับการกำหนดขอบเขตของจุดอ้างที่ไม่ใช่ส่วนนอกในชุด Datum ของคุณ
- ในตัวอย่างของเรา ค่าของ Q1 และ Q3 คือ 70 และ 71, 5. ในการหาระยะห่างระหว่างควอร์ไทล์ เราลบ Q3 - Q1 = 71.5 - 70 = 1, 5.
- ควรสังเกตว่าสิ่งนี้เป็นจริงแม้ว่า Q1, Q3 หรือทั้งสองอย่างจะเป็นตัวเลขติดลบ ตัวอย่างเช่น หากค่า Q1 ของเราคือ -70 ระยะห่างระหว่างควอร์ไทล์ที่ถูกต้องคือ 71.5 - (-70) = 141, 5
ขั้นที่ 7. ค้นหา “inner fence” ในชุด Datum
ค่าผิดปกติจะพบโดยการตรวจสอบว่าจุดอ้างอยู่ในขอบเขตจำนวนที่เรียกว่า "รั้วชั้นใน" และ "รั้วด้านนอก" หรือไม่ Datum ที่อยู่นอกรั้วด้านในของ Datum Set จะเรียกว่า "Minor Outlier" ในขณะที่ Datum ที่อยู่นอกรั้วด้านนอกเรียกว่า "Major Outlier" ในการหารั้วด้านในในชุด Datum ของคุณ ก่อนอื่นให้คูณระยะห่างระหว่างควอร์ไทล์ด้วย 1, 5 จากนั้นให้บวกผลลัพธ์ด้วย Q3 และลบออกจาก Q1 ด้วย ค่าสองค่าที่คุณได้รับคือขอบเขตรั้วด้านในของชุดข้อมูลอ้างอิงของคุณ
-
ในตัวอย่างของเรา ระยะทางระหว่างควอไทล์คือ (71.5 - 70) หรือ 1.5 คูณ 1.5 ด้วย 1.5 ซึ่งได้ผลลัพธ์เป็น 2.25 เราบวกตัวเลขนี้เข้ากับ Q3 และลบ Q1 ด้วยตัวเลขนี้เพื่อค้นหาขอบเขตของรั้วชั้นในดังนี้:
- 71, 5 + 2, 25 = 73, 75
- 70 - 2, 25 = 67, 75
- ดังนั้น ขอบเขตของรั้วภายในของเราคือ 67, 75 และ 73, 75.
-
ในชุด Datum ของเรา มีเพียงอุณหภูมิเตาอบ 300 องศาฟาเรนไฮต์ เท่านั้นที่อยู่นอกขอบเขตเหล่านี้ ดังนั้น Datum จึงเป็นค่าผิดปกติเล็กน้อย อย่างไรก็ตาม เรายังไม่ได้คำนวณว่าอุณหภูมินี้เป็นค่าผิดปกติที่สำคัญหรือไม่ ดังนั้นอย่าข้ามไปที่ข้อสรุปจนกว่าเราจะคำนวณเสร็จแล้ว
ขั้นตอนที่ 8. ค้นหา “รั้วด้านนอก” ในชุดข้อมูล
วิธีนี้ทำได้ในลักษณะเดียวกับการหารั้วชั้นใน ยกเว้นระยะห่างระหว่างควอไทล์คูณด้วย 3 แทนที่จะเป็น 1.5 จากนั้นผลลัพธ์จะถูกบวกเข้ากับ Q3 และลบออกจาก Q1 เพื่อค้นหาขอบเขตบนและล่างของรั้วด้านนอก
-
ในตัวอย่างของเรา การคูณระยะทางระหว่างควอไทล์ด้วย 3 ให้ (1, 5 x 3) หรือ 4, 5 เราพบขอบเขตของรั้วด้านนอกในลักษณะเดียวกับเมื่อก่อน:
- 71, 5 + 4, 5 = 76
- 70 - 4, 5 = 65, 5
- ขอบเขตของรั้วด้านนอกคือ 65.5 และ 76.
-
จุดอ้างที่อยู่นอกขอบเขตของรั้วด้านนอกเรียกว่าค่าผิดปกติหลัก ในตัวอย่างนี้ อุณหภูมิเตาอบ 300 องศาฟาเรนไฮต์ อยู่นอกรั้วชั้นนอกอย่างชัดเจน ดังนั้นจุดอ้างอิงนี้จึง "แน่นอน" เป็นค่าผิดปกติหลัก
ขั้นตอนที่ 9 ใช้วิจารณญาณเชิงคุณภาพเพื่อพิจารณาว่าจะ "ละทิ้ง" ข้อมูลนอกรีตหรือไม่
เมื่อใช้วิธีการที่อธิบายข้างต้น จะสามารถระบุได้ว่า Datum เป็น Datum รอง Datum หลัก หรือไม่ใช่ Outlier เลย อย่างไรก็ตาม อย่าพลาดเพราะการค้นหา Datum เป็นเพียงการทำเครื่องหมายว่า Datum นั้นเป็น "ผู้สมัคร" ที่จะลบออกจากชุด Datum ไม่ใช่เป็น Datum ที่ "ควร" ทิ้งไป "เหตุผล" ที่ทำให้ Datum ผิดปกติเบี่ยงเบนไปจาก Datum อื่นในชุด Datum มีความสำคัญมากในการพิจารณาว่าจะทิ้งหรือไม่ โดยทั่วไป ค่าผิดปกติที่เกิดจากข้อผิดพลาดในการวัด การบันทึก หรือการวางแผนการทดลองสามารถละทิ้งได้ ตัวอย่างเช่น ในทางกลับกัน ค่าผิดปกติที่ไม่ได้เกิดจากข้อผิดพลาดและซึ่งระบุข้อมูลใหม่หรือแนวโน้มที่ไม่ได้คาดการณ์ไว้ก่อนหน้านี้มักจะ "ไม่" ละเลย
- เกณฑ์ที่ต้องพิจารณาอีกประการหนึ่งคือ ค่าผิดปกติมีผลอย่างมากต่อค่าเฉลี่ยของเซตของ Datum หรือไม่ นั่นคือ ไม่ว่าค่าผิดปกติจะทำให้เกิดความสับสนหรือทำให้ปรากฏว่าไม่ถูกต้อง นี่เป็นสิ่งสำคัญมากที่จะต้องพิจารณาหากคุณตั้งใจที่จะสรุปผลจากค่าเฉลี่ยของชุดข้อมูลของคุณ
-
ลองศึกษาตัวอย่างของเรา ในตัวอย่างนี้ เนื่องจากดูเหมือนว่า "เป็นไปได้สูง" ที่ไม่น่าจะเป็นไปได้ที่เตาอบจะมีอุณหภูมิถึง 300 องศาฟาเรนไฮต์ผ่านแรงธรรมชาติที่คาดเดาไม่ได้ เราจึงสรุปได้เกือบแน่นอนว่าเปิดเตาอบทิ้งไว้โดยไม่ได้ตั้งใจ ส่งผลให้เกิดความผิดปกติของจุดอ้างอิงของอุณหภูมิสูง นอกจากนี้ หากเราไม่ลบค่าผิดปกติ ค่าเฉลี่ยชุดฐานของเราคือ (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300)/12 = 89.67 ฟาเรนไฮต์ (32 องศาเซลเซียส)) ในขณะที่ค่าเฉลี่ยถ้าเราลบค่าผิดปกติออกคือ (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73)/11 = 70.55 ฟาเรนไฮต์ (21 องศาเซลเซียส)
เนื่องจากค่าผิดปกติเหล่านี้เกิดจากความผิดพลาดของมนุษย์ และเนื่องจากจะไม่ถูกต้องถ้าจะบอกว่าอุณหภูมิห้องโดยเฉลี่ยสูงถึงเกือบ 90 องศาฟาเรนไฮต์ (32 องศาเซลเซียส) เราจึงควรเลือกที่จะ "ทิ้ง" ค่าผิดปกติของเราทิ้งไป
ขั้นตอนที่ 10. รู้ถึงความสำคัญ (บางครั้ง) ของการรักษาค่าผิดปกติ
แม้ว่าค่าผิดปกติบางอย่างควรถูกลบออกจากชุด Datum เนื่องจากทำให้เกิดข้อผิดพลาดและ/หรือทำให้ผลลัพธ์ไม่ถูกต้องหรือผิดพลาด ควรรักษาค่าผิดปกติบางอย่างไว้ ตัวอย่างเช่น หากค่าผิดปกติที่ดูเหมือนว่าจะได้มาโดยธรรมชาติ (ซึ่งไม่ใช่ผลลัพธ์ของข้อผิดพลาด) และ/หรือให้มุมมองใหม่เกี่ยวกับปรากฏการณ์ที่กำลังศึกษาอยู่ ค่าผิดปกติไม่ควรถูกลบออกจากเซตของ Datum การวิจัยทางวิทยาศาสตร์มักเป็นสถานการณ์ที่ละเอียดอ่อนมากเมื่อพูดถึงค่าผิดปกติ การลบค่าผิดปกติออกอย่างไม่ถูกต้องอาจหมายถึงการละทิ้งข้อมูลที่บ่งบอกถึงแนวโน้มหรือการค้นพบใหม่