Ένα outlier είναι μια τιμή που είναι σημαντικά υψηλότερη ή χαμηλότερη από τις περισσότερες τιμές στα δεδομένα σας. Κατά τη χρήση του Excel για την ανάλυση δεδομένων, οι ακραίες τιμές μπορούν να παρακάμπτουν τα αποτελέσματα. Για παράδειγμα, ο μέσος όρος ενός συνόλου δεδομένων μπορεί να αντικατοπτρίζει πραγματικά τις τιμές σας. Το Excel παρέχει μερικές χρήσιμες λειτουργίες για τη διαχείριση των ακραίων συντελεστών σας, οπότε ας ρίξουμε μια ματιά.

Ένα γρήγορο παράδειγμα

Στην παρακάτω εικόνα, τα ακραία σημεία είναι αρκετά εύκολο να εντοπιστούν - η τιμή των δύο αντιστοιχίζεται στον Eric και η τιμή των 173 που αντιστοιχούν στον Ryan. Σε ένα σύνολο δεδομένων όπως αυτό, είναι αρκετά εύκολο να εντοπίσετε και να χειριστείτε αυτά τα outliers χειροκίνητα.

Εύρος τιμών που περιέχουν ακραίες τιμές

Σε ένα μεγαλύτερο σύνολο δεδομένων, αυτό δεν ισχύει. Η δυνατότητα αναγνώρισης των ακραίων τιμών και η κατάργησή τους από στατιστικούς υπολογισμούς είναι σημαντική - και αυτό θα εξετάσουμε πώς να κάνουμε σε αυτό το άρθρο.

Πώς να βρείτε Outliers στα δεδομένα σας

Για να βρούμε τα ακραία σημεία σε ένα σύνολο δεδομένων, ακολουθούμε τα ακόλουθα βήματα:

  1. Υπολογίστε το 1ο και το 3ο τεταρτημόριο (θα μιλήσουμε για το τι είναι λίγο). Αξιολογήστε το εύρος μεταξύ των τεταρτημορίων (θα τα εξηγήσουμε επίσης λίγο πιο κάτω). Επιστρέψτε τα άνω και κάτω όρια του εύρους δεδομένων μας. Χρησιμοποιήστε αυτά τα όρια για να προσδιορίσετε τα απομακρυσμένα σημεία δεδομένων.

Η περιοχή κελιών στα δεξιά του συνόλου δεδομένων που φαίνεται στην παρακάτω εικόνα θα χρησιμοποιηθεί για την αποθήκευση αυτών των τιμών.

Εύρος για τεταρτημόρια

Ας αρχίσουμε.

Βήμα πρώτο: Υπολογίστε τα τεταρτημόρια

Εάν διαιρέσετε τα δεδομένα σας σε τέταρτα, καθένα από αυτά τα σύνολα ονομάζεται τεταρτημόριο. Το χαμηλότερο 25% των αριθμών στην περιοχή αποτελεί το 1ο τεταρτημόριο, το επόμενο 25% το 2ο τεταρτημόριο και ούτω καθεξής. Κάνουμε αυτό το βήμα πρώτα, επειδή ο ευρύτερα χρησιμοποιούμενος ορισμός του outlier είναι ένα σημείο δεδομένων που υπερβαίνει τα 1,5 εύρη διακάρτων (IQRs) κάτω από το 1ο τεταρτημόριο και 1,5 ενδοκοιλιακά εύρη πάνω από το 3ο τεταρτημόριο. Για να προσδιορίσουμε αυτές τις τιμές, πρέπει πρώτα να καταλάβουμε τι είναι τα τεταρτημόρια.

Το Excel παρέχει μια συνάρτηση QUARTILE για τον υπολογισμό των τεταρτημορίων. Απαιτεί δύο πληροφορίες: τον πίνακα και το τέταρτο.

= QUARTILE (πίνακας, τετράγωνο)

Ο πίνακας είναι το εύρος τιμών που αξιολογείτε. Και το τέταρτο είναι ένας αριθμός που αντιπροσωπεύει το τεταρτημόριο που θέλετε να επιστρέψετε (π.χ. 1 για το 1ο τεταρτημόριο, 2 για το 2ο τεταρτημόριο και ούτω καθεξής).

Σημείωση: Στο Excel 2010, η Microsoft κυκλοφόρησε τις συναρτήσεις QUARTILE.INC και QUARTILE.EXC ως βελτιώσεις στη συνάρτηση QUARTILE. Το QUARTILE είναι πιο συμβατό προς τα πίσω όταν εργάζεστε σε πολλές εκδόσεις του Excel.

Ας επιστρέψουμε στον πίνακα παραδειγμάτων μας.

Εύρος για τεταρτημόρια

Για να υπολογίσουμε το 1ο τεταρτημόριο μπορούμε να χρησιμοποιήσουμε τον ακόλουθο τύπο στο κελί F2.

= ΠΟΣΟΤΗΤΑ (B2: B14,1)

Καθώς εισάγετε τον τύπο, το Excel παρέχει μια λίστα επιλογών για το όρισμα quart.

Για να υπολογίσουμε το 3ο τεταρτημόριο, μπορούμε να εισαγάγουμε έναν τύπο όπως το προηγούμενο στο κελί F3, αλλά χρησιμοποιώντας ένα τρί αντί για ένα.

= ΠΟΣΟΤΗΤΑ (B2: B14,3)

Τώρα, έχουμε τα σημεία δεδομένων τεταρτημόρια που εμφανίζονται στα κελιά.

Τιμές 1ου και 3ου τεταρτημορίου

Βήμα δεύτερο: Αξιολογήστε το Interquartile Range

Το εύρος μεταξύ τεταρτημορίων (ή IQR) είναι το μέσο 50% των τιμών στα δεδομένα σας. Υπολογίζεται ως η διαφορά μεταξύ της τιμής του 1ου τεταρτημορίου και της τιμής του 3ου τεταρτημορίου.

Θα χρησιμοποιήσουμε έναν απλό τύπο στο κελί F4 που αφαιρεί το 1ο τεταρτημόριο από το 3ο τεταρτημόριο:

= F3-F2

Τώρα, μπορούμε να δούμε το εύρος μεταξύ των τεταρτημορίων μας.

Τιμή Interquartile

Βήμα τρίτο: Επιστρέψτε τα κάτω και τα ανώτερα όρια

Το κάτω και το ανώτερο όριο είναι οι μικρότερες και μεγαλύτερες τιμές του εύρους δεδομένων που θέλουμε να χρησιμοποιήσουμε. Οποιεσδήποτε τιμές μικρότερες ή μεγαλύτερες από αυτές τις δεσμευμένες τιμές είναι οι ακραίες τιμές.

Θα υπολογίσουμε το κατώτερο όριο στο κελί F5 πολλαπλασιάζοντας την τιμή IQR επί 1,5 και στη συνέχεια αφαιρώντας την από το σημείο δεδομένων Q1:

= F2- (1,5 * F4)
Τύπος Excel για χαμηλότερη τιμή ορίου

Σημείωση: Οι αγκύλες σε αυτόν τον τύπο δεν είναι απαραίτητες επειδή το μέρος πολλαπλασιασμού θα υπολογίσει πριν από το τμήμα αφαίρεσης, αλλά κάνουν τον τύπο ευκολότερο να διαβαστεί.

Για να υπολογίσουμε το άνω όριο στο κελί F6, θα πολλαπλασιάσουμε το IQR με 1,5 ξανά, αλλά αυτή τη φορά θα το προσθέσουμε στο σημείο δεδομένων Q3:

= F3 + (1,5 * F4)
Χαμηλότερες και ανώτερες τιμές

Βήμα τέταρτο: Προσδιορίστε τα Outliers

Τώρα που έχουμε ρυθμίσει όλα τα υποκείμενα δεδομένα μας, ήρθε η ώρα να προσδιορίσουμε τα απομακρυσμένα σημεία δεδομένων μας - αυτά που είναι χαμηλότερα από την κατώτερη οριακή τιμή ή υψηλότερα από την ανώτερη οριακή τιμή.

Θα χρησιμοποιήσουμε τη συνάρτηση OR για να εκτελέσουμε αυτόν τον λογικό έλεγχο και θα δείξουμε τις τιμές που πληρούν αυτά τα κριτήρια εισάγοντας τον ακόλουθο τύπο στο κελί C2:

= Ή (B2 <$ F $ 5, B2> $ F $ 6)
Ή λειτουργία για τον εντοπισμό ακραίων τιμών

Στη συνέχεια, θα αντιγράψουμε αυτήν την τιμή στα κελιά C3-C14 μας. Μια ΑΛΗΘΗ τιμή υποδηλώνει μια ακραία τιμή, και όπως μπορείτε να δείτε, έχουμε δύο στα δεδομένα μας.

Παράβλεψη των Outliers κατά τον υπολογισμό του μέσου μέσου όρου

Χρησιμοποιώντας τη συνάρτηση QUARTILE, ας υπολογίσουμε το IQR και εργαζόμαστε με τον ευρύτερα χρησιμοποιούμενο ορισμό του outlier. Ωστόσο, κατά τον υπολογισμό του μέσου μέσου όρου για ένα εύρος τιμών και την παράβλεψη ακραίων τιμών, υπάρχει μια ταχύτερη και ευκολότερη λειτουργία στη χρήση. Αυτή η τεχνική δεν θα εντοπίσει έναν ακροδέκτη όπως προηγουμένως, αλλά θα μας επιτρέψει να είμαστε ευέλικτοι με αυτό που θα μπορούσαμε να θεωρήσουμε το ακραίο τμήμα μας.

Η συνάρτηση που χρειαζόμαστε ονομάζεται TRIMMEAN και μπορείτε να δείτε τη σύνταξη για αυτήν παρακάτω:

= TRIMMEAN (πίνακας, ποσοστό)

Ο πίνακας είναι το εύρος τιμών που θέλετε να υπολογίσετε κατά μέσο όρο. Το ποσοστό είναι το ποσοστό των σημείων δεδομένων προς εξαίρεση από το επάνω και το κάτω μέρος του συνόλου δεδομένων (μπορείτε να το εισαγάγετε ως ποσοστό ή δεκαδική τιμή).

Εισαγάγαμε τον παρακάτω τύπο στο κελί D3 στο παράδειγμά μας για να υπολογίσουμε τον μέσο όρο και να αποκλείσουμε το 20% των ακραίων τιμών.

= TRIMMEAN (B2: B14, 20%)
TRIMMEAN τύπος για μέσο όρο εξαιρουμένων των outliers

Εκεί έχετε δύο διαφορετικές λειτουργίες για τον χειρισμό των ακραίων τιμών. Είτε θέλετε να τα προσδιορίσετε για ορισμένες ανάγκες αναφοράς είτε να τα εξαιρέσετε από υπολογισμούς όπως οι μέσες τιμές, το Excel έχει μια λειτουργία που ταιριάζει στις ανάγκες σας.