Hur man tar bort outliers i Google Sheets
Google Ark Google Google Docs Hjälte / / June 02, 2023
Publicerad
Ibland kan ditt kalkylblad innehålla ovanligt höga eller låga värden som snedvrider dina resultat. Läs om hur du tar bort extremvärden i Google Kalkylark här.
När du analyserar data får du ett eller två resultat som kan kasta allt ur spel. Datapunkter som är betydligt högre eller betydligt lägre än majoriteten av din data kan förvränga mått som medelsnittet avsevärt. I vissa fall är det bättre att ta bort dessa extremvärden från din data innan du påbörjar din analys.
Om du har några datapunkter som inte riktigt passar kan du lära dig hur du tar bort extremvärden i Google Kalkylark nedan.
Vad är en Outlier?
En extremvärde är en datapunkt som är betydligt större eller mindre än majoriteten av data i uppsättningen.
Om du till exempel mäter tillväxten av fem växter, och resultaten var 5 cm, 7 cm, 6 cm, 7 cm och 25 cm, så skulle det slutliga resultatet bli en extremitet. Majoriteten av resultaten är alla runt samma värde, och slutresultatet är betydligt högre än resten.
Det finns metoder för att avgöra vilka värden som skulle betraktas som extremvärden som baseras på intervallet eller spridningen av dina data.
Varför ta bort outliers?
I vissa fall kan extremvärden i din data skeva resultaten när du analyserar din data.
Till exempel, i fallet ovan, om vi tar medelmedelvärdet av tillväxten för alla fem plantorna, skulle det vara (5+7+6+7+25)/5 eller 10 cm. Fyra av växterna växte mycket mindre än så här, med bara en växt som växte betydligt mer, så medelsnittet är inte riktigt representativt för någon av datapunkterna.
Men om vi tar bort extremvärdet blir medelsnittet (5+7+6+7)/4 eller 6,25. Detta är mycket mer representativt för de återstående värdena och ger en mer exakt reflektion av data.
Viss statistik, som medianen, kommer att vara opåverkad av extremvärden, men i många fall kan extremvärden ha en betydande inverkan.
Hur man hittar en extremist
Det finns flera sätt att bestämma extremvärden, baserat på intervallet eller spridningen av data. En av de enklaste är att använda kvartilavståndet.
En kvartil är helt enkelt en datapunkt som hittas genom att dela upp din data i fyra lika delar. Den nedre kvartilen är siffran en fjärdedel av din data när den listas i ordning från lägsta till högsta. Den övre kvartilen är värdet tre fjärdedelar av din data.
Interkvartilintervallet är skillnaden mellan dessa två värden. Eftersom det är skillnaden mellan den nedre kvartilen och den övre kvartilen, kommer exakt hälften av dina värden att ligga inom detta interkvartilintervall.
Du kan bestämma den övre gränsen för extremvärden genom att multiplicera interkvartilintervallet med 1,5 och addera resultatet till värdet på den övre kvartilen. Alla värden över detta nummer är en extremvärde. På samma sätt kan du hitta den nedre gränsen för extremvärden genom att multiplicera det interkvartila området med 1,5 och subtrahera detta från värdet på den nedre kvartilen. Alla tal under detta värde kommer att vara en extremvärde.
Hur man hittar en outlier i Google Sheets
Om allt ovanstående låter som lite för mycket matematik för din smak, var aldrig rädd. Google Kalkylark gör allt det hårda arbetet åt dig. Det hjälper dig att beräkna den övre kvartilen, den nedre kvartilen och interkvartilintervallet för dina data, och du kan sedan skapa en formel för att avgöra om varje värde är ett extremvärde eller inte.
Så här hittar du en outlier i Google Kalkylark:
- Välj en cell där du vill beräkna den nedre kvartilen.
- Skriv följande:
=KVARTIL(
- Välj alla dina data.
- Skriv ett kommatecken och sedan ett 1, följt av en parentes.
- Tryck Stiga på och den nedre kvartilen beräknas.
- Välj nästa cell ner och ange följande:
=KVARTIL(
- Välj alla dina data.
- Skriv ett kommatecken, sedan en 3, följt av en parentes.
- Tryck Stiga på och den övre kvartilen beräknas.
- Välj nästa rad ner och skriv = välj sedan cellen som innehåller den övre kvartilen.
- Skriv ett minus (-) och välj cellen som innehåller den nedre kvartilen.
- Tryck Stiga på och interkvartilintervallet beräknas.
- Välj cellen bredvid den översta cellen i dina data och ange följande formel, ersätt C3 med platsen för din översta datacell, $C$18 med cellen som innehåller nedre kvartilen (se till att du sätter ett $-tecken före bokstaven och siffran), $C$19 med cellen som innehåller din övre kvartil och $C$20 med cellen som innehåller din interkvartil räckvidd:
=OM(C3$C$19+1,5*$C$20,"Outlier",""))
- Om din första datapunkt är en extremvärde kommer din formel att returnera textens extremvärde. Annars blir det tomt.
- För att tillämpa formeln på de andra cellerna i dina data, klicka och håll ned draghandtaget i cellens nedre hörn.
- Dra ner över cellerna där du vill använda formeln.
- Släpp taget, och din formel kommer att kopieras och beräknas. Du kan nu tydligt se alla värden som är extremvärden.
Hur man tar bort en outlier i Google Sheets
Du vet nu hur man hittar extremvärden, men vad sägs om att ta bort dem?
Vi kan göra det med en enkel OM formel som tar bort data från alla celler som är listade som extremvärden, men returnerar det ursprungliga värdet för alla som inte är det.
Så här tar du bort extremvärden i Google Kalkylark:
- Följ stegen i avsnittet ovan för att avgöra vilka värden som är extremvärden.
- Välj cellen två kolumner längs från din översta datapunkt.
- Ange följande formel och ersätt C3 med positionen för din översta cell och D3 med positionen för cellen till höger:
=OM(D3="Outlier","",C3)
- Tryck Stiga på. Om den översta cellen är en extremvärde kommer formeln att returnera ett tomrum. Annars kommer det att returnera värdet på din översta cell.
- För att tillämpa formeln på resten av dina celler, klicka och håll ned draghandtaget i cellens nedre hörn.
- Dra ner över cellerna där du vill använda formeln.
- När du släpper musen kommer formeln att kopieras och Google Sheets beräknar slutresultatet. Alla värden som anges som extremvärden kommer att tas bort.
Manipulera data i Google Sheets
Att lära sig hur man tar bort extremvärden i Google Kalkylark säkerställer att din data inte snedvrids av värden som ligger betydligt utanför intervallet för majoriteten av din data. I vissa fall kan detta ha stor inverkan på statistiken som du använder för att analysera din data.
Att veta hur man tar bort dessa värden ger dig möjlighet att bli av med dem om du vill, eller inkludera dem om du vill analysera hela datamängden. Du kan till och med prova båda och jämföra resultaten.
Google Sheets är utmärkt för statistisk analys, men det kan göra mycket, mycket mer. Du kan samarbeta med andra användare när du skapar ett Google Sheets-dokument och till och med kommentera och reagera på sitt arbete. Du kan infoga Google Kalkylark-tabeller i dina Google Dokument, och du kan till och med skapa QR-koder i Google Sheets.