Wie man mit Statistiken lügt

Jeder, der ein Auge fürs Detail hat, weiß, dass Statistiken sehr rutschig sein können, ohne etwas Hintergrundwissen zu haben, um sie zu interpretieren. Lesen Sie die folgenden Schritte, um zu lernen, wie Sie komplizierte und irreführende Statistiken erfassen und dieses Wissen zu Ihrem Vorteil nutzen können.

Die Terminologie verstehen.


Die Terminologie verstehen.

Das Wort „Durchschnitt“ wird bei der Erörterung statistischer Daten sehr oft herumgeworfen. Auf den ersten Blick klingt der Begriff recht einfach: Der Durchschnitt ist der Betrag, der ungefähr in der Mitte liegt. Es gibt jedoch tatsächlich nur wenige verschiedene Arten von Durchschnittswerten, die alle irreführend sein können, wenn sie nicht richtig verstanden werden.

Der Mittelwert wird erreicht, indem alle Zahlen in einem Datensatz addiert und durch die Anzahl der Einträge in dem Datensatz dividiert werden. Mit anderen Worten, wenn Sie die Zahlen 3, 3, 5, 4 und 7 haben, können Sie den Durchschnittsmittelwert erreichen, indem Sie sie addieren (um 22 zu erhalten) und dann die Summe durch 5 dividieren (da 5 Zahlen im Zahlenwert enthalten) einstellen).

In diesem Beispiel liegt der durchschnittliche Durchschnitt bei 4,4.



Der mittlere Durchschnitt ist die Zahl in einem Datensatz, die in der Mitte zwischen der niedrigeren und der höheren Zahl liegt. Unter Verwendung der gleichen Daten wie zuvor (3, 3, 5, 4 und 7) beträgt der Medianmittelwert 4, da 2 der Zahlen kleiner und 2 größer sind.
Der Modusmittelwert ist eine Darstellung der häufigsten Zahl im Datensatz. In unserem Beispielsatz beträgt der Modusmittelwert 3, da er zweimal erscheint.

Liegen mit mittleren Durchschnitten.

Liegen mit mittleren Durchschnitten.

Der Mittelwert scheint die narrensicherste aller oben beschriebenen Methoden zu sein, aber das ist tatsächlich nicht der Fall. Dies liegt daran, dass ungewöhnlich hohe oder niedrige Zahlen im Datensatz den Durchschnitt erheblich schwanken können. Um bei einem Durchschnittsmittelwert zu liegen, erheben Sie Daten und verwenden Sie diese in Ihrer Gleichung.

Stellen Sie sich zum Beispiel vor, Sie befragen 50 Haushalte in einer Nachbarschaft nach ihrem Einkommen. Die meisten Haushalte verdienen zwischen 40.000 und 60.000 USD pro Jahr, aber ein Haushalt verdient 5 Millionen USD pro Jahr. Wenn Sie den Durchschnittsdurchschnitt berechnen, ist die Zahl deutlich höher als das „echte“ Durchschnittseinkommen in diesem Bereich, da die Zahl von 5 Millionen US-Dollar so viel größer ist als die anderen.
Wenn Sie Daten hätten, aus denen hervorgeht, dass 9 Personen jeweils 1.000 Dollar auf ihren Bankkonten hatten, eine zehnte Person jedoch nur 1 Dollar, würde der mittlere Durchschnitt 900,10 Dollar betragen – fast 10% weniger als der übliche Betrag.
Bei seriösen Umfragen werden oft die höchsten und niedrigsten Werte ausgegeben, bevor der Durchschnittsdurchschnitt berechnet wird. Allerdings ist nicht jede Umfrage, die Sie in den Nachrichten sehen, seriös. Wenn Sie nicht selbst Zugriff auf den gesamten Datensatz haben oder eine schriftliche Bestätigung dafür erhalten, dass die Ausreißer entfernt wurden, können Sie davon ausgehen, dass dies nicht der Fall ist.

Liegen mit mittleren Durchschnitten.



Liegen mit mittleren Durchschnitten.

Der mittlere Durchschnitt ist tatsächlich die schwierigste Zahl, mit der man „liegen“ kann, weil er im Vergleich zu den meisten Datensätzen niemals zu hoch oder zu niedrig sein kann. Es muss notwendigerweise in der Mitte liegen. Sie können jedoch den Mittelwert verwenden, um eine sehr große oder kleine Zahl auszublenden. Wenn Ihre Daten beispielsweise 1, 1, 2, 3, 4, 5, 3000 sind, beträgt der Medianwert 3.

Bei einer geraden Anzahl von Einträgen können Sie den Mittelwert erreichen, indem Sie den Mittelwert der beiden Einträge in der Mitte ermitteln. Dies berücksichtigt noch immer keine Ausreißer.
Hüten Sie sich vor durchschnittlichen Medianwerten, um Änderungen im Zeitverlauf zu beschreiben. Ein Unternehmen, das den Preis seiner Dienstleistungen jedes Jahr um 3% erhöht, könnte sie in diesem Jahr um 20% erhöhen und es verbergen, indem es in den letzten 9 Jahren einen durchschnittlichen Durchschnitt von 3% vorlegt.

Lüge mit Durchschnittswerten.

Lüge mit Durchschnittswerten.

In einigen Dingen ist es fast unmöglich, die Durchschnittswerte für die Modi zu finden. Die durchschnittliche Anzahl der pro Person für ein Ballspiel gekauften Tickets wird beispielsweise fast immer im Modus genau wiedergegeben. Dennoch können auch Modusmittelwerte wichtige Daten ausschließen, insbesondere in kleineren Datensätzen.

Wenn Sie beispielsweise einen Datensatz mit allen Zahlen im Bereich von 1 bis 100 haben, die Zahl 1 jedoch 3-mal enthalten ist, ist 1 der Modusmittelwert des Satzes, auch wenn der Mittelwert (und in diesem Fall sinnvoller) ist. Durchschnitt ist viel näher an 50.
Jede Umfrage, die auf breiter Ebene bewertet wird, kann manipuliert werden, um den Modus hervorzuheben. Wenn Sie 100 Personen auf einer Skala von 1 bis 10 nach ihren Gefühlen zu einem Thema befragen und mehr Personen mit „10“ als mit jeder anderen Zahl bezeichnen, würden auch dann, wenn nur eine weitere Person eine 10 angibt, eine 1 vergeben, 10 ist der Modus Durchschnitt.


Lüge mit Repräsentationszahlen.

Lüge mit Repräsentationszahlen.

Wenn Sie einen Satz von Daten haben, der durch abstrakte und nicht durch konkrete Zahlen definiert ist (z. B. eine Umfrage zur Kundenzufriedenheit), ist es fast erschreckend leicht, an diesem Satz zu liegen. Wenn Sie die Menschen bitten, ihre Zufriedenheit auf einer Skala von 1 bis 3 zu bewerten, ist dies nicht unbedingt ein Beweis dafür, dass Kunden, die sich für 3 entschieden haben, dreimal so glücklich sind wie diejenigen, die 1 wählen. Diese Tatsache wird insbesondere verwendet, um Durchschnittswerte zu verzerren, aber kann auch auf Medianwerte und manchmal auch Durchschnittswerte angewendet werden.

Verwenden Sie ein kleines Set.

Verwenden Sie ein kleines Set.

Jeder gute Statistiker weiß, dass der einzige Weg, sich einem brauchbaren Durchschnitt zu nähern oder einen echten Trend zu erkennen, darin besteht, Daten aus einer möglichst breiten Menge zu sammeln. Wenn Sie Informationen von 100 Personen erhalten können, ist das gut. 10.000 ist noch besser. Je mehr Informationen Sie in Ihren Datensatz einfügen, desto wahrscheinlicher wird es, dass genaue Durchschnittswerte angezeigt werden. Wenn Sie beispielsweise drei oder fünf Daten verwenden, können Sie Ergebnisse erzielen, die den Sachverhalt nicht genau widerspiegeln.

Wenn Sie zum Beispiel zwei Personen finden, die kürzlich durch etwas Dummes – wie etwa ein Kissen – verletzt wurden und sie als Ihren gesamten Datensatz verwenden, können Sie argumentieren, dass Kissen für alle kategorisch gefährlich sind. Unabhängig davon, welchen Durchschnitt Sie anzeigen möchten, solange Sie Ihre Stichprobengröße von nur 2 Personen nicht angeben, ist es nicht eindeutig möglich, Ihre Behauptung zu widerlegen.


Verwenden Sie ein kontrolliertes Set.

Verwenden Sie ein kontrolliertes Set.

Die genauesten Datensätze sind nicht nur groß, sie sind auch breit. Ein Geologe, der die Arten von Mineralien in einer Wüste vermisst, hat eine genauere Liste, wenn er viele Proben aus jedem Teil der Wüste sammelt, anstatt 1.000 Proben an derselben Stelle zu sammeln. Indem Sie den Umfang Ihrer Daten einschränken, können Sie die Ergebnisse erheblich beeinflussen.

Manchmal ist dies nützlich und wird absichtlich durchgeführt. Menschen, die zum Beispiel mit demografischen Daten recherchieren, möchten möglicherweise spezifisch herausfinden, welche Art von Jobs Männer normalerweise ausüben, und werden daher nur Männer befragen. Solange dies in den Daten klar angegeben ist, ist nichts dumm.
Insbesondere Daten aus kleinen College-Forschungsprojekten neigen dazu, missbräuchlich verwendet zu werden, um einen kontrollierten Datensatz mit einem allgemeinen Ergebnis gleichzusetzen. Dies liegt daran, dass viele Forschungsprojekte auf College-Ebene nicht die Zeit oder Ressourcen haben, um eine breite Stichprobe von Durchschnittsbürgern zu verwenden, und sich stattdessen nur auf College-Studenten verlassen. Dies ist auch in Ordnung, solange diese Informationen eindeutig angegeben sind, aber Nachrichtenorganisationen, die sensationelle Schlagzeilen suchen, haben oft die Details einer kleinen College-Studie verdeckt, so dass sie viel pauschal erscheinen.

Verwenden Sie einen unausgewogenen Satz.

Verwenden Sie einen unausgewogenen Satz.

Diese Technik ist besonders schlau, da sie auch mit viel Detail für den Betrachter zur Verfügung stehen kann. Der Trick hier ist, Daten zu verwenden, die nicht fair verglichen werden können, und sie als gleichberechtigt zu behandeln. Wenn Sie beispielsweise eine Stadt mit 100.000 Einwohnern haben, die in 10 Jahren 10.000 Einwohner gewonnen hat, und Sie sie mit einer Stadt mit 10 Einwohnern vergleichen, die in den letzten 10 Jahren um 10 Einwohner gestiegen sind, scheinen die prozentualen Anteile für jeden Gewinn das kleine Die Stadt wuchs viel schneller.

Dies wird manchmal von Personen verwendet, die Marktdaten analysieren, um ein irreführendes Bild der Verkaufszahlen zu vermitteln. Nehmen wir an, Sie verfolgen den Verkauf von Äpfeln und Orangen, aber zur Hälfte der Studie sind keine Orangen mehr da, weil ein Mangel herrscht. Wenn Sie weiterhin Daten für den Rest der Studie vergleichen, wird es einen enormen Anstieg der Apfelverkäufe im Vergleich zu den Orangenverkäufen geben, auch wenn Äpfel wahrscheinlich nicht plötzlich populärer wurden.

Lassen Sie die Y-Achse leer.

Lassen Sie die Y-Achse leer.

Nichts liefert ein klareres Bild von Daten als eine Grafik oder ein Diagramm, aber selbst diese können leicht manipuliert werden, um unterschiedliche Effekte zu erzielen. Dies liegt daran, dass die Benutzer die Formen und Größen in den Diagrammen betrachten, bevor sie sich mit den numerischen Einzelheiten beschäftigen, die mit ihnen verbunden sind. Die einfachste Möglichkeit, die y-Achse zu manipulieren, besteht darin, sie nicht zu beschriften.

Wenn Sie einen Satz von 5 Balken auf der X-Achse haben, aber keinen Hinweis darauf, wie groß sie relativ zueinander sind, können Sie nicht abschätzen, ob tatsächlich ein signifikanter Unterschied besteht.

Verwenden Sie sehr große oder kleine Zahlen auf der y-Achse.

Verwenden Sie sehr große oder kleine Zahlen auf der y-Achse.

Angenommen, Ihr Datensatz liegt zwischen 1 und 50. Um die Unterschiede auszublenden, messen Sie Ihre Y-Achse in Schritten von 100; Um sie zu Unrecht zu akzentuieren, messen Sie die y-Achse in Schritten von 1/10. Ein Unterschied zwischen 3 und 10 sieht groß aus, wenn man ihn in Zehntel misst (es sind 70 Einheiten voneinander entfernt!), Ist aber in einer Grafik, in der 100 der erste Schritt ist, kaum wahrnehmbar (es ist viel weniger als eine Einheit!).

Starten Sie die Y-Achse teilweise durch den Bereich.

Starten Sie die Y-Achse teilweise durch den Bereich.

Wenn Ihre Daten zwischen 11 und 51 liegen, können Sie die niedrigste Zahl noch niedriger und die höchste noch höher erscheinen lassen, indem Sie Ihre y-Achse so beschriften, dass sie bei 10 beginnt. Dadurch wird der Balken, der 11 darstellt, nur etwas höher als die x-Achse. Es erscheint fast nichts, wenn nicht jemand geschickt genug ist, um genau hinzusehen und zu sehen, dass der Graph von 10 statt von 0 gestartet wurde.

Der Balken, der 51 darstellt, wird 50-mal höher als der Balken, der 11 in einem solchen Diagramm darstellt, da der kleinere Balken nur eine Einheit hoch ist. Wenn der Graph bei 0 begonnen hätte, wäre der Balken, der 51 repräsentiert, weniger als das Fünffache der Höhe des Balkens, der 11 darstellt, gewesen.

Verwenden Sie eine falsche Skalierung.

Verwenden Sie eine falsche Skalierung.

Jedes Mal, wenn Sie im Kleingedruckten die Worte „nicht skalieren“ sehen, ist die Wahrscheinlichkeit groß, dass Sie ein Beispiel dafür finden. Es wird nicht immer böswillig gemacht. Manchmal sind die Zahlen so unterschiedlich, dass es keine Möglichkeit gibt, sie auf derselben Seite genau darzustellen. Es kann jedoch leicht für unappetitliche Zwecke verwendet werden.

Zum Beispiel könnte eine visuelle Darstellung der Größe mit einer Höhenskala gezeichnet werden, nicht mit einer Breitenskala. Dadurch wird ein größeres Objekt (z. B. ein Gebäude) auch viel dünner oder breiter als es tatsächlich ist.

Verwenden Sie Grafiken, um Daten auszulassen.

Verwenden Sie Grafiken, um Daten auszulassen.

Dies wird häufig in breit angelegten Umfragen gezeigt, in denen die Ergebnisse nach bestimmten Kategorien unterteilt werden, z. B. in der berühmten Tabelle, die zeigt, welcher Begriff für ein kohlensäurehaltiges Getränk in welchem ​​Landkreis in den Vereinigten Staaten am beliebtesten ist. Auf den ersten Blick scheinen diese Informationen sehr detailliert zu sein, aber es stellen sich bald Fragen: Wie breit sind die Umfragedaten? Was ist die Schwelle für die Ermittlung des Ergebnisses? Wird Mittelwert, Medianwert oder Modusmittelwert verwendet?

Wenn Sie nur ein Ergebnis aus jedem befragten Bereich verwenden und den Rest wegwerfen, können Sie die Ergebnisse leicht nach Bereichen steuern, ohne je zu sagen, dass Ihre Stichprobengröße klein ist. Auch hier mangelt es an konkreten Informationen, weshalb die Ergebnisse so schwer zu quantifizieren sind.


Categories:   Relationships

Comments