Created with Sketch. Created with Sketch. Created with Sketch. Created with Sketch. Created with Sketch. Created with Sketch. Created with Sketch. Created with Sketch. Created with Sketch. Created with Sketch. Created with Sketch. Created with Sketch. Created with Sketch. 1 Created with Sketch. Created with Sketch. Created with Sketch. Created with Sketch.
ДНЕВНИК Dari

Запись

Dari 16 августа, 15:16 , Москва ···

Статистические приколы и поспешные выводы.

Сегодня расскажу прикольный пример из книги Нобелевского лауреата, психолога Дэвида Канемана "Думай медленно, решай быстро". Мне она показалась очень любопытной в виду иллюстрации того, как часто мы делаем поспешные выводы, не углубляясь в подробности. На самом деле это свойственно всем людям.

demot0131

В 3141 округе в США были проведены исследования частоты рака почки. Выявилась удивительная закономерность: самый низкий уровень заболеваемости обнаружен в сельских, малонаселенных округах республиканских штатов на Среднем Западе, Юге и Западе.

Вполне возможно, что вы уже приготовили логичное обоснование этому факту 😉. Ну ведь очевидно же, что в областях, где люди живут в здоровой сельской местности, дышат чистым воздухом, питаются здоровой пищей, без всякой "химии", более здоровые 😎. Все очень разумно.

Но давайте пойдем чуть дальше. Рассмотрим округа с самым высоким распространением заболеваемости раком почки. Это в основном сельские округа, малонаселенные и расположены на Среднем Западе, Юге и Западе.... ОГО! 😮 Это что вообще?

Ну, можно предположить, что высокая заболеваемость - следствие бедности, удаленности от нормальной медицинской помощи, жирной пищи, злоупотребления алкоголем и куревом).

Но что-то все же не так. И высокий и низкий уровень заболеваемости... в сельских областях? Почему?

Здесь людям, не изучавшим статистику может быть тяжело, но постараемся объяснить.

* Давайте представим себе, что у вас есть мешочек, в котором лежат красные и белые шарики. Теперь представьте себе, что вы планомерно достаете по 4 шарика и записываете число красных в каждом наборе. Кстати, вы можете попробовать провести такой опыт, заменив шарики на что-то другое. Скорее всего вы обнаружите, что набор из 4 красных шариков будет встречаться раз в 6 реже, чем набор из 2 белых и 2 красных, например. Это статистическая вероятность, математический факт, который вы сами можете проверить.

Теперь немного изменим эксперимент. Теперь у нас будет два человека. Скажем, Саша будет доставать по 4 шарика, а Катя - по 7. Они будут отмечать те случаи, когда будут вытаскивать набор из шариков одного цвета (все красные или все белые). Если им не надоест, то Саша будет наблюдать такой результат раз в 8 чаще, чем Катя (примерно 12.58 и 1,56%). И это тоже математика. Набор из 4 шариков чаще будет однородным, чем набор из 7 шариков. Вы можете сами это проверить. Только помните, что заниматься этим нужно достаточно долго. Как минимум раз 100 надо вытащить, а лучше больше). Поэтому запаситесь терпением, можно включить любимый сериал).

А теперь попробуем все это перенести на пример с раком почки. Представьте себе округа, точнее их население как шарики, часть которых помечены буквами РП (рак почки). Есть округа мало населенные (это как 4 шарика) и побольше (7 шариков), а есть очень большие (15, 20 и больше шариков). Чем меньше количество человек в округе, тем больше вероятность столкнуться с "экстремумом" - то есть что количество людей с раком почки в них будет больше относительно всего населения округа, либо наоборот, мало по сравнению с другими округами. То есть больше вероятность высоких или низких показателей.

На самом деле распределение рака почки не зависит от численности населения и от образа жизни. Это вообще не причина. Результаты обусловлены исключительно проблемой "малых выборок". Грубо говоря, не стоит делать вы воды на основании небольших групп, они не показательны, т.к. в них велико влияние случая. Чем более населен округ, тем больше результаты в нем будут приближаться к неким средним показателям для популяции в целом. То есть дело не во влиянии "здоровой жизни" или "плохой жизни". Это здесь вообще ни при чем и делать такие выводы вообще не правомерно.

Надеюсь, вы не совсем запутались?😂 Попробую объяснить это проще. Очень велик соблазн найти объяснение неким фактам, опираясь на статистически не значимые выборки: некой семьи, например или нескольких ваших знакомых. Бывает с вами такое? "Вот, баба Катя всю жизнь прожила в деревне, поэтому она такая здоровая". Возможно, речь идет о случайности, а не о закономерности?

Часто ли вам приходилось сталкиваться с такими высказываниями: "Вот Лена не прививает детей и они не болеют, а Аня все по графику делает и они у нее не вылезают из соплей"? Или: "Женя кормила всех детей грудью до 5 лет и они все у нее очень умные". Или: "У Регины дети не ходят в садик и школу, учатся дома, поэтому они намного умнее своих сверстников".

Действительно ли в этом причина и можно ли на самом деле делать такие выводы? Возможно, вы просто находитесь во власти иллюзии и, если вы случайным образом выберите много семей или детей и протестируете их, то ваши начальные выводы не будут столь о очевидными и большие данные покажут совсем другой результат и отсутствие связи? И главное, готовы ли вы столкнуться с тем, что ваши первоначальные предположения окажутся неверными?

Думайте правильно 😉. Спасибо всем, кто дочитал! Вы молодцы! 😘


1

КОММЕНТАРИИ

Анна 16 августа, 20:06 , Москва
                                

Мой препод по статистике начал курс лекции с цитаты: "Есть ложь, наглая ложь и статистика". В общем-то любому, кто хоть немного изучал статистику, понятно, как возникают ложные выводы при ошибках используемого стат.метода, некорректно сделанной выборке, некорректно собранной стат.информации и т.д. и т.п. Поэтому я к стат данным (любым) подхожу всегда с большим сомнением. В описанном случае про рак почки - почему нельзя было сравнивать, например, суммарно по всем малонаселенным сельским округам, ну так чтоб исходное число сравниваемых множеств было бы примерно одинаковым.

Ответить
Dari 16 августа, 20:10 , Москва
                                

Можно было. Да, есть проблема с малыми выборками. Можно было сравнить сельские и несельские области. Но тогда скорее всего средние показатели не сильно бы отличались. Видишь, экстремумы и с той и с другой стороны приходятся на малонаселенные округа. Увеличение выборки привело бы к тому, что данные стремились бы к средним значениям.

Ответить