Статистические приколы и поспешные выводы.
"умные" мыслиСегодня расскажу прикольный пример из книги Нобелевского лауреата, психолога Дэвида Канемана "Думай медленно, решай быстро". Мне она показалась очень любопытной в виду иллюстрации того, как часто мы делаем поспешные выводы, не углубляясь в подробности. На самом деле это свойственно всем людям.
В 3141 округе в США были проведены исследования частоты рака почки. Выявилась удивительная закономерность: самый низкий уровень заболеваемости обнаружен в сельских, малонаселенных округах республиканских штатов на Среднем Западе, Юге и Западе.
Вполне возможно, что вы уже приготовили логичное обоснование этому факту 😉. Ну ведь очевидно же, что в областях, где люди живут в здоровой сельской местности, дышат чистым воздухом, питаются здоровой пищей, без всякой "химии", более здоровые 😎. Все очень разумно.
Но давайте пойдем чуть дальше. Рассмотрим округа с самым высоким распространением заболеваемости раком почки. Это в основном сельские округа, малонаселенные и расположены на Среднем Западе, Юге и Западе.... ОГО! 😮 Это что вообще?
Ну, можно предположить, что высокая заболеваемость - следствие бедности, удаленности от нормальной медицинской помощи, жирной пищи, злоупотребления алкоголем и куревом).
Но что-то все же не так. И высокий и низкий уровень заболеваемости... в сельских областях? Почему?
Здесь людям, не изучавшим статистику может быть тяжело, но постараемся объяснить.
* Давайте представим себе, что у вас есть мешочек, в котором лежат красные и белые шарики. Теперь представьте себе, что вы планомерно достаете по 4 шарика и записываете число красных в каждом наборе. Кстати, вы можете попробовать провести такой опыт, заменив шарики на что-то другое. Скорее всего вы обнаружите, что набор из 4 красных шариков будет встречаться раз в 6 реже, чем набор из 2 белых и 2 красных, например. Это статистическая вероятность, математический факт, который вы сами можете проверить.
Теперь немного изменим эксперимент. Теперь у нас будет два человека. Скажем, Саша будет доставать по 4 шарика, а Катя - по 7. Они будут отмечать те случаи, когда будут вытаскивать набор из шариков одного цвета (все красные или все белые). Если им не надоест, то Саша будет наблюдать такой результат раз в 8 чаще, чем Катя (примерно 12.58 и 1,56%). И это тоже математика. Набор из 4 шариков чаще будет однородным, чем набор из 7 шариков. Вы можете сами это проверить. Только помните, что заниматься этим нужно достаточно долго. Как минимум раз 100 надо вытащить, а лучше больше). Поэтому запаситесь терпением, можно включить любимый сериал).
А теперь попробуем все это перенести на пример с раком почки. Представьте себе округа, точнее их население как шарики, часть которых помечены буквами РП (рак почки). Есть округа мало населенные (это как 4 шарика) и побольше (7 шариков), а есть очень большие (15, 20 и больше шариков). Чем меньше количество человек в округе, тем больше вероятность столкнуться с "экстремумом" - то есть что количество людей с раком почки в них будет больше относительно всего населения округа, либо наоборот, мало по сравнению с другими округами. То есть больше вероятность высоких или низких показателей.
На самом деле распределение рака почки не зависит от численности населения и от образа жизни. Это вообще не причина. Результаты обусловлены исключительно проблемой "малых выборок". Грубо говоря, не стоит делать вы воды на основании небольших групп, они не показательны, т.к. в них велико влияние случая. Чем более населен округ, тем больше результаты в нем будут приближаться к неким средним показателям для популяции в целом. То есть дело не во влиянии "здоровой жизни" или "плохой жизни". Это здесь вообще ни при чем и делать такие выводы вообще не правомерно.
Надеюсь, вы не совсем запутались?😂 Попробую объяснить это проще. Очень велик соблазн найти объяснение неким фактам, опираясь на статистически не значимые выборки: некой семьи, например или нескольких ваших знакомых. Бывает с вами такое? "Вот, баба Катя всю жизнь прожила в деревне, поэтому она такая здоровая". Возможно, речь идет о случайности, а не о закономерности?
Часто ли вам приходилось сталкиваться с такими высказываниями: "Вот Лена не прививает детей и они не болеют, а Аня все по графику делает и они у нее не вылезают из соплей"? Или: "Женя кормила всех детей грудью до 5 лет и они все у нее очень умные". Или: "У Регины дети не ходят в садик и школу, учатся дома, поэтому они намного умнее своих сверстников".
Действительно ли в этом причина и можно ли на самом деле делать такие выводы? Возможно, вы просто находитесь во власти иллюзии и, если вы случайным образом выберите много семей или детей и протестируете их, то ваши начальные выводы не будут столь о очевидными и большие данные покажут совсем другой результат и отсутствие связи? И главное, готовы ли вы столкнуться с тем, что ваши первоначальные предположения окажутся неверными?
Думайте правильно 😉. Спасибо всем, кто дочитал! Вы молодцы! 😘