Posted 26 апреля 2016,, 05:00

Published 26 апреля 2016,, 05:00

Modified 2 марта 2023,, 15:52

Updated 2 марта 2023,, 15:52

Как лгут при помощи статистики? Пять приемов, которые реально работают

Как лгут при помощи статистики? Пять приемов, которые реально работают

26 апреля 2016, 05:00
Наталья Варламова
Фото: Properm.ru
Мы продолжаем читать интересные книги и рассказывать о них. На этот раз предлагаем вашему вниманию книгу Даррела Хаффа «Как лгать при помощи статистики».

Существует три вида лжи: ложь, наглая ложь и статистика. ©

Статистика, действительно, коварная и хитрая вещь, особенно в умелых руках. На первый взгляд, книга Дарелла Хаффа «Как лгать при помощи статистики», выпущенная издательством «Альпина Паблишер» — инструкция по применению для мошенников, которые хотят ввести в заблуждение доверчивых читателей. Но на самом деле — наоборот.

Сам автор пишет: «Полагаю всё же, что смогу оправдать её в манере бывшего грабителя, опубликовавшего мемуары, в сущности представляющие собой учебный курс на тему о том, как подобрать отмычку к замку. Жуликам и ворам все эти трюки давно известны, а порядочные люди должны узнать о них, чтобы уметь защитить свой дом от непрошенных гостей».

Хотя книга написана в далеком 1954 году, актуальности своей она не потеряла, также как и коварные приемы, описываемые в ней. Как порядочные читатели вы должны о них знать.

Необъективная выборка

Чтобы данные выборочного исследования имели ценность, они должны основываться на репрезентативной выборке, из которой исключены все возможные источники предвзятости.

Вот пример нерепрезентативной выборки, который приводит Хафф. Один психиатр заявил, что практически любой человек — неврастеник. Но спросим себя: что послужило основой для такого вывода? Каких именно людей наблюдал данный психиатр? Оказывается, он пришел к такому поучительному выводу, изучая своих пациентов, а они более чем неподходящие кандидатуры на роль выборки из всего населения. Если человек вполне нормален, то у психиатра нет никаких шансов увидеть его у себя на приеме.

Другой — уже хрестоматийный — пример связан с выборами президента США. Журнал Literary Digest в 1936 году, опросив своих подписчиков, предсказал триумфальную победу республиканца Альфреда Лэндона над демократом Франклином Рузвельтом. В журнале забыли учесть, что его подписчики — это в основном богатые и зажиточные американцы, чаще всего сторонники республиканской партии. Победу на выборах одержал Рузвельт.

Вывод: если вам говорят, что 74% россиян поддержат Владимира Путина на предстоящих выборах президента — задайтесь вопросом, какие именно 74% россиян?

Грамотно выбранное среднее

Чиновники едят мясо, я — капусту. В среднем, мы едим голубцы. ©

Термин «среднее» имеет очень расплывчатое толкование. В цитате, приведенной выше, это среднее арифметическое. Помимо него существуют мода и медиана. В чём разница — читайте чуть ниже.

Во многих случаях все три средних показателя настолько близки по значению, что нет никакой необходимости делать различие между ними. Но если речь идет о доходах, то разница между тремя средними — огромная.

«Если вам попадается заявление владельца компании, где говорится, что у его сотрудников средняя зарплата достаточно высока, это может означать нечто конкретное, а может и не означать ничего. Если упомянутый средний показатель представляет собой медиану, то он укажет на то, что половина сотрудников зарабатывает больше указанной суммы, а другая половина — меньше. Но если перед вами среднее арифметическое (а можете мне поверить, так оно и бывает, если вид среднего не уточняется), то эта цифра не даст вам никакой полезной информации», — пишет Дарелл Хафф. Что касается моды, то это самое часто встречающееся значение из множества и, возможно, оно лучше всего характеризует уровень заработной платы в компании.

Так это выглядит на конкретном примере, где владелец компании зарабатывает 45 тыс. долларов, среднее арифметическое получается 5,7 тыс., а большинство сотрудников довольствуются 2 тыс. долларов.

Красивые графики

Простейшая разновидность статистической картинки — это график. Полезная вещь — когда нужно продемонстрировать те или иные тенденции, напугать или успокоить. Всё, что требуется — задать нужную единицу деления на оси координат. 10% могут выглядеть и как восходящая тенденция, и как впечатляющий рост. Никаких фальсификаций, те же самые значения, та же самая кривая, но эффект другой.

Псевдообоснованная цифра

«Если не получается доказать то, что вы хотите доказать, продемонстрируйте нечто другое и настаивайте, что это то же самое. Привязать цифру, отражающую какой-то факт, к другому факту — прием известный и всегда сослужит вам добрую службу. Действует безотказно», — говорит Хафф.

Примеры? Да пожалуйста!

В 1953 году в авиакатастрофах погибло больше людей, чем в 1910 году. Должен ли отсюда следовать вывод, что авиаперелеты стали более опасны? Нет! Просто люди стали летать в сотни раз больше, чем раньше, вот и всё.

Уровень смертности в военно-морском флоте США в период Испано-Американской войны в 1898 году составлял девять человек на тысячу. За тот же период уровень смертности среди гражданского населения Нью-Йорка достигал шестнадцати человек на тысячу. На войне безопаснее, чем дома? Конечно, нет! В рядах военно-морского флота служат главным образом молодые и здоровые мужчины. Гражданское население состоит среди прочего из малых детей, стариков и больных, и для этих категорий населения уровень смертности выше, где бы они ни находились.

Неправильная причинно-следственная связь

После — не всегда значит вследствие! И Дарелл Хафф доказывает это на конкретных примерах и призывает быть бдительными.

«Отстают ли в учебе студенты-курильщики от некурящих студентов. Согласно одному исследованию — да, отстают. Очень многим это пришлось по душе, они пошли дальше и сделали вывод — курение пагубно влияет на умственные способности, — пишет Хафф. — Вышеупомянутое исследование, как мне верится, было проведено по всем правилам: объем выборки был достаточно велик, подобрали ее добросовестно и тщательно, величина корреляции оказалась значимой. Но в нем делается неоправданное предположение, что курение и есть причина плохой успеваемости. Но разве всё это нельзя с таким же успехом перевернуть наоборот? Может быть, именно скверные оценки заставили студентов искать утешения в курении? Если уж на то пошло, данный вывод столь же вероятен и не хуже подкреплен фактами».

Часто бывает так: взаимосвязь существует, но нельзя сказать, какая из переменных выступает причиной, а какая следствием. Гораздо коварнее, когда ни одна из переменных не оказывает воздействия на другую, но корреляция между ними всё равно есть, причем существенная.

Вот пример такой фиктивной корреляции. По словам Хаффа, уровень самоубийств достигает максимума в июне. Тогда же насчитывается наибольшее количество новобрачных. В чем дело? Самоубийства порождают такое количество свадеб? Или свадьбы провоцируют отвергнутых женихом или невестой свести счеты с жизнью? Более убедительным, но тоже недоказанным объяснением будет следующее. Некто отчаявшийся всю зиму борется с депрессией в надежде, что весной тучи рассеются. Но он окончательно сдается, когда наступает лето, выглядывает солнце, а никакого просвета нет…

Вывод: чтобы не поддаваться заблуждению «после — значит вследствие» — подвергайте любое утверждение анализу.

В общем, смотрите в оба и помните, что существует три вида лжи: ложь, наглая ложь и статистика. ©

Иллюстрации из книги «Как лгать при помощи статистики»

"