Статистика

__________________________________________________________________________________________________

Содержание 

__________________________________________________________________________________________________

Пример со стрелками

Два стрелка стреляют по цели. Каждый из них выстрелил по  раз. Кто из стрелков точнее стреляет? Понятно, что стрелок Б относительно профессиональнее, чем стрелок А. Но ведь результаты могут быть и более плотными? Нужно ввести такой параметр, который бы характеризовал разброс значений случайной величины.

В математике таким инструментом является дисперсия. С помощью неё можно посчитать этот разброс и, в частности, определить, кто из стрелков более меткий.

__________________________________________________________________________________________________

Среднее значение (математическое ожидание)

Перед дисперсией обычно вводят понятие среднего значения (или математического ожидания).

Если говорить о среднем, то оно может вводить в заблуждение. Например, в рассмотренном примере искусно стреляли оба стрелка. Другой пример: если я один раз зашёл в третий подъезд, а другой раз – в первый, то в среднем я захожу во второй подъезд.

Есть также известное выражение, «средняя температура по больнице», когда у одного пациента температура , у другого – комнатная, а в среднем у них у обоих .

Можно также привести социальный пример: если один ест мясо, а другой капусту, то в среднем оба едят голубец. Правда, с точки зрения математики в этом рассуждении кроется ошибка: среднее – это общая сумма, делённая на общее количество. Поэтому правильнее сказать, что в среднем оба едят по полголубца. Кроме того, капусты можно съесть много, а мяса – чуть-чуть, и среднее значение получится совсем другим.

Таким образом, среднее – это такая первичная характеристика (фильтр грубой очистки), которая позволяет анализировать некоторые явные ситуации. Например, на 1 рисунке явно видно, что стрелок А стреляет хуже, чем стрелок Б. А вот по 2 рисунку такой однозначный вывод сразу сделать нельзя.

Дело в том, что можно посчитать среднее для обоих стрелков – получится  в обоих случаях. Значит, нужна другая характеристика для определения точности (мы уже её называли – дисперсия).

Аналогично можно говорить о распределении массы. Два примера – гиря и гантель. Массы одинаковые, а их распределение разное.

Говоря о среднем, можно также привести пример центра тяжести бублика. Фактически он есть, но с ним ничего сделать нельзя. Нельзя «схватить» бублик за центр тяжести.

__________________________________________________________________________________________________

Дисперсия

Для характеристики таких распределённых вещей недостаточно одного параметра (среднего значения). Нужна ещё одна – дисперсия. Если мы для каждого выстрела возьмём его расстояние от центра, возведём в квадрат и все сложим, то это и будет характеристикой . В предельной характеристике видно, на сколько второй стрелок точнее, чем первый.

__________________________________________________________________________________________________

Задача статистики

Статистика работает с характеристиками больших объёмов данных. По одной мишени, как мы сейчас рассуждаем, очень тяжело сделать вывод о том, как они стреляют. Потому что результаты могли быть случайными: мог быть сбит прицел и т. д. Обычно для того, чтобы сделать какой-то вывод, исследуют большой объём данных. Т. е.  выстрелов явно недостаточно, чтобы понять, как человек стреляет. Нужно  и т. д., в зависимости от задачи. Задача статистики – обработать большой массив данных и свести этот массив к одной-двум-трём характеристикам, по которым можно сделать какие-то выводы.

 

Рассмотрим такой пример. Предположим, что мы измеряем размер обуви у группы людей. В среднем есть  основных размеров. Построим распределение. Мы видим, что  человек имеют размер  человек имеют размер  и т. д. С этими обобщёнными данными уже можно работать.

Для больших массивов измерений, для большой выборки мы уже можем применять различные вероятностные законы.

 

__________________________________________________________________________________________________

Статистика и теория вероятности

Можно ли автоматизировать учителя и насколько? Что делает учитель? Он рассказывает и отвечает на вопросы. Оказывается, что  человек по теореме Байесса или Пифагора на  зададут те же самые вопросы, что и  человек. Конечно, можно придумать вопрос типа: «Какое отношение теорема Пифагора имеет к варке пельменей?», но все подобные вопросы войдут в те самые несколько процентов. Поэтому на основании  первых вопросов учителя можно автоматизировать так, что вы будете слушать лекцию по теореме Пифагора, потом скажете: «А у меня возник вопрос». Вам предложат все вопросы, которые уже задавались, и  детей найдут тот, который был уже задан до этого.

Сколько должно быть станций скорой помощи? Сколько должно их быть в городе на определённое количество людей, сколько должно быть врачей и т. д.? Казалось бы, для каждого человека перелом ноги – это случайная вещь. Но в среднем по городу каждый день одно и то же количество человек ломает ногу (так называемый закон больших чисел). Данные показатели зависят от погоды, но если ожидается гололёд, то заранее можно оценить, сколько людей сломает ногу в такой день.

Вывод: на большой выборке для каждого событие может быть случайным, но для всех вместе оно закономерно. Это даёт возможность нам жить вместе. Поэтому выгодно жить в большом городе. К примеру, я только сегодня купил определённое мороженое, которое раньше не покупал. Но в среднем у мороженщицы покупают одно и то же количество, она знает, сколько мороженого и какого вида взять утром на складе. Хотя я, казалось бы, совершенно случайно для себя решил сегодня купить это мороженое.

Многие могут задаваться таким вопросом: как определяются нормативы по физкультуре? Почему учительница знает, что если я прыгну, например,  м, то это ? По такому же принципу. Результаты замеряли на каких-то больших количествах учеников, а далее обобщали полученные результаты.

__________________________________________________________________________________________________

Статистика и реальная жизнь

Статистика – раздел математики, который прокладывает «мостик» от случайного к определённому: на большом количестве случайное становится определённым. В больших городах жить удобнее, потому что в каждом магазине известно, какое количество определённого товара заказать. Вероятность того, что вы придёте в аптеку, а там нет нужного лекарства, даже довольно редкого, мала. Так как потребителей «редкого» в большом городе много. И почти наверняка в какой-то аптеке вы все же найдёте необходимое лекарство.

Тем, кто увлекается компьютерными играми, будет интересно, как работают, например, футбольные симуляторы. Ведь компьютер не может предсказать, куда я нажму сейчас, вправо или влево, как он играет против меня? Но принцип обучения, а все эти системы обучающиеся, состоит в том, что система запоминает, как сыграл тот или иной игрок. Идея та же: машина играет с первыми  тестировщиками (назовём их так), запоминает, как они себя ведут, и дальше уже может в  случаев предсказать, как будет себя вести тот или иной игрок из миллионов пользователей.

Статистика – это вероятностная наука, но все же это переход от вероятности к определённости, к детерминированности, от модели к жизни, где нужно принимать какие-то решения: сколько строить больниц, ресторанов, столовых и т. д.

__________________________________________________________________________________________________

Заключение

Мы хотели показать переход от жизни к теории вероятности, к той начальной фазе этой науки, которая изучается в школе. Поговорили о том, что такое вероятность, как её правильно использовать. Рассмотрели пример страхования и обсудили, почему не надо расстраиваться, если мы принимаем неверные решения. Потому что важен результат не в конкретной ситуации, а в среднем. Также показали, где мы можем ошибиться, хотя интуиция подсказывает иначе (парадокс Монти Холла). Обсудили вопрос принятия решений. Важно понимать, как теория вероятности связана со статистикой и чем они отличаются. Поговорили о законе больших чисел, и о том, что определённость, в которой мы живём, основана преимущественно на этом законе. Например, узнали, что можно вывести стандартные ответы на вопросы на основании опроса  учеников, и они будут применимы также для миллиона учеников.