Статистика
__________________________________________________________________________________________________
Содержание
- Пример со стрелками
- Среднее значение (математическое ожидание)
- Дисперсия
- Задача статистики
- Статистика и теория вероятности
- Статистика и реальная жизнь
- Заключение
__________________________________________________________________________________________________
Пример со стрелками
Два стрелка стреляют по цели. Каждый из них выстрелил по раз. Кто из стрелков точнее стреляет? Понятно, что стрелок Б относительно профессиональнее, чем стрелок А. Но ведь результаты могут быть и более плотными? Нужно ввести такой параметр, который бы характеризовал разброс значений случайной величины.
В математике таким инструментом является дисперсия. С помощью неё можно посчитать этот разброс и, в частности, определить, кто из стрелков более меткий.
__________________________________________________________________________________________________
Среднее значение (математическое ожидание)
Перед дисперсией обычно вводят понятие среднего значения (или математического ожидания).
Если говорить о среднем, то оно может вводить в заблуждение. Например, в рассмотренном примере искусно стреляли оба стрелка. Другой пример: если я один раз зашёл в третий подъезд, а другой раз – в первый, то в среднем я захожу во второй подъезд.
Есть также известное выражение, «средняя температура по больнице», когда у одного пациента температура , у другого – комнатная, а в среднем у них у обоих .
Можно также привести социальный пример: если один ест мясо, а другой капусту, то в среднем оба едят голубец. Правда, с точки зрения математики в этом рассуждении кроется ошибка: среднее – это общая сумма, делённая на общее количество. Поэтому правильнее сказать, что в среднем оба едят по полголубца. Кроме того, капусты можно съесть много, а мяса – чуть-чуть, и среднее значение получится совсем другим.
Таким образом, среднее – это такая первичная характеристика (фильтр грубой очистки), которая позволяет анализировать некоторые явные ситуации. Например, на 1 рисунке явно видно, что стрелок А стреляет хуже, чем стрелок Б. А вот по 2 рисунку такой однозначный вывод сразу сделать нельзя.
Дело в том, что можно посчитать среднее для обоих стрелков – получится в обоих случаях. Значит, нужна другая характеристика для определения точности (мы уже её называли – дисперсия).
Аналогично можно говорить о распределении массы. Два примера – гиря и гантель. Массы одинаковые, а их распределение разное.
Говоря о среднем, можно также привести пример центра тяжести бублика. Фактически он есть, но с ним ничего сделать нельзя. Нельзя «схватить» бублик за центр тяжести.
__________________________________________________________________________________________________
Дисперсия
Для характеристики таких распределённых вещей недостаточно одного параметра (среднего значения). Нужна ещё одна – дисперсия. Если мы для каждого выстрела возьмём его расстояние от центра, возведём в квадрат и все сложим, то это и будет характеристикой . В предельной характеристике видно, на сколько второй стрелок точнее, чем первый.
__________________________________________________________________________________________________
Задача статистики
Статистика работает с характеристиками больших объёмов данных. По одной мишени, как мы сейчас рассуждаем, очень тяжело сделать вывод о том, как они стреляют. Потому что результаты могли быть случайными: мог быть сбит прицел и т. д. Обычно для того, чтобы сделать какой-то вывод, исследуют большой объём данных. Т. е. выстрелов явно недостаточно, чтобы понять, как человек стреляет. Нужно , и т. д., в зависимости от задачи. Задача статистики – обработать большой массив данных и свести этот массив к одной-двум-трём характеристикам, по которым можно сделать какие-то выводы.
Рассмотрим такой пример. Предположим, что мы измеряем размер обуви у группы людей. В среднем есть основных размеров. Построим распределение. Мы видим, что человек имеют размер , человек имеют размер и т. д. С этими обобщёнными данными уже можно работать.
Для больших массивов измерений, для большой выборки мы уже можем применять различные вероятностные законы.
__________________________________________________________________________________________________
Статистика и теория вероятности
Можно ли автоматизировать учителя и насколько? Что делает учитель? Он рассказывает и отвечает на вопросы. Оказывается, что человек по теореме Байесса или Пифагора на зададут те же самые вопросы, что и человек. Конечно, можно придумать вопрос типа: «Какое отношение теорема Пифагора имеет к варке пельменей?», но все подобные вопросы войдут в те самые несколько процентов. Поэтому на основании первых вопросов учителя можно автоматизировать так, что вы будете слушать лекцию по теореме Пифагора, потом скажете: «А у меня возник вопрос». Вам предложат все вопросы, которые уже задавались, и детей найдут тот, который был уже задан до этого.
Сколько должно быть станций скорой помощи? Сколько должно их быть в городе на определённое количество людей, сколько должно быть врачей и т. д.? Казалось бы, для каждого человека перелом ноги – это случайная вещь. Но в среднем по городу каждый день одно и то же количество человек ломает ногу (так называемый закон больших чисел). Данные показатели зависят от погоды, но если ожидается гололёд, то заранее можно оценить, сколько людей сломает ногу в такой день.
Вывод: на большой выборке для каждого событие может быть случайным, но для всех вместе оно закономерно. Это даёт возможность нам жить вместе. Поэтому выгодно жить в большом городе. К примеру, я только сегодня купил определённое мороженое, которое раньше не покупал. Но в среднем у мороженщицы покупают одно и то же количество, она знает, сколько мороженого и какого вида взять утром на складе. Хотя я, казалось бы, совершенно случайно для себя решил сегодня купить это мороженое.
Многие могут задаваться таким вопросом: как определяются нормативы по физкультуре? Почему учительница знает, что если я прыгну, например, м, то это ? По такому же принципу. Результаты замеряли на каких-то больших количествах учеников, а далее обобщали полученные результаты.
__________________________________________________________________________________________________
Статистика и реальная жизнь
Статистика – раздел математики, который прокладывает «мостик» от случайного к определённому: на большом количестве случайное становится определённым. В больших городах жить удобнее, потому что в каждом магазине известно, какое количество определённого товара заказать. Вероятность того, что вы придёте в аптеку, а там нет нужного лекарства, даже довольно редкого, мала. Так как потребителей «редкого» в большом городе много. И почти наверняка в какой-то аптеке вы все же найдёте необходимое лекарство.
Тем, кто увлекается компьютерными играми, будет интересно, как работают, например, футбольные симуляторы. Ведь компьютер не может предсказать, куда я нажму сейчас, вправо или влево, как он играет против меня? Но принцип обучения, а все эти системы обучающиеся, состоит в том, что система запоминает, как сыграл тот или иной игрок. Идея та же: машина играет с первыми тестировщиками (назовём их так), запоминает, как они себя ведут, и дальше уже может в случаев предсказать, как будет себя вести тот или иной игрок из миллионов пользователей.
Статистика – это вероятностная наука, но все же это переход от вероятности к определённости, к детерминированности, от модели к жизни, где нужно принимать какие-то решения: сколько строить больниц, ресторанов, столовых и т. д.
__________________________________________________________________________________________________
Заключение
Мы хотели показать переход от жизни к теории вероятности, к той начальной фазе этой науки, которая изучается в школе. Поговорили о том, что такое вероятность, как её правильно использовать. Рассмотрели пример страхования и обсудили, почему не надо расстраиваться, если мы принимаем неверные решения. Потому что важен результат не в конкретной ситуации, а в среднем. Также показали, где мы можем ошибиться, хотя интуиция подсказывает иначе (парадокс Монти Холла). Обсудили вопрос принятия решений. Важно понимать, как теория вероятности связана со статистикой и чем они отличаются. Поговорили о законе больших чисел, и о том, что определённость, в которой мы живём, основана преимущественно на этом законе. Например, узнали, что можно вывести стандартные ответы на вопросы на основании опроса учеников, и они будут применимы также для миллиона учеников.