Студентам и школьникам - помощь в учебе. Статистическая сводка и группировка
Лабораторная работа №1
По математической статистике
Тема: Первичная обработка экспериментальных данных
3. Оценка в баллах. 1
5. Контрольные вопросы.. 2
6. Методика выполнения лабораторной работы.. 3
Цель работы
Приобретение навыков первичной обработки эмпирических данных методами математической статистики.
На основе совокупности опытных данных выполнить следующие задания:
Задание 1. Построить интервальный вариационный ряд распределения.
Задание 2. Построить гистограмму частот интервального вариационного ряда.
Задание 3. Составить эмпирическую функцию распределения и построить график.
а) моду и медиану;
б) условные начальные моменты;
в) выборочную среднюю;
г) выборочную дисперсию, исправленную дисперсию генеральной совокупности, исправленное среднее квадратичное отклонение;
д) коэффициент вариации;
е) асимметрию;
ж) эксцесс;
Задание 5. Определить границы истинных значений числовых характеристик, изучаемой случайной величины с заданной надёжностью.
Задание 6. Содержательная интерпретация результатов первичной обработки по условию задачи.
Оценка в баллах
Задания 1-5 – 6 баллов
Задание 6 – 2 балла
Защита лабораторной работы (устное собеседование по контрольным вопросам и лабораторной работе) - 2 балла
Работа сдается в письменной форме на листах формата А4 и включает:
1) Титульный лист (Приложение 1)
2) Исходные данные.
3) Представление работы по указанному образцу.
4) Результаты расчетов (выполненные вручную и/или с помощью MS Excel) в указанном порядке.
5) Выводы - содержательная интерпретация результатов первичной обработки по условию задачи.
6) Устное собеседование по работе и контрольным вопросам.
5. Контрольные вопросы
Методика выполнения лабораторной работы
Задание 1. Построить интервальный вариационный ряд распределения
Для того, чтобы статистические данные представить в виде вариационного ряда с равноотстоящими вариантами необходимо:
1.В исходной таблице данных найти наименьшее и наибольшее значения.
2.Определить размах варьирования :
3. Определить длину интервала h, если в выборке до 1000 данных, используют формулу: , где n – объем выборки – количество данных в выборке; для вычислений берут lgn).
Вычисленное отношение округляют до удобногоцелого значения .
4. Определить начало первого интервала для четного числа интервалов рекомендуют брать величину ; а для нечетного числа интервалов .
5. Записать интервалы группировок и расположить их в порядке возрастания границ
, ,………., ,
где - нижняя граница первого интервала. За берется удобное число не большее , верхняя граница последнего интервала должна быть не меньше . Рекомендуется, чтобы интервалы содержали в себе исходные значения случайной величины и выделять от 5 до 20 интервалов.
6. Записать исходные данные по интервалам группировок, т.е. подсчитать по исходной таблице число значений случайной величины, попадающих в указанные интервалы. Если некоторые значения совпадают с границами интервалов, то их относят либо только к предыдущему, либо только к последующему интервалу.
Замечание 1. Интервалы необязательно брать равными по длине. На участках, где значения располагаются гуще, удобнее брать более мелкие короткие интервалы, а там где реже - более крупные.
Замечание 2 .Если для некоторых значений получены “нулевые”, либо малые значения частот , то необходимо перегруппировать данные, укрупняя интервалы (увеличивая шаг ).
Наиболее простым способом обобщения статистического материала является построение рядов. Результатом сводки статистического исследования могут быть ряды распределения. Рядом распределения в статистике называется упорядоченное распределение единиц совокупности на группы по какому-либо одному признаку: по качественному или количественному. Если ряд построен по качественному признаку, то он называется атрибутивным, а если по количественному признаку, то вариационный.
Вариационный ряд характеризуется двумя элементами: вариантой (Х) и частотой (f). Варианта – это отдельное значение признака отдельной единицы или группы совокупности. Число, показывающее, сколько раз встречается то или иное значение признака, называется частотой. Если частота выражена относительным числом, то она называется частостью. Вариационный ряд может быть интервальным, когда определены границы «от» и «до», а может быть дискретным, когда изучаемый признак характеризуется определенным числом.
Построение вариационных рядов рассмотрим на примерах.
Пример . и меются данные о тарифных разрядах 60 рабочих одного их цехов завода.
Распределить рабочих по тарифному разряду, построить вариационный ряд.
Для этого выпишем все значения признака в порядке возрастания и посчитаем число рабочих в каждой группе.
Таблица 1.4
Распределение рабочих по разряду
Разряд рабочих (X) |
Число рабочих |
|
человек (f) |
в % к итогу (частность) |
|
Мы получили вариационный дискретный ряд, в котором изучаемый признак (разряд рабочего) представлен определенным числом. Для наглядности вариационные ряды изображают графически. На основании данного ряда распределения построили поверхность распределения.
Рис. 1.1. Полигон распределения рабочих по тарифному разряду
Построение интервального ряда с равными интервалами рассмотрим на следующем примере.
Пример . Известны данные о стоимости основного капитала 50 фирм в млн руб. Требуется показать распределение фирм по стоимости основного капитала.
Чтобы показать распределение фирм по стоимости основного капитала, сначала решим вопрос о количестве групп, которые хотим выделить. Предположим, решили выделить 5 групп предприятий. Затем определим величину интервала в группе. Для этого воспользуемся формулой
Согласно нашему примеру .
Путем прибавления величины интервала к минимальному значению признака, получим группы фирм по стоимости основного капитала.
Единица, обладающая двойным значением, относится к той группе, где она выступает в роли верхней границы (т.е. значение признака 17 пойдет в первую группу, 24 – во вторую и т.д.).
Подсчитаем число заводов в каждой группе.
Таблица 1.5
Распределение фирм по стоимости основного капитала (млн руб.)
Стоимость основного капитала |
Число фирм |
Накопленные частоты |
Согласно данному распределению получили вариационный интервальный ряд, из которого следует, что 36 фирм имеют основной капитал стоимостью от 10 до 24 млн руб. и т.д.
Интервальные ряды распределения можно представить графически в виде гистограммы.
Результаты обработки данных оформляются в статистические таблицы . Статистические таблицы содержат свое подлежащее и сказуемое.
Подлежащее – это та совокупность или часть совокупности, которая подвергается характеристике.
Сказуемое – это показатели, характеризующие подлежащее.
Таблицы различают: простые и групповые, комбинационные, с простой и сложной разработкой сказуемого.
Простая таблица в подлежащем содержит перечень отдельных единиц.
Если же в подлежащем имеется группировка единиц, то такая таблица называется групповой. Например, группа предприятий по числу рабочих, группы населения по полу.
В подлежащем комбинационной таблицы содержится группировка по двум или нескольким признакам. Например, население по полу разделяется на группы по образованию, возрасту и т.д.
Комбинационные таблицы содержат информацию, позволяющую выявить и охарактеризовать взаимосвязь ряда показателей и закономерность их изменения как в пространстве, так и во времени. Чтобы таблица была наглядной при разработке ее подлежащего, ограничиваются двумя-тремя признаками, образуя по каждому из них ограниченное число групп.
Сказуемое в таблицах может быть разработано по-разному. При простой разработке сказуемого все его показатели располагаются независимо друг от друга.
При сложной разработке сказуемого показатели сочетаются друг с другом.
При построении любой таблицы нужно исходить из целей исследования и содержания обработанного материала.
Кроме таблиц в статистике используются графики и диаграммы. Диаграмма – статистические данные изображаются с помощью геометрических фигур. Диаграммы подразделяются на линейные и столбиковые, но могут быть фигурные диаграммы (рисунки и символы), круговые диаграммы (окружность принимается за величину всей совокупности, а площади отдельных секторов отображают удельный вес или долю ее составных частей), радиальные диаграммы (строятся на базе полярных ординат). Картограмма представляет собой сочетание контурной карты или плана местности с диаграммой.
Располагая данные статистического наблюдения, характеризующих то или иное явление, прежде всего необходимо их упорядочить, т.е. придать характер системности
Английский статистик. УДжРейхман по поводу неупорядоченных совокупностей образно сказал, что столкнуться с массой необобщенных данных равнозначно ситуации, когда человека бросают в лесной чаще без компаса. Что же собой представляет систематизация статистических данных в виде рядов распределениялу?
Статистический ряд распределения - это упорядоченные статистические совокупности (табл. 17). Простейшим видом статистического ряда распределения ранжированном ряд, т.е. ряд чисел, находящейся в порядке возрастания ч или падения варьируя признаки. Такой ряд не позволяет судить о закономерности, заложенные в распределенных данных: у какой величины группируется большинство показателей, какие есть отклонения от этой величины; как а общая картина распределения. С этой целью группируют данные, показывая, как часто встречаются отдельные наблюдения в общем их числе (Схема 1а 1).
. Таблица 17
. Общий вид статистических рядов распределения
. Схема 1. Схемастатистичних рядов распределения
Распределение единиц совокупности по признакам, не имеют количественного выражения, называется атрибутивным рядом (например, распределение предприятий по их производственным направлением)
Ряды распределения единиц совокупности по признакам, имеют количественное выражение, называются вариационными рядами . В таких рядах значение признака (варианты) находятся в порядке возрастания или убывания
В вариационном ряде распределения различают два элемента: варианта и частота. Варианта - это отдельное значение группировочного признаки частота - число, которое показывает, сколько раз встречается каждый варианта
В математической статистике исчисляется еще один элемент вариационного ряда - частисть . Последняя определяется как отношение частоты случаев данного интервала к общей сумме частот частисть определяется в долях единицы, процентах (%) в промилле (% о)
Таким образом, вариационный ряд распределения - это такой ряд, в котором варианты расположены в порядке возрастания или убывания, указаны их частоты или частости. Вариационные ряды бывают дискретные (переривни) и др. нтервальни (непрерывного).
. Дискретные вариационные ряды - это такие ряды распределения, в которых варианта как величина количественного признака может принимать только определенное значение. Варианты различаются между собой на одну или несколько единиц
Так, количество произведенных деталей за смену конкретным рабочим может выражаться только одним определенным числом (6, 10, 12 и тд). Примером дискретного вариационного ряда может быть распределение работников по к количеством произведенных деталей (табл 18 18).
. Таблица 18
. Дискретный ряд распределения _
. Интервальные (непрерывного) вариационные ряды - такие ряды распределения, в которых значение варианты даны в виде интервалов, т.е. значения признаков могут отличаться друг от друга на сколь угодно малую величину. При построении вариационного ряда нэп переривнои признаки невозможно указать каждое значение варианты, поэтому совокупность распределяется по интервалам. Последние могут быть равны и неравны. Для каждого из них указываются частоты или частости (табл. 1 9 19).
В интервальных рядах распределения с неравными интервалами вычисляют такие математические характеристики, как плотность распределения и относительная плотность распределения на данном интервале. Первая характеристика определи ся отношением частоты до величины того же интервала, вторая - отношением частости к величине того же интервала. Для приведенного выше примера плотность распределения на первом интервале составит 3: 5 = 0,6, а относительная плотность на этом интервале - 7,5:5 = 1,55%.
. Таблица 19
. Интервальный ряд распределения _
При обработке больших массивов информации, что особенно актуально при проведении современных научных разработок, перед исследователем стоит серьезная задача правильной группировки исходных данных. Если данные имеют дискретный характер, то проблем, как мы видели, не возникает – необходимо просто подсчитать частотукаждого признака. Если же исследуемый признак имеет непрерывный характер (что имеет большее распространение на практике), то выбор оптимального числа интервалов группировки признака является отнюдь не тривиальной задачей.
Для группировки непрерывных случайных величин весь вариационный размах признакаразбивают на некоторое количество интервалов к.
Сгруппированным интервальным (непрерывным ) вариационным рядом называют ранжированные по значению признака интервалы (), гдеуказанные вместе с соответствующими частотами () числа наблюдений, попавших в г"-й интервал, или относительными частотами ():
Интервалы значений признака |
||||||
Частота mi |
Гистограмма и кумулята {огива), уже подробно рассмотренные нами, являются прекрасным средством визуализации данных, позволяющим получить первичное представление о структуре данных. Такие графики (рис. 1.15) строятся для непрерывных данных так же, как и для дискретных, только с учетом того, что непрерывные данные сплошь заполняют область своих возможных значений, принимая любые значения.
Рис. 1.15.
Поэтому столбцы на гистограмме и кумуляте должны соприкасаться, не иметь участков, куда не попадают значения признака в пределах всех возможных (т.е. гистограмма и кумулята не должны иметь "дырок" по оси абсцисс, в которые не попадают значения изучаемой переменной, как на рис. 1.16). Высота столбика соответствует частоте– числу наблюдений, попавших в данный интервал, или относительной частоте– доле наблюдений. Интервалы не должны пересекаться и имеют, как правило, одинаковую ширину.
Рис. 1.16.
Гистограмма и полигон являются аппроксимациями кривой плотности вероятности (дифференциальной функции) f(x) теоретического распределения, рассматриваемой в курсе теории вероятностей . Поэтому их построение имеет такое важное значение при первичной статистической обработке количественных непрерывных данных – по их виду можно судить о гипотетическом законе распределения.
Кумулята – кривая накопленных частот (частостей) интервального вариационного ряда. С кумулятой сопоставляется график интегральной функции распределения F(x) , также рассматриваемой в курсе теории вероятностей.
В основном понятия гистограммы и кумуляты связывают именно с непрерывными данными и их интервальными вариационными рядами, так как их графики являются эмпирическими оценками функции плотности вероятности и функции распределения соответственно.
Построение интервального вариационного ряда начинают с определения числа интервалов k. И эта задача, пожалуй, является самой сложной, важной и неоднозначной в изучаемом вопросе.
Число интервалов не должно быть слишком малым, так как при этом гистограмма получается слишком сглаженной (oversmoothed), теряет все особенности изменчивости исходных данных – на рис. 1.17 можно увидеть, как те же данные, по которым построены графики рис. 1.15, использованы для построения гистограммы с меньшим числом интервалов (левый график).
В то же время число интервалов не должно быть слишком велико – иначе мы не сможем оценить плотность распределения изучаемых данных по числовой оси: гистограмма получится недосглажепная (undersmoothed), с незаполненными интервалами, неравномерная (см. рис. 1.17, правый график).
Рис. 1.17.
Как же определить наиболее предпочтительное число интервалов?
Еще в 1926 г. Герберт Стерджес (Herbert Sturges) предложил формулу для вычисления количества интервалов, на которые необходимо разбить исходное множество значений изучаемого признака . Эта формула поистине стала сверхпопулярной – большинство статистических учебников предлагают именно ее, по умолчанию ее используют и множество статистических пакетов. Насколько это оправдано и во всех ли случаях – является весьма серьезным вопросом.
Итак, на чем основана формула Стерджеса?
Рассмотрим биномиальное распределение }