Статистична обробка даних

Опис документу:
У цьому документі йде мова про статистичну обробку даних. статистичну сукупність, емпіричну функцію розподілу та її властивості , числові характеристики вибірки, вибіркові середні та їх характеристики, вибіркову дисперсію.

Відображення документу є орієнтовним і призначене для ознайомлення із змістом, та може відрізнятися від вигляду завантаженого документу. Щоб завантажити документ, прогорніть сторінку до кінця

Перегляд
матеріалу
Отримати код Поділитися

Статистична обробка даних.

Статистична сукупність

Групу об’єктів, яка об’єднана за деякою якісною або кількісною ознакою, називають статистичною сукупністю. Розрізняють генеральну і вибіркову сукупності.

Вибірковою сукупністю або вибіркою називають сукупність випадково відібраних об’єктів.

Генеральною сукупністю називають сукупність всіляких об’єктів, із яких проводиться вибірка.

Обсягом сукупності називають число об’єктів, що входить у цю сукупність.

На практиці використовують різні способи одержання вибірок.

Простою випадковою називають вибірку при якій об’єкти відбирають по одному із всієї генеральної сукупності.

Вибірки бувають повторні та безповторні. Повторною називають вибірку, при якій відібраний об’єкт повертається до генеральної сукупності перед відбором іншого об’єкту. Вибірку називають безповоротною, якщо взятий об’єкт до генеральної сукупності не повертається.

Якщо обсяг генеральної сукупності достатньо великий, а вибірка складає тільки незначну частину цієї сукупності, то різниця між повторною і без повторною вибірками незначна.

Будемо позначати:

хі – значення ознаки (випадкової величини Х)

і п –обсяг елементів генеральної і вибіркової сукупностей.

і і пі – число елементів генеральної і вибіркової сукупностей із значеннями ознаки хі.

Нехай із генеральної сукупності проведена вибірка (х1, х2, х3,..., хк). Елементи вибірки х1, х2, х3,..., хк називають варіантами, а вибірку (х1, х2, х3,..., хк) – простою статистичною сукупністю або статистичним рядом.

Нехай х1 спостерігалося п1 разів, х2 спостерігалося п2 разів, …, хк пк разів. При цьому

де к кількість варіант, що різняться числовими значеннями; пі частота варіанти хі (і=1, 2,...,к); п обсяг вибірки.

Послідовність варіант записаних у зростаючому порядку називають варіаційним ранжируваним рядом. Відношення (і=1, 2, ..., k) називають відносною частотою події Х=хі. Очевидно, що .

Перелік варіант варіаційного ряду і відповідних частот, або відносних частот, називають дискретним статистичним розподілом, або статистичним рядом розподілу частот для даної вибірки.

У табличній формі він має такий вигляд:

х=хі

х1

х2

х3

...

хк

пі

п1

п2

п3

...

пк

і

1

2

3

...

к

Для графічного зображення дискретного статистичного розподілу будують полігон частот та відносних частот.

Ламана лінія, відрізки якої послідовно сполучають точки з координатами (хі, пі) або (хі, і) (і=1,2,...,к) називається полігоном частот (відносних частот).

Статистичний розподіл можна задати у вигляді послідовності інтервалів і відповідних їм частот. Такий розподіл називають інтервальним статистичним розподілом.

Довжини інтервалів можуть бути як однаковими, так і різними. Для зручності довжини інтервалів вибирають однаковими.

Для цього всю ширину вибірки розбивають на інтервали завдовжки h і дані спостережень подають у вигляді таблиці частот, де вказують часткові інтервали (хі, хі+1) і пі число тих вибіркових значень, які потрапили в і-інтервал розбиття. Якщо деяке значення лежить на межі двох часткових інтервалів то його слід відносити завжди до одного й того ж інтервалу, наприклад до нижнього, або до обох інтервалів додаємо по .

Здобуті дані подають у вигляді наступної таблиці, в якій вказують часткові інтервали і відповідні частоти

Інтервали

(а11+h)

(а1+h, а1+2h)

...

(а1+(к-1)h, а1+кh)

Частоти

п1

п2

пк

Для визначення оптимальної величини інтервалу розбиття користуються формулою Стерджеса

,

де хтах, хтіп відповідно максимальна й мінімальна варіанти. Якщо h дробове число, то за h можуть брати найближче ціле або найближчий простий дріб. За початок першого інтервалу беруть величину , тоді початок другого збігається з кінцем першого і становить а21+h і т.д., процес продовжується доти, доки початок наступного інтервалу не буде більший, ніж хтах. Число h називається кроком вибірки, а різниця хтах- хтіп шириною вибірки або розмахом (R).

Перелік часткових інтервалів і відповідних їм частот або відносних частот, називають інтервальним статистичним розподілом вибірки або інтервальним статистичним рядом розподілу спостережених частот.

Для наглядного зображення статистичних даних будують гістограми.

Якщо на і-му відрізку (і=1, 2, ..., к) кількість варіант дорівнює пі, то будують прямокутник Пі, основою якого є і-й відрізок довжиною h, а висота дорівнює (для відносних частот ). Площа такого прямокутника дорівнює (у випадку відносних частот ). Тому площа усіх прямокутників дорівнює сумі , тобто

обсягу вибірки.

У випадку гістограми відносних частот площа суми прямокутників, дорівнює 1, тобто

Гістограмою частот називають східчасту фігуру, яка складається з прямокутників, основами яких є часткові інтервали варіант довжиною h=xi-xi-1, а висоти дорівнюють .

Емпірична функція розподілу та її властивості

Одним із способів обробки статистичних даних є побудова емпіричної функції розподілу випадкової величини.

За вибіркою можна знайти емпіричну функцію розподілу F*(x), де на основі закону великих чисел Бернуллі замість ймовірності рі беремо відносні частоти . Процес знаходження емпіричних функцій розподілу F*(x) аналогічний процесу знаходження функції розподілу F(x) дискретної випадкової величини .

Емпіричною функцією розподілу (функцією розподілу вибірки) називають функцію

де пх кількість елементів вибірки менших від х (тобто суми частот усіх варіант, менших х), п обсяг вибірки.

Отже,

Емпірична функція розподілу відіграє фундаментальну роль в математичній статистиці.

На відміну від емпіричної функції розподілу вибірки F*(x) функцію розподілу F(x) генеральної сукупності у математичній статистиці називають теоретичною функцією розподілу. Вона відрізняється від емпіричної функції розподілу F*(x) тим, що визначає імовірність події Х х, а не частоту цієї події. З теореми Бернуллі випливає, що частість

події Х х прямує до імовірності F(x)= Р(Х х) цієї події.

Тому F (x) та F*(x) мало відрізняються одна від одної. Функція F*(x) володіє всіма властивостями функції F(x).

Отже, емпірична функція розподілу F*(x) має такі властивості:

  1. 0 F*(x) 1;

  2. F*(x) неспадна, тобто якщо х1 х2, то F*(x1) F*(x2);

  3. F*(x) неперервна зліва, тобто F*(x-0)= F*(x), де F*(x-0) лівостороння границя;

  4. , де хтіп найменша варіанта варіаційного ряду;

  5. , де хтах найбільша варіанта варіаційного ряду.

Отже, якщо об’єм вибірки великий, то значення емпіричної функції розподілу F*(x) у кожній точці х може бути наближеним значенням (оцінкою) теоретичної функції розподілу в цій точці. Функцію F*(x) часто називають у цьому випадку статистичним аналогом для F(x).

Числові характеристики вибірки.

Вибіркові середні та їх характеристики

В якості однієї із важливих характеристик варіаційних рядів є середні величини. У математичній статистиці розрізняють декілька видів середніх величин: арифметичну, геометричну, гармонічну, квадратичну, кубічну та інші. Всі перераховані типи середніх можуть бути обчислені для випадку, коли кожна із варіант варіаційного ряду зустрічається тільки один раз (тоді середня називається простою або незваженою). Коли значення варіант повторюється різне число разів, то обчислені середні величини називаються зваженими.

Для характеристики варіаційного ряду один із перерахованих типів середніх вибирається не довільно, а в залежності від особливостей вивчаючого явища і мети, для якої середнє обчислюється.

Зазначимо, що середня тоді і тільки тоді є узагальнюючою характеристикою, якщо вона застосовується для однорідної сукупності.

Всі зазначені типи середніх величин можна одержати із формул степеневої середньої.

Якщо варіанти х1, х2,...,хп зустрічаються в сукупності один раз, або однакове число разів, то степенева середня обчислюється за формулою простої незваженої степеневої порядку т:

, (1)

т показник степеня, що визначає тип середньої.

Якщо варіанти х1, х2,...,хк повторюються різне число разів, то степенева середня обчислюється за формулою зваженої степеневої середньої порядку т:

, (2)

де пі частота варіанти хі, к кількість варіант, обсяг вибірки.

Підставивши у формулу (1) т=-1 одержимо просту (незважену) середню гармонічну

Якщо т=-1 підставимо у формулу (2), то одержимо зважену середню гармонічну

Середня гармонічна обчислюється тоді, коли середня використовується для розрахунку сум доданків, які обернено пропорційні величині даної ознаки, тобто коли знаходять суму не самих варіант, а обернених до них величин .

Із формули (1) при т=1, одержимо незважену середню арифметичну (просту)

. (3)

А із формули (2) при т=1 одержимо зважену середню арифметичну

. (4)

Середні арифметичні, які обчислені за формулами (3) і (4) ще називають вибірковими середніми і позначають їх буквою , тобто .

Якщо у формулу (1) замість т підставимо 2, то одержимо незважену середню квадратичну

,

а якщо значення т=2 підставимо у формулу (2), то одержимо зважену середню квадратичну

Середня квадратична використовується для розрахунку тільки тоді, коли варіанти являють собою відхилення фактичних величин від їх середніх арифметичних або від заданої норми.

Незважену геометричну середню обчислюють за формулою

,

а, зважену геометричну середню обчислюють за формулою

.

Обчислення середньої геометричної у значній степені спрощується, якщо застосувати логарифмування. Для незваженої геометричної маємо

,

для зваженої

.

Середня геометрична використовується основним чином для вивчення динаміки. Середні коефіцієнти і темпи росту розраховуються за формулами середньої геометричної.

Якщо вирахувати різні типи середніх величин, одержаних із степеневої середньої, для одного й того самого варіаційного ряду, то їх числові значення будуть відрізнятися одне від одного, а самі середні розмістяться таким чином:

,

тобто найбільшою буде середня квадратична, а найменшою середня гармонічна.

Вибіркова дисперсія та її властивості

Для характеристики розсіювання значень кількісної ознаки Х сукупності навколо свого середнього значення застосовують дисперсію.

Вибірковою дисперсією DВ називають середнє арифметичне квадратів відхилення варіант відносно .

Якщо всі значення х1, х2,..., хк ознаки вибірки обсягу п різні, то

Якщо всі значення ознаки х1, х2,..., хп мають відповідні частоти п1, п2,..., пк, причому п1+п2+...+пк= п, то

Вибірковим середнім квадратичним відхиленням (стандартом) називається корінь із вибіркової дисперсії

Властивості дисперсії:

  1. Дисперсія сталої величини дорівнює нулю.

  2. Якщо всі значення варіантів зменшити на постійну величину, то дисперсія не зміниться.

  3. Якщо всі значення варіантів збільшити (зменшити) в т разів, то дисперсія збільшиться (зменшиться) в т2 разів.

  4. Дисперсія відносно середньої арифметичної дорівнює дисперсії відносно довільної сталої без квадрата різниці між середньою арифметичною і цією сталою, тобто

Рівність справедлива для будь-якого с.

Структурні середні величини

Модою дискретного статистичного розподілу вибірки називають варіанту, що має найбільшу частоту появи.

Мод може бути кілька. Коли дискретний статистичний розподіл має одну моду, то він називається одномодальним, коли має дві моди двомодальним і т.д.

Медіаною дискретного статистичного розподілу вибірки називають варіанту, яка поділяє варіаційний ряд на дві частини, рівні за кількістю варіант.

Якщо обсяг вибірки п=2т+1 непарний, то медіаною буде значення елемента варіаційного ряду з номером т+1, =хт+1.

Якщо обсяг вибірки п=2т парний, то медіаною буде середнє значення елементів варіаційного ряду з номерами т і т +1:

.

В інтервальному варіаційному ряді для визначення моди та медіани в межах певного інтервалу застосовують відповідні формули:

де х0 та h — нижня межа та ширина модального інтервалу, fmо, fmо-1, fmо+1 — частоти (частки) відповідно модального, передмодального та післямодального інтервалів.

де х0 та h — нижня межа та ширина медіального інтервалу, fчастоти (частки) ряду, fmе— частоти (частки) відповідно медіального інтервалу, Sme-1сума нагромаджених (кумулятивних) частот до медіального інтервалу.

Для грубого оцінювання розсіювання варіант відносно хВ застосовується величина, яка дорівнює різниці між найбільшою хтах і найменшою хтіп варіантами варіаційного ряду. Ця властивість називається розмахом

R= хтах - хтіп

Коефіцієнтом варіації називається вираз у процентах відношення вибіркового середнього квадратичного відхилення до вибіркової середньої:

Коефіцієнт варіації використовується для порівняння величин розсіювання по відношенню до вибіркової середньої двох варіаційних рядів. Коефіцієнт варіації безрозмірна величина, тому його можна використовувати для порівнювання розсіювання варіаційних рядів, варіанти яких мають різну розмірність. Наприклад, якщо варіанти одного ряду виражаються в сантиметрах, а другого в грамах.

Середнім абсолютним відхиленням називають середнє арифметичне абсолютних відхилень:

Зауваження. Якщо варіаційний ряд складений за даними вибірки, тоді його характеристики називають вибірковими; якщо варіаційний ряд складений за даними генеральної сукупності, то характеристики називають генеральними.

Початкові і центральні моменти варіаційного ряду

Середня арифметична і дисперсія варіаційного ряду є частинними випадками більш загальних понять емпіричних моментів варіаційного ряду.

Початкові емпіричні моменти. Середнє зважене значення варіант у степені т (т=1,2, 3, ...) називають початковим емпіричним моментом т-го порядку , який обчислюється за формулою

При т=1 дістанемо початковий момент першого порядку

(5)

При т=2 маємо початковий момент другого порядку

(6)

Враховуючи формули (5) і (6) вибіркову дисперсію можна подати через початкові моменти першого та другого порядків наступною формулою

Центральні емпіричні моменти т-го порядку. Середнє зважене відхилення варіант у степені т (т=1, 2, 3,...) називають центральним емпіричним моментом т-го порядку

При т=1 маємо:

При т=2 маємо: .

На практиці найчастіше застосовують центральні емпіричні моменти третього та четвертого порядків, що обчислюються за формулами:

та

Зазначимо, що центральні моменти третього порядку є мірою асиметрії розподілу ознаки. Якщо розподіл симетричний, то 3=0.

Між центральними емпіричними моментами та початковими моментами існують такі співвідношення:

та .

Зверніть увагу, свідоцтва знаходяться в Вашому особистому кабінеті в розділі «Досягнення»

Всеосвіта є суб’єктом підвищення кваліфікації.

Всі сертифікати за наші курси та вебінари можуть бути зараховані у підвищення кваліфікації.

Співпраця із закладами освіти.

Дізнатись більше про сертифікати.

Приклад завдання з олімпіади Українська мова. Спробуйте!
До ЗНО з МАТЕМАТИКИ залишилося:
0
4
міс.
0
2
дн.
0
0
год.
Готуйся до ЗНО разом із «Всеосвітою»!