!spss in examplekafedra.1mgmu.com/images/!spss in example.pdfзначениями, например,...

35
Пошаговая инструкция по курсу медицинской статистики Занятие 1 2 Оглавление ЗАНЯТИЕ 1 ................................................................................................................................ 3 1. SPSS. Структура данных. Ввод и редактирование данных ............................................... 3 2. SPSS. Импорт и экспорт данных........................................................................................ 11 Как выходить на сайт европейского бюро ВОЗ и искать там нужные данные ............. 11 3. SPSS. Создание переменных с вычислением его начальных значений ......................... 21 4. Вычисление частот в Excel. ................................................................................................ 24 1. Расчет частоты значений переменной..................................................................... 24 2. Расчет чувствительности и эффективности............................................................ 24 3. Вычисление частот в SPSS. ............................................................................................. 28 САМОСТОЯТЕЛЬНОЕ ЗАДАНИЕ....................................................................................... 37 Вариант 1 .......................................................................................................................... 37 Вариант 2 .......................................................................................................................... 37

Upload: others

Post on 06-Sep-2020

12 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: !SPSS in examplekafedra.1mgmu.com/images/!SPSS in example.pdfзначениями, например, отрицательными. 5. При повторных обследованиях

       

Пошаговая инструкция по курсу медицинской статистики 

Занятие №1

2

Оглавление  ЗАНЯТИЕ №1 ................................................................................................................................3 

1. SPSS. Структура данных. Ввод и редактирование данных ...............................................3 

2. SPSS. Импорт и экспорт данных........................................................................................11 

Как выходить на сайт европейского бюро ВОЗ и искать там нужные данные .............11 

3. SPSS. Создание переменных с вычислением его начальных значений .........................21 

4. Вычисление частот в Excel. ................................................................................................24 

1.  Расчет частоты значений переменной.....................................................................24 

2.  Расчет чувствительности и эффективности............................................................24 

3.  Вычисление частот в SPSS. .............................................................................................28 

САМОСТОЯТЕЛЬНОЕ ЗАДАНИЕ.......................................................................................37 

Вариант №1 ..........................................................................................................................37 

Вариант №2 ..........................................................................................................................37 

Page 2: !SPSS in examplekafedra.1mgmu.com/images/!SPSS in example.pdfзначениями, например, отрицательными. 5. При повторных обследованиях

3

ЗАНЯТИЕ №1 

1. SPSS. Структура данных. Ввод и редактирование данных 

SPSS – один из наиболее популярных пакетов для анализа медико-биологических данных. Второй пакет – Statistica – очень близок и по возможностям, и по технологии работы. Термин «пакет» означает, что к нему можно подгружать новые модули, реализующие дополнительные функции.

Имеется достаточно много версий пакета SPSS, и каждые год-два выходит новая, но и по возможностям, и по технологии работы они отличаются очень мало.

Также большим плюсом пакета SPSS является то, что формат файла с данными уже очень давно не менялся, поэтому можно не заботиться о проблемах совместимости.

Данные сохраняются в файлах с расширением .sav. Кроме того, можно пользоваться дополнительным форматом .por, который «понимает» и пакет Statistica, что дает возможность использовать для анализа данных оба пакета. Кроме «родных» форматов .sav и .por пакет SPSS может читать данные многих других популярных форматов, включая файлы баз данных, файлы Excel, текстовые файлы и т.д. Однако, использовать для хранения данных эти «внешние» форматы нежелательно, так как в них не сохраняются такие полезные дополнительные возможности, реализованные в статистических пакетах, как этикетки значений, дополнительные, пропущенные значения и пр.

Результаты расчетов (таблицы и графики) выводятся в отдельном окне, его можно сохранять в отдельном файле. Расширение таких файлов - .spo , но формат их уже зависит от версии SPSS.

Данные в SPSS хранятся в виде одной большой таблицы, поэтому при вводе нужно стараться все данные, анализируемые в ходе какой-то работы, представлять именно в виде единой таблицы. Технология работы в статпакетах такова, что выбрать часть данных для работы очень просто, тогда как использовать несколько разных файлов вместе сложно.

Структура данных похожа на файлы базы данных, хотя есть некоторые отличия и дополнительные возможности, а также отличия в терминологии. Например, колонки таблицы называются переменными (variables), а строки – случаями (cases).

Следует время от времени сохранять внесенные изменения, так как автосохранения здесь нет. Для быстрого сохранения достаточно нажать кнопку с изображением дискетки.

4

Если Вам необходимо создать новую таблицу и в дальнейшем вводить данные «руками», то первым шагом должно быть определение списка переменных. При этом желательно придерживаться следующих правил:

1. Первой переменной должна быть номер по порядку. Дело в том, что при анализе данных (особенно при поиске ошибок) удобно сортировать таблицу по значению переменных. Тогда для того, чтобы восстановить исходный порядок достаточно пересортировать данные по значению переменной номер по порядку.

2. Вся информация об исследуемых объектах должна быть закодирована в виде значений переменных. Например, если имеются две группы больных, то должна быть введена переменная «номер группы», в которой 1 будет соответствовать первой группе, а 2 – второй.

3. Для числовых переменных следует вводить именно само значение, а не его округленное значение или групповую принадлежность

4. Если данные определены не для всех испытуемых, то значение просто пропускается, оставляя пустое место. Однако, значения могут отсутствовать по различным причинам, которые нужно учитывать при анализе. В этом случае отсутствие информации следует кодировать невозможными значениями, например, отрицательными.

5. При повторных обследованиях для ввода результатов, следует завести отдельные переменные

6. В каждой переменной должно быть только одно значение или ничего, если оно не определено.

В 9 версии пакета SPSS для создания новой переменной надо было поставить курсор в самую левую из пустых колонок и выполнить команду Data/Define Variables, после чего ввести имя переменной и, нажимая на кнопки на форме определения ее свойств, задать ее свойства.

В последующих версиях пакета SPSS для создания новых переменных или изменения свойств существующих нужно щелкнуть по ярлычку «Variable view» в левом нижнем углу и работать с формой, похожей на форму задания свойств полей в Access.

Page 3: !SPSS in examplekafedra.1mgmu.com/images/!SPSS in example.pdfзначениями, например, отрицательными. 5. При повторных обследованиях

5

Для определения имени переменной можно использовать до 8 символов русского или латинского языка (прописные и строчные буквы не различаются) и цифр, при этом первый символ должен быть буквой, а имена разных переменных – различными.

Русские буквы в определении переменных использовать крайне не желательно, так как при дальнейшей работе при построении графиков и таблиц SPSS меняет шрифты и вместо русских названий переменных получается нечто совершенно нечитаемое.

Русские буквы можно для задания этикеток переменных, необходимо в главном меню пакета SPSS открыть пункт View далее Fonts , далее в окне Шрифт выбрать шрифт, начертание, размер шрифта, а главное Набор символов – Кириллица.

6

Крайне нежелательно использовать дополнительные символы. Например, знак подчеркивания использовать можно, а пробел и точку нельзя. SPSS в этой части сделан неаккуратно, так что бывает, что на этапе создания задать такое имя можно, а использовать в расчетах переменную с таким именем – нельзя.

После ввода имени переменной нужно определить ее тип и формат, а также в случае необходимости внести комментарий к переменной и поместить на нее этикетку.

В качестве первой переменной задайте переменную с именем nomer (это будет номер по порядку) определите ее как числовую с форматом width=4 и decimal placed=0(width-общее количество знаков, включая запятую, если она есть; decimal placed – количество знаков после запятой).

Вторую переменную fio используйте для того, чтобы задать фамилию, имя и отчество. Задайте ее как текстовую переменную с именем fio длиной в 25 символов.

Третью переменную, которая задает пол пациента, определите как числовую pol с форматом width=1 и decimal placed=0. Для этой переменной желательно иметь этикетки, которые напомнят вам каким числом закодирован какой пол. Для задания этикеток в строке задания переменной открыть ячейку Values. В появившемся окне в поле с заголовком Value надо ввести числовое значение, а поле в Value Label - текст этикетки значения. После этого нажмите на кнопку Add , которая станет доступна только после ввода значения этикетки

Третью переменную задайте как vozrast, тоже числовую целую длиной в 3 символа.

При определении формата числовой переменной нужно учитывать, что это – формат отображения значения переменной, а не ее хранения. Если ввести значение возраста в 18,8, то показываться он будет как 19, а обрабатываться – как 18,8. Однако если через буфер обмена копировать введенные данные в другие программы, то копироваться будет именно то, что отображается, а не что хранится.

Page 4: !SPSS in examplekafedra.1mgmu.com/images/!SPSS in example.pdfзначениями, например, отрицательными. 5. При повторных обследованиях

7

Для того,чтобы задать рост и вес пациента определите переменные rost и ves. Определяя эти переменные необходимо четко представлять какое количество знаков вам необходимо. Например, если вводить вес в килограммах с точностью до одного знака после запятой, то определяем width=5, так как требуется 3 знака под килограммы, один – под граммы и еще один – под десятичную запятую. Если предполагается ввод отрицательных чисел, то нужно предусмотреть еще и один символ под знак минус.

Следующей переменной закодируйте цвет глаз. Для этого создайте новую числовую переменную glaza, перейдя на задание этикеток, в качестве имени переменной задайте цвет глаз (если разные, то правого), после чего введите этикетки значений в порядке нарастания содержательного признака, например, степени пигментации.

Для кодировки цвета волос создайте числовую переменную volosy, отведите для нее 2 знака. Установите этикетки значений в порядке нарастания степени пигментации волос. Поскольку крашеные и седые это не цвет волос, а его отсутствие или изменение, то можно закодировать их невозможными (например, отрицательными - -1, -2) значениями, а для лысых предусмотреть нулевое значение.

8

Обычной ситуацией при анализе данных является то, что не все данные на все объекты известны. Наиболее простой способ указать, что данные неизвестны – пропустить клеточку таблицы при вводе данных, однако есть альтернативный способ. Можно ввести туда некоторые значения, невозможные для обычных значений, а потом объявить их отсутствующими. Например, при импорте данных из пакета Statistica пропущенные числовые данные оказываются закодированными числом -99999, и в SPSS надо указать, что это – пропущенные данные.

Для отработки умения создайте переменную menarhe (Менархе время первой менструации), определите ее как целую числовую из двух знаков. Определите возможные причины отсутствия значения переменной (от ненадлежащего пола до хронической беременности). Пусть эти значения будут закодированы определенными отрицательными значениями.

Page 5: !SPSS in examplekafedra.1mgmu.com/images/!SPSS in example.pdfзначениями, например, отрицательными. 5. При повторных обследованиях

9

Перейдя в колонкуMissing можно задать диапазон пропущенных значений. Активизируем опцию Missing Values и задаем их.

По умолчанию пропущенных значений нет (None). Если выбрать вариант «Discrete missing values», то активизируется несколько окошек, в которые можно ввести одно или несколько дополнительных пропущенных значений. При выборе «Range of missing values» задается интервал, в котором лежат пропущенные значения.

В SPSS существуют два разных режима показа введенных числовых данных. В одном из них в таблице видны введенные числовые значения, в другом – этикетки

10

значений (если они определены). Переход между этими режимами осуществляется нажатием кнопки «Value Label» с изображением бирки, расположенной на панели элементов (вторая справа).

Вернитесь из режима определения переменных в режим ввода щелчком по ярлыку «Data View» в левом нижнем углу окна

Введите данные на нескольких виртуалов.

Путем щелчка по кнопке показа этикеток переключитесь между режимами показа этикеток и значений.

Page 6: !SPSS in examplekafedra.1mgmu.com/images/!SPSS in example.pdfзначениями, например, отрицательными. 5. При повторных обследованиях

11

Раскопировать содержимое ячейки можно стандартным приемом: выделить содержимое ячейки, скопировать выделенный фрагмент в буфер обмена, выделить несколько ячеек в одном столбике и вставить из буфера.

Сохраните введенные данные в файле формата SPSS (с расширением .sav).

Сохраните введенные данные также как книгу Excel.

Откройте ее, данные сохраняются в очень древней версии и довольно коряво. Если в дальнейшем вам будет необходимо сохранить данные подготовленные в Excel, то сохранять их надо в максимально древней версии и без «излишеств».

2. SPSS. Импорт и экспорт данных 

Для анализа данных необходимо получить их из европейского бюро Всемирного Общества Здравоохранения (в дальнейшем будем именовать ВОЗ)

Как выходить на сайт европейского бюро ВОЗ и искать там нужные данные Запустите Интернет, войдите в Яндекс. В строке поиска вводим «Европейское отделение ВОЗ». Получаем список ссылок:

Набор и последовательность строк может меняться. Вам необходимо найти ссылку на европейскую базу «Здоровье для всех». Сейчас нужный вам вариант – второй. Щелкайте по этой ссылке или перейдите по адресу:

http://www.euro.who.int/ru/what-we-do/data-and-evidence/databases/european-health-for-all-database-hfa-db2

12

открывается следующее окно:

Переходите на сайт. Выберите строку «Базы данных»:

После этого появляется довольно много текста. Прокрутите страницу вниз, чтобы найти нужную ссылку, и щелкнете по ссылке на Европейскую базу «Здоровье для всех»:

Page 7: !SPSS in examplekafedra.1mgmu.com/images/!SPSS in example.pdfзначениями, например, отрицательными. 5. При повторных обследованиях

13

Переходите на сайт. Щелкаем по строке «Базы данных»:

В правом верхнем углу щелкните по «русский» - поменяйте язык. После этого щелкните по «Выбор параметров»:

14

В появившейся странице щелкните по крестику рядом с папкой 02 СМЕРТНОСТЬ

Поставьте галочку рядом с ожидаемой продолжительностью жизни. Потом ставьте галку на 2009 году и нажимаем на кнопку «Да»:

Page 8: !SPSS in examplekafedra.1mgmu.com/images/!SPSS in example.pdfзначениями, например, отрицательными. 5. При повторных обследованиях

15

Щелкните на команде «Таблицы» и выберите «Таблица А»:

В появившейся таблице выделите ее и скопируем в Excel:

16

Вернитесь в базу данных (закройте вкладку со скопированной таблицей) и снимите галку с ожидаемой продолжительности жизни:

Прокрутите список вниз:

Page 9: !SPSS in examplekafedra.1mgmu.com/images/!SPSS in example.pdfзначениями, например, отрицательными. 5. При повторных обследованиях

17

Щелкните по крестику рядом с 07 ДЕЯТЕЛЬНОСТЬ…

Прокрутите вниз и поставьте галочку рядом со строкой 6730

18

Нажмите кнопку Да. Дальнейшая работа с таблицей – как ранее

В таблице в качестве разделителя десятичных знаков используется точка, в программах Excel и Spss – запятая. Для дальнейшего использования таблицы в программах Excel и Spss таблицу необходимо отредактировать.. Перенесите таблицу в редактор Word, воспользуйтесь автозаменой и замените точку на запятую:

В пустые клеточки, которые были обозначены тремя точками также записались три запятые. Воспользуйтесь тем же приемом и замените три запятые на пустую ячейку.

Page 10: !SPSS in examplekafedra.1mgmu.com/images/!SPSS in example.pdfзначениями, например, отрицательными. 5. При повторных обследованиях

19

Выделите полученную таблицу и перенесите в Excel, сохраните его под новым именем в максимально древней версии. Этот файл отражает данные по ожидаемой продолжительности жизни и подушевого финансирования здравоохранения.

Откройте этот файл в пакете SPSS. Командой Graf/Scatter постройте график совместного распределения. При этом по оси X берем расходы на здравоохранение, а по оси Y – продолжительность жизни.

Так как при построении графиков и таблиц пакет SPSS меняет шрифты, на полученном графике надписи на русском языке будут нечитаемы. Чтобы изменить надписи, добейтесь ее выделения и поменяйте на надпись на английском языке или используя транслитерацию запишите русские слова английскими буквами. Использовать буквы русского алфавита нежелательно.

20

EXHTNSES

9080706050403020

LO

NG

TIM

E L

IFE

84

82

80

78

76

74

72

70

68

Проанализируйте полученную закономерность и объясните каким образом, (по крайней мере для Европы) такой фактор как продолжительность жизни, связан с уровнем финансирования здравоохранения, а «приверженность граждан здоровому образу жизни», и вариант организации здравоохранения и пр. уже менее существенны.

Найдите Россию, расходы на здравоохранение – 64,44 , а продолжительность жизни – 68,76 . В области, соответствующей России, определите угол наклона кривой, по

Page 11: !SPSS in examplekafedra.1mgmu.com/images/!SPSS in example.pdfзначениями, например, отрицательными. 5. При повторных обследованиях

21

нему определите, на сколько нужно увеличить финансирование здравоохранения, чтобы увеличить продолжительность жизни на год.

3. SPSS. Создание переменных с вычислением его начальных значений Довольно часто при анализе данных нужно работать с переменными, значение

которых можно вычислить по значению других переменных. Например, при анализе состава клеток крови можно ввести количество клеток того или другого типа, а потом перевести их в доли от общего числа. При этом не надо делать это «руками» - SPSS может сделать это сам.

С помощью команды Transform/Compute можно вычислять переменные на основе уже введенных переменных. Имя новой переменной должно быть записано в строке Target Variable , при этом, следует иметь в виду, что, если имя переменной совпадает с уже существующей, то данные новой переменной будут записаны на место старой. В окне Numeric Expression: формируется формула для расчета переменной. В столбце слева можно выбрать переменные, которые участвуют в вычислении и перенести в формулу с

помощью стрелки вправо , знаки математических функций и цифры расположены в центре, а справа список функций, которые также могут быть использованы в вычислении.

Обратите внимание: 22

если будут добавляться новые случаи или меняться исходные данные в таблице, то автоматического перевычисления в новой переменной происходить не будет – его надо делать еще раз.

при закрытии SPSS формулы Transform/Compute забываются, поэтому имеет смысл хранить их в специальном текстовом файле (формулы – текст, который можно копировать, вставлять и править)

Откройте файл, созданный ранее, с данными на «виртуалов». Выполните команду Transform/Compute и по имеющимся данным о росте и весе вычислим росто-весовой коэффициент как вес, деленный на квадрат роста в метрах. Так как рост задан в сантиметрах, то при вычислении нужно рост разделить на 100.

Проанализируйте полученные значения (норма росто-весового индекса – от 23 до 26).

Откройте файл Pnevmo.sav, сохраните его под своим именем в своей папке, вычислите новую переменную age10, получающуюся округлением возраста (переменная age of patient) до 10 лет. Для округления возраста используйте функцию TRUNC.

Page 12: !SPSS in examplekafedra.1mgmu.com/images/!SPSS in example.pdfзначениями, например, отрицательными. 5. При повторных обследованиях

23

Но функция TRUNC позволяет округлять только с фиксированным шагом, тогда как часто нужно вычислять групповую принадлежность с переменным шагом. Например, переменную возраст нужно разбить на группы: 1 группа – до 17 лет включительно, 2 – 18-27, 3 – 28-59, 4 – 60 и старше. Для этого создайте переменную возгр, вычислив ее значения по формуле: 1+(age>17)+(age>27)+(age>59).

Из переменных sex of patient и «умер» сделайте новую переменную ПОЛИУМЕР по формуле 10*sex+умер. Выясните, какое значение соответствует умершим мужчинам, какое – выжившим мужчинам, какое – умершим женщинам и какое – выжившим женщинам.

24

4. Вычисление частот в Excel. 

1. Расчет частоты значений переменной Расчет частоты значений переменной – простая базовая операция статистического анализа. Если при N наблюдениях событии наблюдалось в n случаях, то частота события равна n/N.

Для проведения расчета частот откройте электронную таблицу Excel. Заполните ее в соответствии с образцом:

Например, общее число студентов 45 запишите в ячейку A2, число студентов сдавших зачет вовремя 12 запишите в ячейку B2. В ячейку C2 запишите формулу расчета частоты успеха: =B2/A2. После нажатия клавиши Enter в ячейке С2 будет записан результат счета. Если поставить курсор в ячейку с полученным числом, то в строке формул появится формула.

2. Расчет чувствительности и эффективности. 

Клинические тесты, используемые в клиническом обследовании — не идеальны. Всегда остается вероятность того, что результаты диагностического исследования не отражают объективное наличие или отсутствие заболевания.

Обычно для любого клинического теста существует несколько (в различной степени точных) альтернатив. Различная доступность, стоимость, безопасность (а также факторы

Page 13: !SPSS in examplekafedra.1mgmu.com/images/!SPSS in example.pdfзначениями, например, отрицательными. 5. При повторных обследованиях

25

времени и здравого смысла) ограничивают широкое применение тех или иных методов обследования.

Для каждого заболевания существует «золотой стандарт диагностики» — наиболее точный диагностический метод, с помощью которого можно установить наличие или отсутствие данного заболевания. Как правило, применение эталонного метода диагностики ограничивается его неудобствами — от высокого риска осложнений до стоимости.

C развитием знаний и технологий один эталонный метод может быть сменен другим. Сравнивая новый, более точный метод со старым стандартным будут выявляться дополнительный позитивные и негативные результаты. Эти результаты будут лишь казаться ложно-позитивными и ложно-негативными. Как определить насколько хорош новый метод относительно старого стандартного? Один из подходов — рассчитать долю пациентов с нормальным и патологическим результатом, которые действительно правильно диагностированы этим тестом. Термины позитивный результат теста и негативный результат теста используются в их обычном значении — для обозначения наличия или отсутствия заболевания соответственно.

Для иллюстрации построим таблицу, отражающую результаты экспериментальной проверки.

Расчет чувствительности и специфичности.

Предположение о наличии болезни Болезнь Нет Есть Всего Нет A B A+B Есть C D C+D Всего A+C B+D A+B+C+D В таблице используются следующие обозначения:

A – количество истинных отрицательных диагнозов;

B – количество ложноположительных диагнозов;

C – количество ложноотрицательных диагнозов;

D – количество истинных положительных диагнозов.

В этом случае доля правильных диагнозов будет равна (A+D)/(A+B+C+D), а доля неправильных диагнозов – (B+C)/(A+B+C+D).

Ошибки диагностики могут быть как за счет ложноположительных, так и за счет ложноотрицательных диагнозов. Для более точного описания качества диагностики используют понятия «чувствительность» и «специфичность».

Чувствительность определяют как D/(C+D), т.е. доля больных, у которых был поставлен диагноз о наличии болезни.

Специфичность определяют как A/(A+B), т.е. долю здоровых, у которых предполагалось отсутствие болезни.

26

Чувствительный тест часто дает положительный результат при наличии заболевания (обнаруживает его). Однако, особенно информативен он, когда дает отрицательный результат, т.к. редко пропускает пациентов с заболеванием.

Специфичный тест редко дает положительный результат при отсутствии заболевания. Особенно информативен при положительном результате, подтверждая (предположенный) диагноз.

С точки зрения пациента более интересны другие соотношения.

Частота заболевания равна (B+D)/(A+B+C+D).

Частота наличия заболевания при положительном диагнозе равна D/(B+D).

Частота наличия заболевания при отрицательном диагнозе равна C(A+C).

Отношение шансов при положительном и отрицательном диагнозе равно (D/(B+D))/(C/(A+C)).

Если рассматривать лиц, у которых имеется предположение о болезни, как группу риска, а лиц, у которых имеется предположение об отсутствии болезни, - как группу сравнения, то это отношение шансов есть относительный риск.

Рассмотрим пример. Пусть в рамках программы выявления рака молочной железы у женщин старшей возрастной группы в результате маммографии были получены следующие результаты:

Предположение о наличии болезни Болезнь Нет Есть Всего Нет 1257 118 1375 Есть 2 24 26 Всего 1259 142 1401 В таблице Excel рассчитайте чувствительность и специфичность, частоту заболевания, вероятность заболевания при положительном и отрицательном диагнозе, относительный риск заболевания. Сделайте выводы.

Решение об оперативном лечении принимается обычно на основании нескольких исследований. Первичные тесты, обычно выведенные на максимальную чувствительность, называется скрининговыми. Из-за этого скрининговые иммунологические тесты очень часто ошибаются в необычных случаях, например, у беременных, у которых иммунологические реакции заметно отличаются от «нормы».

Задача скрининговых тестов – захватить максимально широко, по возможности никого не пропустив, с тем, чтобы предварительный диагноз можно было подтвердить или опровергнуть уже другим, сбалансированным тестом. При наличии положительного первичного диагноза проводятся повторные исследования. Достаточно часто для постановки диагноза используется не один тест, а два или более, причем второй и следующие применяются в том случае, когда первый тест дал положительный результат.

Page 14: !SPSS in examplekafedra.1mgmu.com/images/!SPSS in example.pdfзначениями, например, отрицательными. 5. При повторных обследованиях

27

Для проверки правильности своих расчетов можно воспользоваться таблицей расчета доверительных границ для частот и относительных рисков. Войдите в Интернет, зайдите на проект 1mgmu.com

28

3. Вычисление частот в SPSS. Откройте копию файла пневмония.sav. Таблица данных пневмония это – фактические данные (на которых была защищена диссертация на соискание кмн) по одной из обычных московских больниц.

1) Рассчитайте частоту встречаемости значений переменной УМЕР командой Analyze / Descriptive Statistics / Frequencies.

Обратите внимание, что результаты расчетов отображаются в отдельном листе, и, для возврата в режим редактирования данных, нужно переключиться в окно редактора.

Page 15: !SPSS in examplekafedra.1mgmu.com/images/!SPSS in example.pdfзначениями, например, отрицательными. 5. При повторных обследованиях

29

В полученной таблице УМЕР в первой строке просчитано количество пациентов выживших (значение случайной величины - ,00) после заболевания пневмонией – 923, что составляет 89,4 процента от числа пациентов у которых была определена случайная величина УМЕР - 89,5 процента от общего числа пациентов. Во второй строке записано количество умерших пациентов (значение случайной величины 1,00) – 108, что составляет 10,5 процентов. В третьей строке просчитано количество пациентов у которых было определено значение УМЕР – 1031 и это 99,9 процента. Не определено значение УМЕР только для 1 пациента. Всего пациентов в таблице – 1032.

УМЕР

Frequency Percent Valid Percent Cumulative

Percent ,00 923 89,4 89,5 89,51,00 108 10,5 10,5 100,0

Valid

Total 1031 99,9 100,0 Missing System 1 ,1 Total 1032 100,0

Полученные величины летальности больных пневмонией свидетельствуют о том, что пневмония – это довольно грозное заболевание с высокой степенью смертности.

2) Рассчитайте частоты встречаемости переменной age of patient (возраст пациента) командой Analyze / Descriptive Statistics / Frequencies.

age of patient

Frequency Percent Valid Percent Cumulative

Percent 15 7 ,7 ,7 ,716 5 ,5 ,5 1,217 10 1,0 1,0 2,118 15 1,5 1,5 3,619 9 ,9 ,9 4,520 9 ,9 ,9 5,321 9 ,9 ,9 6,222 6 ,6 ,6 6,823 8 ,8 ,8 7,624 9 ,9 ,9 8,425 10 1,0 1,0 9,426 9 ,9 ,9 10,327 5 ,5 ,5 10,828 8 ,8 ,8 11,529 4 ,4 ,4 11,930 5 ,5 ,5 12,431 13 1,3 1,3 13,732 8 ,8 ,8 14,4

Valid

33 8 ,8 ,8 15,2

30

34 6 ,6 ,6 15,835 7 ,7 ,7 16,536 10 1,0 1,0 17,437 10 1,0 1,0 18,438 11 1,1 1,1 19,539 8 ,8 ,8 20,340 22 2,1 2,1 22,441 21 2,0 2,0 24,442 20 1,9 1,9 26,443 23 2,2 2,2 28,644 14 1,4 1,4 29,945 10 1,0 1,0 30,946 21 2,0 2,0 32,947 19 1,8 1,8 34,848 22 2,1 2,1 36,949 17 1,6 1,6 38,650 23 2,2 2,2 40,851 19 1,8 1,8 42,652 22 2,1 2,1 44,853 20 1,9 1,9 46,754 18 1,7 1,7 48,455 17 1,6 1,6 50,156 28 2,7 2,7 52,857 26 2,5 2,5 55,358 14 1,4 1,4 56,759 8 ,8 ,8 57,560 12 1,2 1,2 58,661 13 1,3 1,3 59,962 23 2,2 2,2 62,163 19 1,8 1,8 64,064 21 2,0 2,0 66,065 25 2,4 2,4 68,466 15 1,5 1,5 69,967 10 1,0 1,0 70,868 18 1,7 1,7 72,669 10 1,0 1,0 73,570 18 1,7 1,7 75,371 23 2,2 2,2 77,572 21 2,0 2,0 79,673 23 2,2 2,2 81,874 17 1,6 1,6 83,475 23 2,2 2,2 85,776 25 2,4 2,4 88,177 19 1,8 1,8 89,978 24 2,3 2,3 92,279 15 1,5 1,5 93,780 9 ,9 ,9 94,681 7 ,7 ,7 95,382 7 ,7 ,7 95,983 9 ,9 ,9 96,884 4 ,4 ,4 97,285 2 ,2 ,2 97,486 1 ,1 ,1 97,5

Page 16: !SPSS in examplekafedra.1mgmu.com/images/!SPSS in example.pdfзначениями, например, отрицательными. 5. При повторных обследованиях

31

87 5 ,5 ,5 98,088 4 ,4 ,4 98,489 4 ,4 ,4 98,790 8 ,8 ,8 99,592 2 ,2 ,2 99,793 2 ,2 ,2 99,995 1 ,1 ,1 100,0Total 1032 100,0 100,0

В первой колонке таблицы записан возраст пациентов, во второй (Frequency) частота встречаемости каждого возраста, в третьей(Percent) – процент от общего числа пациентов, в четвертой(Valid Percent) – процент, который составляет данная частота от количества пациентов , если принять число пациентов у которых была определена случайная величина возраст за 100 процентов, в пятой(Cumulative Percent) – частота нарастающим итогом.

3) Округлим переменную возраст (age of patient) до 10 лет.

Рассчитайте частоту переменной округленного возраста. В результате получаем более компактную таблицу.

AGE10

Frequency Percent Valid Percent Cumulative

Percent 10,00 46 4,5 4,5 4,520,00 77 7,5 7,5 11,930,00 86 8,3 8,3 20,340,00 189 18,3 18,3 38,650,00 195 18,9 18,9 57,5

Valid

60,00 166 16,1 16,1 73,5

32

70,00 208 20,2 20,2 93,780,00 52 5,0 5,0 98,790,00 13 1,3 1,3 100,0Total 1032 100,0 100,0

4) Постройте частотную диаграмму (Graph / Bar / Simple / Define) переменной age of patient:

age of patient

92

87

83

79

75

71

67

63

59

55

51

47

43

39

35

31

27

23

19

15

Co

un

t

30

20

10

0

В полученной диаграмме шаг в один год – слишком мелкий. Построим гистограмму этой переменной(Graph / Histogram):

Page 17: !SPSS in examplekafedra.1mgmu.com/images/!SPSS in example.pdfзначениями, например, отрицательными. 5. При повторных обследованиях

33

age of patient

95,090,0

85,080,0

75,070,0

65,060,0

55,050,0

45,040,0

35,030,0

25,020,0

15,0

120

100

80

60

40

20

0

Std. Dev = 18,57

Mean = 54,5

N = 1032,00

обратите внимание на то, что результат получился более обобщенный, но при построении гистограмм нет дополнительных возможностей, которые есть при построении диаграммы. Для графической иллюстрации частотного распределения двух переменных в SPSS используется команда Graphs / Bar . Помимо простого (Simple) варианта построения диаграммы, имеются также Clustered (строится не одна, а несколько частотных диаграмм) и Stacked (столбцы частотной диаграммы делятся на части, соответствующие разным переменным).

Постройте частотную диаграмму возраста, округленного до 10 (age10), кластеризованную и стеккеризированную по полу(Graphs / Bar / Clustered(Stacked)) и исходу (переменная УМЕР).

34

AGE10

90,00

80,00

70,00

60,00

50,00

40,00

30,00

20,00

10,00

Co

un

t

140

120

100

80

60

40

20

0

sex of patient

male

female

AGE10

90,00

80,00

70,00

60,00

50,00

40,00

30,00

20,00

10,00

Co

un

t

300

200

100

0

sex of patient

female

male

Page 18: !SPSS in examplekafedra.1mgmu.com/images/!SPSS in example.pdfзначениями, например, отрицательными. 5. При повторных обследованиях

35

AGE10

90,00

80,00

70,00

60,00

50,00

40,00

30,00

20,00

10,00

Co

un

t

200

100

0

УМЕР

Missing

,00

1,00

AGE10

90,00

80,00

70,00

60,00

50,00

40,00

30,00

20,00

10,00

Co

un

t

300

200

100

0

УМЕР

1,00

,00

Missing

Глядя на полученные графики можно предположить некоторые закономерности:

предположим, что количество заболевших женщин с возрастом возрастает.

предположим, что число умерших пациентов с возрастом возрастает. 5) Скопируйте полученные таблицы и графики через буфер обмена в Word и Excel. 6) Рассчитайте совместную встречаемость значений переменных УМЕР и sex of

patient командой Analyze / Descriptive Statistics / Crosstabs:

36

sex of patient * УМЕР Crosstabulation

Count

УМЕР

,00 1,00 Total

male 559 75 634 sex of patient female 364 33 397 Total 923 108 1031

Скопируйте таблицу совместного распределения в Excel, рассчитайте частоту летального исхода у мужчин и женщин. Для этого рядом со столбцом Total добавьте еще один столбец Частота. Частота рассчитывается, как отношение числа исследуемых случаев к общему числу случаев, т.е., в нашем случае 75/634

Постройте график по полученным частотам:

Таким образом из полученного графика следует, что частота летального исхода у женщин меньше, чем у мужчин.

Page 19: !SPSS in examplekafedra.1mgmu.com/images/!SPSS in example.pdfзначениями, например, отрицательными. 5. При повторных обследованиях

37

САМОСТОЯТЕЛЬНОЕ ЗАДАНИЕ 

Вариант №1 Создать переменную «Частота пульса больше 100». Рассчитать ее совместное распределение с переменной «Умер».

Если считать, что умирают те, у кого в момент госпитализации пульс больше 100, то рассчитать чувствительность и специфичность метода, вероятность смерти при положительном и отрицательном диагнозе и относительный риск.

Округлить переменную «частота пульса» с шагом в 5 ударов. Создать частотную диаграмму, стэккерезированную по летальному исходу. Рассчитать таблицу совместного распределения этой переменной с переменной «Умер», скопировать в Excel, рассчитать и построить график частоты летального исхода в зависимости от частоты пульса.

Вариант №2 Создать переменную «Температура в момент госпитализации не выше 36,6». Рассчитать ее совместное распределение с переменной «Умер».

Если считать, что умирают те, у кого в момент госпитализации температура нормальная или пониженная, то рассчитать чувствительность и специфичность метода, вероятность смерти при положительном и отрицательном диагнозе и относительный риск.

Округлить переменную «температура» с шагом в полградуса. Создать частотную диаграмму, стэккерезированную по летальному исходу. Рассчитать таблицу совместного распределения этой переменной с переменной «Умер», скопировать в Excel, рассчитать и построить график частоты летального исхода в зависимости от температуры в момент госпитализации.

38

Занятие №2

оглавление

Оглавление I. Условные вероятности. Априорная и апостериорная вероятность. ...........................39

II. Независимые события. .....................................................................................................41

III. Проверка статистических гипотез. Статистическую достоверность.......................43

IV. Использование критерия «хи-квадрат» ......................................................................55

1. Определение достоверности отличия набора частот от набора вероятностей. ......55

2. Определение достоверности отличия нескольких наборов частот..........................62

V САМОСТОЯТЕЛЬНОЕ ЗАДАНИЕ................................................................................69

Page 20: !SPSS in examplekafedra.1mgmu.com/images/!SPSS in example.pdfзначениями, например, отрицательными. 5. При повторных обследованиях

39

ЗАНЯТИЕ №2

I. Условные вероятности. Априорная  и апостериорная вероятность. 

Случайная величина задается тремя объектами: множеством элементарных событий, множеством событий и вероятностью событий. Те значения ,которые может принимать случайная величина, называются элементарными событиями. Наборы элементарных событий называются событиями. Для числовых и других не очень сложных случайных величин любой конкретно заданный набор элементарных событий есть событие.

Приведем пример: бросание игральной кости.

Всего имеется 6 элементарных событий: «очко», «2 очка», «3 очка»… «6 очков». Событие – любой набор элементарных событий, например «чет» -сумма элементарных событий «2 очка», «4 очка» и «6 очков».

Вероятность любого элементарного события P(A) равна 1/6:

вероятность события – количеству входящих в него элементарных событий, деленному на 6.

Достаточно часто в добавление к известной вероятности события имеется некоторая дополнительная информация, которая меняет эту вероятность. Например, летальность больных. поступивших в больницу с острой кровоточащей язвой желудка, составляет около 10%. Однако, если больному больше 80 лет, эта летальность составляет 30%.

Для описания таких ситуаций были введены так называемые условные вероятности. Они обозначаются, как P(A/B) и читаются «вероятность события А при условии события В». Для вычисления условной вероятности используется формула:

Вернемся к предыдущему примеру:

Пусть среди больных, поступивших в больницу с острой кровоточащей язвой желудка 20% - больные старше 80 лет. Причем, среди всех больных доля умерших больных старше 80 лет – 6%(напомним, что доля всех умерших составляет 10%). В этом случае

40

При определении условных вероятностей часто пользуются терминами априорной (буквально – до опыта) и апостериорной (буквально – после опыта) вероятности.

Пользуясь условными вероятностями, можно по одним вероятностям вычислить другие, например, менять местами событие и условие.

Рассмотрим эту технику на примере анализа связи риска заболевания ревматизма (ревматической лихорадкой) и одного из антигенов, являющихся для него фактором риска.

Частота заболевания ревматизмом – около 1%. Обозначим наличие ревматизма как R+ , тогда как P(R+)=0,01.

Наличие антигена будем обозначать, как А+. Его находят у 95% больных ревматизмом и у 6% лиц, ревматизмом не болеющих. В наших обозначениях это: условные вероятности Р(А+/R+)=0,95 и Р(А+/R-)=0,06.

На основании этих трех вероятностей будем последовательно определять другие вероятности.

Прежде всего, если заболеваемость ревматизмом P(R+)=0,01, то вероятность не заболеть P(R-)=1- P(R+)=0,99.

Из формулы для условной вероятности находим, что

Р(А+ и R+)= Р(А+/R+) * Р(R+) = 0,95*0,01 = 0,0095, или 0,95% популяции одновременно и болеют ревматизмом и имеют антиген.

Аналогично

Р(А+ и R-)= Р(А+/R-) * Р(R-) = 0,06*0,99 = 0,0594, или 5,94% популяции носят антиген, но ревматизмом не болеют.

Так как все имеющие антиген или болеют ревматизмом или и не болеют (но не одновременно и то и другое), то сумма двух последних вероятностей дает частоту носительства антигена в популяции в целом:

Р(А+)= Р(А+ и R+) + Р(А+ и R-) = 0,0095 + 0,0594 = 0,0689

Соответственно, доля людей, не имеющих антиген равна

Р(А-)=1- Р(А+) = 0,9311

Так как заболеваемость ревматизмом равна 1%, а доля лиц, имеющих антиген и болеющих ревматизмом, равна 0,95%, то доля лиц, болеющих ревматизмом и не имеющих антигена равна:

Р(А- и R+) = Р(R+) - Р(А+ и R+) = 0,01 – 0,0095 = 0,0005

Теперь будем двигаться в обратную сторону, переходя от вероятностей событий и их комбинаций к условным вероятностям. По исходной формуле

Page 21: !SPSS in examplekafedra.1mgmu.com/images/!SPSS in example.pdfзначениями, например, отрицательными. 5. При повторных обследованиях

41

условной вероятности Р(А+/R+)= Р(R+ и A+)/ Р(А+ ) = 0,0095/0,0689 0,1379 , или примерно 13,8% лиц, носящих антиген, заболеют ревматизмом. Так как заболеваемость популяции в целом лишь 1%, то факт выявления антигена повышает вероятность заболевания ревматизмом в 14 раз.

Аналогичным образом Р(R+ /А-)=Р(R+ и A-)/ Р(А-) = 0,0005/0,9311 0,000054, то есть тот факт, что при проверке антигена не обнаружено, снижает вероятность заболевания ревматизмом в 19 раз.

Оформим эту задачу в электронной таблице Excel:

Наличие ревматизма R+ P(R+) 0,01

Наличие антигена у болеющих А+ Р(А+/R+) 0,95

Наличие антигена у неболеющих А+ Р(А+/R-) 0,06

Вероятность не заболеть P(R-)=1- P(R+) 0,99

Одновременно и болеют ревматизмом и имеют антиген Р(А+ и R+)= Р(А+/R+) * Р(R+) 0,0095 Носят антиген, но ревматизмом не болеют Р(А+ и R-)= Р(А+/R-) * Р(R-) 0,0594 Частота носительства антигена в популяции в целом Р(А+)= Р(А+ и R+) + Р(А+ и R-) 0,0689

Доля людей не имеющих антиген Р(А-)=1- Р(А+) 0,9311

Доля людей, болеющих ревматизмом и не имеющих антигена Р(А- и R+) = Р(R+) - Р(А+ и R+) 0,0005 Лица, носящие антиген, заболеют ревматизмом Р(А+/R+)= Р(R+ и A+)/ Р(А+ ) 0,137880987 Лица,не носящие антиген, не заболеют ревматизмом Р(R+ /А-)=Р(R+ и A-)/ Р(А-) 0,000536999

Можно посмотреть процесс построения таблицы картинки2\p2-1.gif

II. Независимые события. 

Определение. События А и В называют независимыми, если вероятность того, что они произойдут одновременно равна произведению вероятностей, то есть P(A и

B)=Р(А)Р(В).

Определение. Случайные величины называют независимыми, если любое событие одной величины не зависят от любого события другой случайной величины

События А и В независимы тогда и только тогда, когда P(A/B) = P(A). Следовательно, для независимых событий условные и безусловные вероятности совпадают. Совпадение условной и безусловной вероятности говорит о том, что то, произошло или нет событие В, не влияет на вероятность того, что произойдет событие А.

Можно также заметить, что независимые события – те, которые не влияют на прогноз. Однако, вопрос о том, что можно считать независимыми событиями, очень

42

сложен. Зависимость же эквивалентна тому, что по одному событию можно прогнозировать другое.

Например, определим вероятность того, что в семье с двумя детьми оба ребенка мальчики. Тогда вероятность рождения мальчика (для каждого из двух мальчиков) равна 0,5, а так как эти события независимы, то вероятность искомого события равна 0,5*0,5=0,25.

Решим ситуационную задачу: Вам необходимо лететь на четырехмоторном самолете, но при осмотре вы замечаете, что моторы работают с явными перебоями. Стюардесса Вас утешает, так как действительно, каждый из моторов примерно на одном из ста рейсов отказывает, но самолет четырехмоторный, а если что, он и на трех моторах долетит. Для принятия решения лететь или нет вычислим некоторые вероятности.

Решим эту задачу в электронной таблице Excel.

Вероятность отказа двигателя равна 0,01, следовательно вероятность того, что он не откажет, равна 0,99. Поэтому вероятность того, что не откажет ни один из двигателей, равна 0,99*0,99*0,99*0,99=0,96059601. Соответственно, вероятность того, что откажет хотя бы один из двигателей равна 1-0,96059601=0,03940399

Далее, вероятность того, что первый из двигателей откажет, а остальные нет, равна 0,01*0,99*0,99*0,99=0,00970299. Такова же вероятность того, что откажет второй , а остальные нет , и так далее. Таким образом, вероятность того, что один из четырех двигателей откажет, а остальные нет, равна 4*0,00970299=0,03881196.

Число моторов  N  4

вероятность отказа одного двигателя  Р(А)  0,01

вероятность того,что двигатель не откажет  Р(не А)=1‐Р(А)  0,99

вероятность того, что  не откажет ни один двигатель  NP(не А)=(1‐Р(А))N  0,96059601

вероятность того, что  не откажет хоть один двигатель  1‐NP(не А)  0,03940399

вероятность того, что 1 из двигателей откажет,а 3 нет  Р(А)*Р(не А)*Р(не А)*Р(не А)  0,00970299

вероятность отказа одного из 4 двигателей  4*Р(А)*Р(не А)*Р(не А)*Р(не А)  0,03881196

Искомая вероятность того, что откажет не более одного двигателя, равна сумме вероятностей того, что не откажет ни один из двигателей, и того, что откажет один из четырех двигателей, то есть 0,96059601+0,03881196 = 0,99940797.

Число моторов  N  4

вероятность отказа одного двигателя  Р(А)  0,01

вероятность того, что двигатель не откажет  Р(не А)=1‐Р(А)  0,99

вероятность того, что  не откажет ни один двигатель  NP(не А)=(1‐Р(А))N  0,96059601

вероятность того, что откажет хоть один двигатель  1‐NP(не А)  0,03940399

Page 22: !SPSS in examplekafedra.1mgmu.com/images/!SPSS in example.pdfзначениями, например, отрицательными. 5. При повторных обследованиях

43

Соответственно, вероятность того, что откажет более одного двигателя, равна 1-0,99940797=0,00059203, или примерно 6 таких отказов на 10 тысяч полетов.

Число моторов  N  4 

вероятность отказа одного двигателя  Р(А)  0,01 

вероятность того,что двигатель не откажет  Р(не А)=1‐Р(А)  0,99 

вероятность того, что  не откажет ни один двигатель  NP(не А)=(1‐Р(А))N  0,96059601 

вероятность того, что  не откажет хоть один двигатель  1‐NP(не А)  0,03940399 

вероятность того, что 1 из двигателей откажет,а 3 нет  Р(А)*Р(не А)*Р(не А)*Р(не А)  0,00970299 

вероятность отказа одного из 4 двигателей  4*Р(А)*Р(не А)*Р(не А)*Р(не А)  0,03881196 

вероятность того, что откажет не более 1 двигателя  NP(не А)+4*Р(А)*Р(не А)*Р(не А)*Р(не А)  0,99940797 

вероятность отказа более 1 двигателя  1‐NP(не А)+4*Р(А)*Р(не А)*Р(не А)*Р(не А  0,00059203 

Но настолько ли независимы независимые события? Действительно, то, что одновременно произойдет несколько редких независимых событий, маловероятно. Однако у них может быть одна общая компонента, и даже если доля этой компоненты в общей частоте отказов каждого агрегата мала, ее вклад может коренным образом повлиять на ситуацию.

Например, если мы анализируем частоты летального исхода у хирургических больных, то кажется естественным считать это независимыми событиями. Однако если часть больных умирает после операции от внутрибольничных инфекций, то факт смерти повышает вероятность смерти других от инфекционных осложнений. Даже ели речь идет только о летальности на операционном столе, то и в этом случае события не являются независимыми. Так, если хирургические больные появляются в результате тяжелых катастроф, стихийных бедствий и т.д., то их летальность выше как вследствие более тяжелого состояния, так и из-за невозможности значительно увеличить объем медицинской помощи без ущерба качеству. Поэтому тот, что случайно взятый больной умер, повышает вероятность того, что он – жертва стихийного бедствия, следовательно, это повышает вероятность того, что и другие – тоже жертвы стихийного бедствия и, следовательно, у них вероятность летального исхода выше.

III. Проверка статистических гипотез. Статистическая достоверность. Так как любые эмпирически известные нам закономерности могут быть случайными совпадениями, то для работы с ними нужно отработать технику использования потенциально неверных заключений.

Общая схема проверки статистической гипотезы такова:

Шаг 1. Принимается на веру некоторая статистическая гипотеза.

Эта гипотеза обычно называется нулевой гипотезой. Примеры статистических гмпотез:

вероятность события равна некоторой величине;

события независимы;

случайная величина принадлежит некоторому классу случайных величин;

44

случайные величины независимы;

случайные величины одинаково распределены;

параметр случайной величины находится в пределах некоторого отрезка;

параметры двух случайных величин равны.

Шаг 2. Определяется вероятность того, что произойдут такие события, какие реально произошли.

Шаг 3. Если полученная вероятность оказывается слишком малой, то статистическая гипотеза отвергается.

Какова же должна быть эта вероятность?

Определение. Доверительная вероятность – величина, принятая как разделяющая вероятные и маловероятные события.

Доверительная вероятность обычно обозначается маленькой латинской буквой «p». В качестве доверительной вероятности обычно выбирают круглые числа: 0,05, 0,01, 0,001 и т.д.

В настоящее время современные статистические пакеты программ рассчитывают не только величину различия, но и точную величину соответствующей доверительной вероятности.

Доверительная вероятность это не вероятность некоторого события, а оценка доверия. При проверке статистической гипотезы возможны ошибки двух родов.

Ошибка первого рода – принять на веру неправильную статистическую гипотезу, то есть принятие ложноположительной гипотезы(чрезмерная легковерность) равна доверительной вероятности.

Ошибка второго рода – отказ от правильной гипотезы, только на основании доверительной вероятности рассчитать нельзя, нужно знать какие именно гипотезы поступают на проверку.

Уменьшение доверительной вероятности, т.е. ужесточение критериев проверки, уменьшает вероятность ошибок первого рода. но увеличивает вероятность ошибок второго рода. Поэтому нет единого оптимального выбора доверительной вероятности. И выбирать ее нужно на основании величины ущерба от ошибок первого и второго рода.

В медицине традиционно принята величина доверительной вероятности равная p=0,05.

Рассмотрим пример расчета частоты совместного распределения и определения

достоверности различия при помощи критерия 2:

Запустите пакет SPSS. Откройте копию файла пневмония.sav. Рассмотрим связь между смертностью пациента (переменная «Умер») и количеством лейкоцитов в его крови (переменная «white blood cell count»). Причем при кодировке количества лейкоцитов они были поделены на 4 группы: «меньше 4», «от 4 до 9», «от 9 до 25» и «больше 25», переменная «Умер» имеет всего два значения: 0 – жив, 1 – умер.

Page 23: !SPSS in examplekafedra.1mgmu.com/images/!SPSS in example.pdfзначениями, например, отрицательными. 5. При повторных обследованиях

45

Построим график частот летального исхода в зависимости от числа лейкоцитов. Воспользуемся опцией Graphs Bar, далее выберем Stacked, в Category Axis занесем переменную «white blood cell count», а в Define Stacks by – переменную «Умер»

В результате получаем график:

white blood cell count

>259-254-9<4

Co

un

t

700

600

500

400

300

200

100

0

ÓÌÅÐ

1,00

,00

Missing

Предположим наличие связи между переменной «Умер» переменной «white blood cell count».

Рассчитайте коэффициент корреляции между этими величинами:

46

получаем таблицу:

Correlations

white blood cell count УМЕР

Pearson Correlation 1 ,062(*)Sig. (2-tailed) . ,048

white blood cell count

N 1032 1031Pearson Correlation ,062(*) 1Sig. (2-tailed) ,048 .

УМЕР

1031 1031

* Correlation is significant at the 0.05 level (2-tailed).

Получаем в ячейке пересечения переменных три цифры в столбец. Первая - Pearson

Correlation ,062(*) , определяющая коэффициент взаимосвязи переменных между собой. Вторая цифра Sig. (2-tailed) - ,048 это доверительная вероятность. Третья цифра N – это количество исследуемых пар. В данном случае, связь слабая, но достоверная за счет большого количества наблюдений. Поскольку коэффициент корреляции определяет только общую линейную компоненту связи двух переменных, попробуем исследовать эту пару переменных другим методом.

При расчете частот летального исхода по подгруппам используем критерий «хи-квадрат»:

Page 24: !SPSS in examplekafedra.1mgmu.com/images/!SPSS in example.pdfзначениями, например, отрицательными. 5. При повторных обследованиях

47

В Row внесите группирующую переменную «Умер», а Column сравниваемую переменную «white blood cell count»

Для определения достоверности связи исхода и количества лейкоцитов необходимо пометить, что используется критерий «хи-квадрат», для этого нажмите на кнопку «Statistics», поставьте флажок в окошке «Chi-square».

48

В результате получаем три таблицы:

Case Processing Summary

Cases

Valid Missing Total

N Percent N Percent N Percent УМЕР * white blood cell count 1031 99,9% 1 ,1% 1032 100,0%

УМЕР * white blood cell count Crosstabulation Count

white blood cell count

<4 4-9 9-25 >25 Total

,00 30 302 554 37 923 УМЕР

1,00 27 6 38 37 108 Total 57 308 592 74 1031

Chi-Square Tests

Value df Asymp. Sig.

(2-sided) Pearson Chi-Square 240,268(a) 3 ,000Likelihood Ratio 168,813 3 ,000Linear-by-Linear Association

3,915 1 ,048

N of Valid Cases 1031

a 0 cells (,0%) have expected count less than 5. The minimum expected count is 5,97.

Первая таблица Case Processing Summary показывает число и процент исследуемых пар (Valid), число и процент неопределенных значений (Missing).

Вторая таблица «УМЕР * white blood cell count Crosstabulation» показывает частоты совместного распределения переменной «Умер» и количеством лейкоцитов. При

Page 25: !SPSS in examplekafedra.1mgmu.com/images/!SPSS in example.pdfзначениями, например, отрицательными. 5. При повторных обследованиях

49

внимательном рассмотрении этой таблицы видно, что наибольший процент умерших наблюдается в двух группах - «< 4»и «> 25».

Третья таблица Chi-Square Tests в столбце Asymp. Sig. (2-sided дает нам достоверность различий между исследуемыми переменными . Достоверность различий здесь является величиной асимптотической (или приближенной) Для того чтобы выяснить, между какими группами достоверные различия есть, а между какими нет, можно также рассчитать средние значения переменной «Умер» в разных группах:

Нажав кнопку Options…, выберем в добавление к стандартным опциям среднего значения, количества случаев и стандартного отклонения еще стандартную ошибку среднего значения.

50

В результате получаем таблицу:

Report УМЕР

white blood cell count Mean N Std. Deviation

Std. Error of Mean

<4 ,4737 57 ,50375 ,066724-9 ,0195 308 ,13843 ,007899-25 ,0642 592 ,24530 ,01008>25 ,5000 74 ,50341 ,05852Total ,1048 1031 ,30638 ,00954

Первая и четвертая группы больных схожи между собой по среднему значению смертности, стандартному отклонению и ошибке среднего значения. В группе «от 4 до 9» смертность около 2%, в группе «от 9 до 25» смертность около 6,5%, а в группе очень малого или большого количества лейкоцитов смертность около 50%. Получили, что количество лейкоцитов – сильный прогностический фактор летального исхода.

Чтобы говорить о достоверном различии групп между собой необходимо их сравнить попарно. Опять же, непонятно, что делать, если будут ожидаемые встречаемости менее 5. И то, и другое можно решить одним махом, перейдя к попарному сравнению частот, так как для таблиц 2 на 2 имеется точное решение Фишера, абсолютно точно, а не приближенно рассчитывающее р В рамках SPSS для этого нужно выполнить команду Data / Select cases , выбрать вариант «If condition is satisfied», нажать кнопку If и задать условие отбора, перебирая все возможные варианты и для каждого по новой проводя расчет. Например, при сравнении второго и третьего варианта условие отбора будет выглядеть так:

Page 26: !SPSS in examplekafedra.1mgmu.com/images/!SPSS in example.pdfзначениями, например, отрицательными. 5. При повторных обследованиях

51

Далее используем критерий 2 .Выбираем команду Analyze Descriptive Statistics Crosstabs. Оставляем ранее используемые переменные в Row «умер», а Columns *

«white blood cell count». Так как это таблица 2 на 2, то для нее имеется точное решение Фишера. Поэтому появляется строка «Fishers Exact Test», а помимо столбца «Asimpt. Sig» (приближенная достоверность различий) появляются столбцы «Exact Sig» (точная достоверность различий).

УМЕР * white blood cell count Crosstabulation Count

white blood cell count

4-9 9-25 Total

,00 302 554 856 УМЕР

1,00 6 38 44 Total 308 592 900

Chi-Square Tests

Value df Asymp. Sig.

(2-sided) Exact Sig. (2-sided)

Exact Sig. (1-sided)

Pearson Chi-Square 8,709(b) 1 ,003 Continuity Correction(a)

7,774 1 ,005

Likelihood Ratio 10,076 1 ,002 Fisher's Exact Test ,003 ,002 Linear-by-Linear Association 8,699 1 ,003

N of Valid Cases 900

a Computed only for a 2x2 table b 0 cells (,0%) have expected count less than 5. The minimum expected count is 15,06.

52

Следовательно. смертность среди пациентов с количеством лейкоцитов «от 4 до 9» и «от 9 до 25» различается достоверно с p=0,003. Проведем тот же самый анализ для групп пациентов с количеством лейкоцитов «<4» и «>25» (это 1 и 4 группы):

УМЕР * white blood cell count Crosstabulation Count

white blood cell count

<4 >25 Total

,00 30 37 67УМЕР

1,00 27 37 64Total 57 74 131

Chi-Square Tests

Value df Asymp. Sig.

(2-sided) Exact Sig. (2-sided)

Exact Sig. (1-sided)

Pearson Chi-Square ,089(b) 1 ,765 Continuity Correction(a)

,015 1 ,903

Likelihood Ratio ,089 1 ,765 Fisher's Exact Test ,860 ,451 Linear-by-Linear Association ,089 1 ,766

N of Valid Cases 131

a Computed only for a 2x2 table b 0 cells (,0%) have expected count less than 5. The minimum expected count is 27,85.

Следовательно. смертность среди пациентов с количеством лейкоцитов «<4» и «>25» не различается достоверно.

Page 27: !SPSS in examplekafedra.1mgmu.com/images/!SPSS in example.pdfзначениями, например, отрицательными. 5. При повторных обследованиях

53

.

Постройте график летальности при различенных величинах числа лейкоцитов: Graphs Bar Simple Define, используем радио-кнопку «Other summary function», в Category Axis занесите «white blood cell count», а в Variable –«умер»:

Получаем график:

white blood cell count

>259-254-9<4

Me

an

ÓÌÅ

Ð

,6

,5

,4

,3

,2

,1

0,0

Из полученного графика видно, что доля умерших больных в первой и четвертой

группах заметно выше, тогда как для больных со второй и третьей группой летальность ниже.

54

Постройте график летальности для разного числа лейкоцитов с доверительными границами. Воспользуйтесь опцией Graphs Error Bar Simple Define . В Category Axis занесите «white blood cell count», а в Variable –«умер»:

Получаем график:

7459230857N =

white blood cell count

>259-254-9<4

95

% C

I Ó

ÌÅÐ

,7

,6

,5

,4

,3

,2

,1

0,0

-,1

В данном случае видно, что доли больных с первой и четвертой группой лейкоцитов достоверно не отличаются.

Page 28: !SPSS in examplekafedra.1mgmu.com/images/!SPSS in example.pdfзначениями, например, отрицательными. 5. При повторных обследованиях

55

Обращаемся к проекту 1mgmu.com, рассчитываем точные доверительные границы для частот, достоверность попарных различий частот и точные доверительные границы для относительных рисков.

IV. Использование критерия «хи­квадрат» Как видно, если данные введены в SPSS, то определить независимость двух

дискретных переменных при помощи критерия хи-квадрат не составляет труда. Однако часто надо сравнивать свои данные с результатами других исследований, для чего критерий хи-квадрат приходится рассчитывать самостоятельно.

Этот критерий позволяет получить достоверность отличия частоты от вероятности, набора частот от набора вероятностей и нескольких наборов частот друг от друга.

1. Определение достоверности отличия набора частот от набора вероятностей. 

Пусть наблюдается случайная величина , которая может иметь возможные значения x1,…,xn, и из N наблюдений эти значения встретились соответственно N1,…,Nk раз, так что N1+…+Nk =N, и i-ое значение встречалось с частотой pi=Ni/N.

Требуется определить достоверность отличия полученного набора частот от ожидаемого набора вероятностей P1,…,Pk.

Для этого рассчитываем ожидаемое количество наблюдений Mi=Npi, то есть, каким было бы число наблюдений каждого значения, если бы частота полностью совпадала с ожидаемой вероятностью. Следует заметить, что ожидаемое число необязательно является целым.

Потом рассчитываем существенность отличия фактического количества наблюдений

от ожидаемого по формуле

i

iii M

MN 2 . После этого суммируем k ...1 . В том

случае, если частоты равны вероятностям, то при числе наблюдений N распределение

величины стремится к распределению 21k . Практически пользоваться этим критерием

можно, то есть распределение достаточно близко к 21k -распределению, если общее

число наблюдений не менее 50, а каждое из ожидаемых количеств M1,…, Mk не менее 5-7.

Пример. Пусть по имеющимся данным средняя величина серопозитивных 1к вирусу гепатита А среди детей 12 лет составляет 40%. В результате выборочного исследования было получено, что в районе Г. их 150 обследованных 12-летних школьников 37 оказалось серопозитивным. Выясним, имеются ли достоверные различия.

Внесем исходные данные в таблицу Excel:

1 Серонегативность означает просто отсутствие антител к данному заболеванию (например ВИЧ) – либо у человека нет вируса в принципе, либо с момента инфицирования прошло совсем мало времени и антитела еще не выработались. Серопозитивность – наличие антител к данному заболеванию.

56

Группа количество ожидаемая вероятность

серопозитивные 37 0,4

серонегативные 113 0,6

всего 150

Рассчитаем ожидаемое количество, умножив ожидаемую вероятность на общее число наблюдений (Mi=N*Pi). Для этого можно в ячейку D2 ввести формулу =С2*$B$4, после чего размножить ее вниз.

Группа количество ожидаемая вероятность ожидаемое количество

серопозитивные 37 0,4 60

серонегативные 113 0,6 90

всего 150

Потом вычисляем различие между фактическим и ожидаемым количеством (i=(Ni-Mi)*(Ni-Mi)|/Mi). Для этого в ячейку E2 вводим формулу =(B2-D2)*(B2-D2)/D2 размножаем ее вниз на одну строку:

Группа количество ожидаемая вероятность ожидаемое количество различие

серопозитивные 37 0,4 60 8,816667

серонегативные 113 0,6 90 5,877778

всего 150

Суммируем общее различие – в ячейку Е4 вводим формулу =Е2+Е3 или суммируем столбец при помощи мастера суммирования:

Группа количество ожидаемая вероятность ожидаемое количество различие

серопозитивные 37 0,4 60 8,816667

серонегативные 113 0,6 90 5,877778

всего 150 14,69444

Теперь вычисляем достоверность различий. Так как число наблюдений у нас

достаточно большое, воспользуемся критерием 2. Для этого в ячейке А6 вызываем мастера функций и в группе «Статистические» выбираем функцию ХИ2РАСП. В первой

Page 29: !SPSS in examplekafedra.1mgmu.com/images/!SPSS in example.pdfзначениями, например, отрицательными. 5. При повторных обследованиях

57

строке аргументов, незатейливо обозначенной как Х, даем ссылку на ячейку Е4 с общей суммой, во второй строке, с числом степеней свободы, вводим 1. В результате получаем:

Группа количество ожидаемая вероятность ожидаемое количество различие

серопозитивные 37 0,4 60 8,816667

серонегативные 113 0,6 90 5,877778

всего 150 14,69444

р=

0,000126418

То есть мы можем утверждать, что доля серопозитивных детей меньше среднего, и

различие статистически достоверно с вероятностью р0,0001.

Если различие оказалось статистически недостоверным, то дальнейший анализ проводить не надо.

Так как различия достоверны, то выясним, насколько доля серопозитивных детей меньше ожидаемой.

Для этого рассчитаем фактическую частоту серопозитивных, деля количество на общее количество:

Группа количество ожидаемая вероятность

ожидаемое количество различие частота

серопозитивные 37 0,4 60 8,816667 0,246667

серонегативные 113 0,6 90 5,877778 0,753333

всего 150 14,69444

р=

0,000126418

Построим график с ожидаемой вероятностью и частотой:

58

Доля серопозитивных проб на ВГА среди детей 12 лет в районе А.

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

ожидаемая вероятность частота

Теперь для фактической частоты надо построить доверительные границы, чтобы указать, в каких пределах возможны ее колебания (точнее – в каких пределах могла быть вероятность. Возьмем стандартные 95% в качестве доверительной вероятности, или р=0,05.

Доверительные границы для частоты события рассчитываются на основании биномиального распределения. Для этого можно воспользоваться программой, выложенной на ресурс 1mgmu.com.

Полученные величины вводим в ячейки таблицы. Заметим, что использованные формулировки «погрешность –» и «погрешность +» в данном случае не совсем точны, но соответствуют обозначениям при построении диаграмм в Excel.

Группа количество ожидаемая вероятность

ожидаемое количество различие частота

Погр.

- Погр. +

серопозитивные 37 0,4 60 8,816667 0,246667 0,0607 0,0698

серонегативные 113 0,6 90 5,877778 0,753333

всего 150 14,69444

р=

0,000126418

Page 30: !SPSS in examplekafedra.1mgmu.com/images/!SPSS in example.pdfзначениями, например, отрицательными. 5. При повторных обследованиях

59

Обратите внимание, что погрешности «плюс» и «минус» имеют разные значения, так как биномиальное распределение – несимметричное.

Построим диаграмму с доверительными границами.

Доля серопозитивных проб на ВГА среди детей 12 лет в районе А.

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

ожидаемая вероятность частота

Так как при ожидаемой вероятности в 0,4 доля серопозитивных детей была 24,67%, то она составляла примерно 0,617. Взяв доверительные границы для частоты (прибавляя и отнимая погрешности «плюс» и «минус» и разделив на ожидаемую вероятность, получим, что с р=0,05 относительный риск находится в пределах от 0,465 до 0,711.

Пример. Пусть среди имеющихся больных с циррозом печени инфекционной этиологии 28 больных – с ВГА2, 59 – с ВГВ и 47 – с ВГС.

Проверим гипотезу о том, что все три варианта равновероятны.

Построим таблицу с исходными данными и рассчитаем частоты:

кол-во ожидаемая вероятность частота

ВГА 28 0,333333333 0,208955

ВГВ 59 0,333333333 0,440299

ВГС 47 0,333333333 0,350746

Всего 134

Аналогично предыдущему примеру рассчитаем ожидаемые количества и различие:

2 ВГА, ВГВ, ВГС – вирусный гепатит типа А, В или С. 60

кол-во ожидаемая вероятность частота

ожидаемое количество: различие

ВГА 28 0,333333333 0,208955 44,66667 6,218905

ВГВ 59 0,333333333 0,440299 44,66667 4,599502

ВГС 47 0,333333333 0,350746 44,66667 0,121891

Всего 134

Суммируем различие и при помощи функции ХИ2РАСП определяем достоверность различия. При этом, так как сравнивается набор из 3 частот, то число степеней свободы берем 2:

кол-во ожидаемая вероятность частота

ожидаемое количество: различие

ВГА 28 0,333333333 0,208955 44,66667 6,218905

ВГВ 59 0,333333333 0,440299 44,66667 4,599502

ВГС 47 0,333333333 0,350746 44,66667 0,121891

Всего 134 10,9403

р=

0,004211

Таким образом, получаем, что между частотами есть достоверные различия. Строим частотную диаграмму:

Page 31: !SPSS in examplekafedra.1mgmu.com/images/!SPSS in example.pdfзначениями, например, отрицательными. 5. При повторных обследованиях

61

Доля больных с инфекционным циррозом печени

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0,5

ВГА ВГВ ВГС

Рассчитываем стат. погрешности при помощи той же программы:

кол-во

ожидаемая вероятность частота

ожидаемое количество: различие погрешность - погрешность +

ВГА 28 0,333333333 0,208955 44,66667 6,218905 0,058970508 0,070498266

ВГВ 59 0,333333333 0,440299 44,66667 4,599502 0,078451669 0,080850644

ВГС 47 0,333333333 0,350746 44,66667 0,121891 0,073467104 0,079448921

Всего 134 10,9403

р=

0,004211

Рассчитываем стат. погрешности при помощи той же программы:

Добавляем на график «рога» статистических погрешностей:

62

Доля больных с инфекционным циррозом печени

0

0,1

0,2

0,3

0,4

0,5

0,6

ВГА ВГВ ВГС

В данном случае видно, что доли больных с ВГВ и ВГС достоверно не отличаются, тогда как для больных с ВГА достоверно ниже.

Так как критерий «хи-квадрат» - асимптотический, то надо еще проверить возможность его применения. У нас общий объем наблюдений – 134, то есть больше 50, а ожидаемое количество встречаемости каждого варианта – 44,67, то есть значительно больше 7, поэтому достоверность различий рассчитывается достаточно точно.

Однако при подобном использовании критерия для сравнения нескольких групп, больших двух, интересно не только то, что между всеми сравниваемыми группами есть различия, но и между какими конкретными группами различия есть, а между какими – нет. Кроме того, после получения достоверности различий нужно выяснить, насколько это различие существенно, то есть оценить относительные риски и их доверительные границы

2. Определение достоверности отличия нескольких наборов частот. Более частым случаем использования критерия является сравнение наскольких

наборов частот.

Технология расчета здесь похожа. Для исходной таблицы размером n на k с исходными количествами Nij рассчитываются ожидаемые количества Mij, которые были бы, если бы частоты в каждом столбце были бы одинаковыми. После чего вычисляется

различие 2

ij ij

ijij

N M

M

, суммируя их все, получаем общее различие

1,...,1,...,

iji nj k

. В том

случае, если выполняется нулевая гипотеза об одинаковости распределения исследуемых

Page 32: !SPSS in examplekafedra.1mgmu.com/images/!SPSS in example.pdfзначениями, например, отрицательными. 5. При повторных обследованиях

63

случайных величин, при числе наблюдений N распределение величины стремится к

распределению 2 с числом степеней свободы (n-1)(m-1). Практически пользоваться

этим критерием можно, как и первоначальным вариантов, если общее число наблюдений не менее 50, а каждое из ожидаемых количеств M1,…, Mk не менее 5-7.

Для этого можно сравнивать группы попарно и рассчитывать достоверность различий в каждой паре. Кроме того, тут решается еще одна техническая проблема.

Однако для таблиц 2 на 2 есть точное решение Фишера, для которого вне зависимости от объема наблюдений достоверность различия рассчитывается правильно3. Поэтому есть возможность, переходя к таблицам 2 на 2, получить точное значение р.

Для расчета попарных достоверностей различия частот, относительных рисков и границ к относительным рискам удобно воспользоваться программой, выложенной на проект 1mgmu.com. После загрузки главной страницы нужно перейти по ссылке «Программа определения достоверности различий частот точным тестом Хи-квадрат».

Рассмотрим пример. Пусть среди лиц с инфекционным вирусным гепатитом мы определяем 5-летнюю выживаемость и получили следующие данные:

кол-во из них умерло

ВГА 28 3

ВГВ 59 12

ВГС 47 21

Рассчитаем общее количество и количество умерших, вычитая количество умерших их общего количества:

кол-во из них умерло из них выжило

ВГА 28 3 =В2-С2

ВГВ 59 12

ВГС 47 21

3 Строго говоря, точное решение Фишера есть не только для таблиц 2 на 2, но и для таблиц произвольного размера, но расчет достоверности различий для таблиц большего размера требует огромного объема вычислительной работы и практически не применяется.

64

Всего СУММ(В2:В4)

Получим:

кол-во из них умерло из них выжило

ВГА 28 3 25

ВГВ 59 12 47

ВГС 47 21 26

Всего 134 36 98

Рассчитаем летальность

кол-во из них умерло из них выжило летальность

ВГА 28 3 25 =С2/В2

ВГВ 59 12 47

ВГС 47 21 26

Всего 134 36 98

Получим:

кол-во из них умерло из них выжило летальность

ВГА 28 3 25 0,107

ВГВ 59 12 47 0,203

ВГС 47 21 26 0,447

Всего 134 36 98 0,269

Рассчитаем ожидаемое количество умерших, умножив фактическое количество больных на общую летальность (заодно вставив первую строку для подзаголовков):

Ожидаемое количество

кол-во из них умерло из них выжило летальность умерших

ВГА 28 3 25 0,107 =B3*$E$6

Page 33: !SPSS in examplekafedra.1mgmu.com/images/!SPSS in example.pdfзначениями, например, отрицательными. 5. При повторных обследованиях

65

ВГВ 59 12 47 0,203

ВГС 47 21 26 0,447

Всего 134 36 98 0,269

Ожидаемое количество выживших получим, вычитая из общего количества больных ожидаемое количество умерших:

Ожидаемое количество

кол-во из них умерло из них выжило летальность умерших выживших

ВГА 28 3 25 0,107 7,522 =В3-F3

ВГВ 59 12 47 0,203 15,851

ВГС 47 21 26 0,447 12,627

Всего 134 36 98 0,269

Рассчитаем различие между ожидаемым и фактическим количеством:

Ожидаемое количество Различие

кол-во из них умерло

из них выжило летальность умерших выживших

ВГА 28 3 25 0,107 7,522 20,478 =(C3-F3)*(C3-F3)/F3

ВГВ 59 12 47 0,203 15,851 43,149

ВГС 47 21 26 0,447 12,627 34,373

Всего 134 36 98 0,269

Размножим рассчитанные различия:

Ожидаемое количество Различие

кол-во из них умерло

из них выжило летальность умерших выживших

ВГА 28 3 25 0,107 7,522 20,478 2,719 0,999

ВГВ 59 12 47 0,203 15,851 43,149 0,935 0,344

66

ВГС 47 21 26 0,447 12,627 34,373 5,552 2,040

Всего 134 36 98 0,269

Просуммируем суммарное различие. При этом суммируются все 6 ячеек с различиями:

Ожидаемое количество Различие

кол-во

из них умерло

из них выжило летальность умерших выживших

ВГА 28 3 25 0,107 7,522 20,478 2,719 0,999

ВГВ 59 12 47 0,203 15,851 43,149 0,935 0,344

ВГС 47 21 26 0,447 12,627 34,373 5,552 2,040

Всего 134 36 98 0,269

Суммарное различие

12,589

Рассчитываем достоверность различий при помощи функции ХИ2РАСП. Так как анализируемая таблица 3 на 2, то число степеней свободы – 2:

Page 34: !SPSS in examplekafedra.1mgmu.com/images/!SPSS in example.pdfзначениями, например, отрицательными. 5. При повторных обследованиях

67

Полученное р – около 0,002, то есть высокодостоверно.

Строим график.

При помощи программы расчета доверительной вероятности определяем доверительные границы к летальности. При этом в качестве числа наблюдений надо брать общее число больных, а в качестве «успешных наблюдений» - число летальных исходов. Например, для первой строки с ВГА число наблюдений будет 28, а число успехов – 3.

Ожидаемое количество Различие Погрешности

кол-во

из них умерло

из них выжило

летальность

умерших

выживших - +

ВГА 28 3 25 0,107 7,522 20,478 2,71

9 0,99

9 0,066807

2 0,127891

9

ВГВ 59 12 47 0,203 15,851 43,149 0,93

5 0,34

4 0,080526

2 0,105758

8

ВГС 47 21 26 0,447 12,627 34,373 5,55

2 2,04

0 0,125693

2 0,131406

7

Всего 134 36 98 0,269

Суммарное различие

12,589

р 0,001

8

68

Добавляем погрешности на график:

Из графика видно, что летальность у больных ВГА и ВГВ достоверно не различается, а у ВГС – выше. Однако желательно пересчитать поточнее, особенно если учесть, что у ВГА ожидаемое число умерших лишь немного больше 5.

Обращаемся к программе «Программа определения достоверности различий частот точным тестом Хи-квадрат» на том же проекте

Для рассмотренного варианта исходные данные надо внести следующим образом:

Page 35: !SPSS in examplekafedra.1mgmu.com/images/!SPSS in example.pdfзначениями, например, отрицательными. 5. При повторных обследованиях

69

То есть первая строка – количества выживших, вторая – умерших.

Для нужного варианта расчета нажать кнопку «Посчитать, сравнивая все варианты друг с другом»:

В результате получаем:

V САМОСТОЯТЕЛЬНОЕ ЗАДАНИЕ Вариант №1

Округлить переменную «Температура при поступлении» с шагом в один градус. Рассчитать ее совместное распределение с переменной «Умер».

70

Рассчитать достоверность различий при помощи теста хи-квадрат (в Excel, сравнить с тем, что рассчитал SPSS), построить график летальности с доверительными границами в зависимости от температуры, рассчитать попарные достоверности частот и относительные риски.

Вариант №2

Округлить переменную «Частота дыхания при поступлении» (Respiratore Rate) с шагом в 5. Рассчитать ее совместное распределение с переменной «Умер».

Рассчитать достоверность различий при помощи теста хи-квадрат (в Excel, сравнить с тем, что рассчитал SPSS), построить график летальности с доверительными границами в зависимости от температуры, рассчитать попарные достоверности частот и относительные риски.