[МУЗЫКА] [МУЗЫКА]
[МУЗЫКА] Уважаемые слушатели!
В данном уроке мы рассмотрим импорт данных из внешнего файла в пакет
Statistica и дальнейшую работу с этими данными.
Работать мы будем с файлом, который нам уже знаком, это информация
о школьниках третьих-четвертых классах, то есть о детях девяти-десяти лет.
Исходные данные у нас сейчас содержатся в таблице Excel.
Мы хотим перенести эти данные в пакет Statistica,
для того чтобы продолжить дальнейшую работу здесь.
Как видим, изначально у нас открывается таблица размера 10 x 10.
Если мы хотим импортировать данные из внешнего файла,
у нас есть несколько способов перенести эти данные.
Самый простой способ — это копирование этих
данных в буфер обмена и перенос их в Statistica.
Например, мы выделяем область, содержащую данные,
нажимаем комбинацию клавиш Ctrl + C, заходим в пакет
Statistica и вставляем эти данные сюда.
Обратите внимание на то, что нам не нужно заботиться о размере нашей таблицы.
Таблица будет автоматически расширена до необходимого размера.
Делаем вставку, при этом у нас появляется сообщение.
Дело в том, что таблица Excel содержала текстовые переменные.
В этом окне появляется сообщение о том, что таблица содержит не только
числовую информацию, но также текстовые переменные, и предлагает нам
несколько вариантов: импортировать с текстовыми метками либо конвертировать
текстовые метки в пропущенные значения, то есть просто их не указывать.
Мы выбираем первый пункт, потому что первая переменная содержит
у нас информацию о поле ребенка, эта информация нам также важна,
мы не хотим ее потерять, поэтому импортируем, как есть.
Вот, появилась наша таблица.
Основная проблема подобного переноса заключается в том,
что у нас сейчас нет имен переменных.
То есть у нас потерялась информация о том,
что представляют собой соответствующие переменные.
Если таких столбцов немного, то в принципе не составит большого труда
заново назвать все соответствующие переменные.
Мы заходим в первую переменную, называем эту переменную «пол», дальше переходим
стрелками в следующую переменную, чтобы не открывать и не закрывать их несколько раз.
Следующая информация у нас рост,
далее вес, далее прыжок,
далее пресс
и последнее — прыжок.
Вот наша таблица готова к работе.
Но понятно, что когда у нас всего пять переменных,
мы это сделали достаточно легко и быстро.
Если же мы импортируем очень большую таблицу,
содержащую большое количество различных выборок, то есть сразу несколько столбцов
и большое количество строк, такой способ может быть не самым удобным.
Поскольку пакет Statistica воспринимает формат таблицы Excel,
мы можем импортировать данные непосредственно из пакета Excel,
как мы это делали в пакете SPSS.
Рассмотрим теперь непосредственно импорт таблицы Excel в пакет.
Для этого рассмотрим аналогичный файл также с информацией о
детях третьих-четвертых классов, но содержащий большее количество наблюдений,
а именно 90.
Эту таблицу сейчас мы импортируем в пакет Statistica.
Для этого заходим в файл, открыть.
Данные у нас хранятся на диске C в папке Stat,
выбираем соответствующую папку и находим нужный нам файл.
Это файл «Дети».
Открыть, и у нас предлагается несколько вариантов: открыть таблицу в рабочей
книге, открыть просто таблицу или открыть непосредственно книгу Excel.
Сейчас для начала мы с вами выберем обычную таблицу, аналогичную тем,
с которыми мы уже поработали.
Открываем в таблице, данные, и так же,
как мы это делали в пакете SPSS, берем имена переменных из первой строки.
При этом у нас будут импортированы столбцы с A по E и с первой по 91-ю строку.
Нажимаем OK.
У нас появляется таблица, содержащая 90 наблюдений
и пять выборок с информацией о поле,
росте, весе, прессе и прыжке.
Далее мы можем работать с этими данными непосредственно в пакете Statistica.
Для начала посмотрим, как построить гистограмму, например,
для переменной роста.
Для построения гистограммы мы заходим в раздел «Графика»,
«Гистограммы», «Переменная», «Рост».
Нажимаем OK.
Установки пока оставим по умолчанию.
Нажимаем OK.
И перед нами появляется новое окно с гистограммой для данной выборки, на
которую сразу накладывается «гауссовский колокольчик», потому что нормальное
распределение является предпосылкой для многих статистических методов.
Как видим, в данном случае наша гистограмма достаточно близка,
но тем не менее имеется некоторая асимметрия, то есть будет требоваться
более строгая проверка нормальности, но об этом мы будем говорить позже.
Сейчас этот график мы можем либо просто закрыть, если он нам больше не нужен,
либо мы можем добавить его в отчет.
Если мы хотим в дальнейшем использовать эту информацию в каких-то публикациях
или презентациях, мы можем добавить этот график к отчету.
Мы создаем в этом случае новый отчет, ему можно дать какое-то название,
его можно сохранить как pdf, либо просто объекты, которые будут здесь сохраняться,
можно выделять и через буфер обмена копировать, например, в документ Word.
Сейчас мы пока закроем эту книгу
без сохранения.
Также закроем книгу, в которой у нас появился сам график.
И теперь проведем предварительную обработку данных и рассчитаем
основные числовые характеристики для всех имеющихся здесь переменных.
Стоит обратить внимание на то,
что переменная «пол» у нас является неколичественной.
Соответственно основные числовые характеристики, такие как выборочное
среднее, дисперсия и прочее, для данной переменной вычислены быть не могут.
То есть мы можем рассчитать числовые характеристики только для четырех
переменных: рост, вес, пресс и прыжок.
Для расчета основных числовых характеристик,
мы заходим в раздел Statistics, «Основные статистики таблицы»,
«Описательные статистики».
Если вы работаете в русскоязычной версии,
то раздел Statistics у вас будет называться «Анализ».
Заходим сюда, OK.
Выбираем все четыре количественные переменные,
имеющиеся в нашей таблице,
далее желательно перейти на вкладку Advanced, чтобы выбрать больше
числовых характеристик, чем предлагается по умолчанию.
К уже предложенному списку мы добавим медиану, моду,
дисперсию, коэффициент асимметрии и коэффициент эксцесса.
Далее нажимаем на кнопку Summary,
и у нас появляется таблица с основной информацией.
Как мы видим, каждая
переменная содержит по 90 наблюдений, то есть в нашей таблице нет пропусков.
Далее в следующем столбце мы видим значения средних арифметических по
каждому показателю.
Далее следует значение медианы, в следующем столбце значение моды.
Обратите внимание, что для значения «пресс» у нас стоит multiple,
то есть несколько значений имеют одинаковую максимальную частоту.
Частота моды при этом указывается в соседнем столбце.
Далее по каждой переменной предлагаются значения минимума и максимума,
то есть наибольшее и наименьшее значение для каждой выборки.
В следующем столбце дисперсия, в следующем столбце
стандартное отклонение, то есть корень из дисперсии,
а далее коэффициенты асимметрии и коэффициенты эксцесса.
Сейчас все действия
мы выполняли в различных окнах, и эти окна у нас свернуты вот здесь внизу.
Но мы могли поступить иначе, сформировав сразу рабочую книгу,
объединив все наши действия, включая исходную таблицу,
в одну рабочую книгу, которая в пакете Statistica называется Workbook.
Давайте сейчас добавим наши данные исходной таблицы к рабочей книге,
создадим тем самым новую рабочую книгу, и теперь все операции и действия,
которые мы будем выполнять, будут добавляться к нашей рабочей книге.
Например, если мы повторим аналогичные действия для других переменных,
например, для значений пресса я хочу построить гистограмму,
«Графика», «Гистограммы», «Начнем новый анализ»
для переменной «пресс»,
у нас строится гистограмма.
И при этом обратите внимание: это действие добавилось в последовательность действий
нашего журнала рабочей книги.
При этом мы можем перемещаться между этими разделами,
кликая на соответствующую строку.
Если также мы повторим действия, например, по расчету числовых характеристик,
выбираем описательные статистики,
те же самые переменные,
Summary, и вот еще
одно действие добавлено теперь в нашу рабочую книгу.
Мы можем сохранить ее и вернуться к этим действиям, продолжая наш анализ.
Для того чтобы сохранить эту рабочую книгу под конкретным именем,
мы выполняем достаточно стандартные операции: «Файл», «Сохранить как».
Далее выбираем путь, куда мы хотим сохранить рабочую книгу,
я ее оставлю в папке Stat, там же, где и содержатся все основные файлы с данными,
и присвою ей какое-нибудь имя.
Например, также «Дети», как этот файл назывался у нас в Excel.
Обратите внимание на расширение,
stw, это расширение пакета Statistica непосредственно для рабочей книги.
Исходная таблица пакета Statistica у нас имеет расширение sta.
Сохраняем.
Теперь мы можем возвращаться к этой рабочей книге,
чтобы продолжить с ней работу.
[МУЗЫКА]
[МУЗЫКА]