Хоп-Хей-NA-NA-NA, или работаем в R с пропущенными значениями
Мар 01
Новости R, полезные советы, работа с данными No Comments
Любой исследователь сталкивался с ситуацией, когда собранные данные будут неполными в силу ряда причин: пропуски вопросов респондентами, ошибки при вводе данных или их кодировке и т.љп. Пропущенные данные в R обозначаются NA (not available ? нет в наличии). Заметим, что недопустимые значения обозначаются как NaN (not a number ? не является числом). Обозначение NA для пропущенных значений используется как текстовых, так числовых данных. Как проверить данные на наличие пропущенных значений? Предположим, что у нас имеется следующие данные:
name <- c(«Катя», «Дима», NA)
sex <- c(«female», «male», «female»)
age <- c(17, 21, NA)
iq < — c(128, 115, 100)
data <- data.frame(name, sex, age, iq)
Посмотрим на наш маленький набор данных: More