Información

3.2: Variables y datos - Biología

3.2: Variables y datos - Biología


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Como la mayoría de los lenguajes, R nos permite asignar datos a variables. De hecho, podemos hacerlo utilizando el=operador de asignación o el<-operador, aunque el último es el más común y generalmente preferido.

Aquí,impresión()es una función, que imprime el contenido de su parámetro (en la ventana del intérprete en RStudio, o salida estándar en la línea de comando). Esta función tiene el "efecto secundario" de imprimir la salida, pero no devuelve nada.[1] Por el contrario, elabdominales()La función devuelve el valor absoluto de su entrada sin ningún otro efecto.

El intérprete ignora#caracteres y cualquier cosa después de ellos en una sola línea, por lo que podemos usarlos para insertar comentarios en nuestro código para una explicación o para mejorar la legibilidad. Las líneas en blanco se ignoran, por lo que podemos agregarlas para mejorar la legibilidad también.

Es posible que sienta curiosidad por saber por qué el extra[1]se incluye en la salida impresa; volveremos a ese punto pronto, pero por ahora, sea suficiente decir que el número4.4es la primera (y única) de una colección de valores que se imprime.

El lado derecho de una asignación generalmente se evalúa primero, por lo que podemos hacer cosas complicadas como reutilizar nombres de variables en expresiones.

Los nombres de variables y funciones en R merecen una discusión especial. Hay una variedad de convenciones, pero una común que usaremos es la misma que usamos para Python: los nombres de las variables deben (1) consistir solo en letras y números y guiones bajos, (2) comenzar con una letra minúscula, ( 3) use guiones bajos para separar palabras y (4) sea significativo y descriptivo para que el código sea más legible.

En R, los nombres de variables y funciones también pueden incluir el.carácter, que no contiene ningún significado especial (a diferencia de muchos otros idiomas). Entonces,alpha.abs <- abs (alfa)no es algo poco común de ver, aunque nos apegaremos a la convenciónalpha_abs <- abs (alfa). Las variables R pueden ser casi cualquier cosa, siempre que estemos dispuestos a rodear el nombre con caracteres de retroceso. Entonces,`alpha abs` <- abs (alfa)sería una línea válida de código, al igual que una línea siguiente comoimprimir (`alpha abs`), aunque esto es no recomendado.

Numéricos, enteros, caracteres y lógicas

Uno de los tipos de datos más básicos en R es el "numérico", también conocido como número flotante o flotante en otros idiomas.[2] R incluso admite la notación científica para estos tipos.

R también proporciona un tipo separado para números enteros, números que no tienen un valor fraccionario. Son importantes, pero se ven con menos frecuencia en R principalmente porque los números se crean como números, incluso si parecen números enteros.

Es posible convertir tipos numéricos en tipos de enteros reales con lacomo entero()función, y viceversa con laas.numeric ()función.

Al convertir a un tipo entero, las partes decimales se eliminan y, por lo tanto, los valores se redondean hacia0(4.8se convierte en4, y-4.8se convertiría-4.)

El tipo de datos "carácter" contiene una cadena de caracteres (aunque, por supuesto, la cadena puede contener solo un carácter o ningún carácter como en''). Estos se pueden especificar mediante comillas simples o dobles.

Concatenar cadenas de caracteres es más complicado en R que en algunos otros idiomas, por lo que lo cubriremos en el capítulo 32, "Datos categóricos y de caracteres". (Losgato()La función funciona de manera similar y nos permite incluir caracteres especiales como pestañas y nuevas líneas usando ty orte, respectivamente;gato ("Shawn tO'Neil")daría como resultado algo comoShawn O'Neil.)

Los tipos de caracteres son diferentes de los números enteros y numéricos, y no se pueden tratar como ellos incluso si se parecen a ellos. sin embargo, elcomo.carácter ()yas.numeric ()Las funciones convertirán las cadenas de caracteres al tipo respectivo si es posible hacerlo.

De forma predeterminada, el intérprete de R producirá una advertencia (NA inducidas por conversión) si dicha conversión no tiene sentido, como enas.numeric ("Shawn"). También es posible convertir un tipo numérico o entero en un tipo de carácter, usandocomo personaje ().

El tipo de datos "lógico", conocido como tipo booleano en otros idiomas, es uno de los tipos más importantes para R. Estos tipos simples almacenan el valor especialCIERTOo el valor especialFALSO(de forma predeterminada, estos también se pueden representar mediante la abreviaturaTyF, aunque esta abreviatura es menos preferida porque algunos codificadores usan ocasionalmenteTyFtambién para nombres de variables). Las comparaciones entre otros tipos devuelven valores lógicos (a menos que den lugar a una advertencia o error de algún tipo). Es posible comparar tipos de caracteres con comparadores como<y>; la comparación se realiza en orden lexicográfico (diccionario).

Pero cuidado: en R (y Python), estas comparaciones también funcionan cuando quizás deberían dar lugar a un error: los tipos de caracteres se pueden comparar de forma válida con los tipos numéricos, y los valores de los caracteres siempre se consideran más grandes. Esta propiedad en particular ha dado lugar a una serie de errores de programación.

R apoya<,>,<=,>=,==, y!=comparaciones, y tienen el mismo significado que para las comparaciones en Python (consulte el capítulo 17, “Flujo de control condicional”, para obtener más detalles). Para los tipos numéricos, R sufre la misma advertencia sobre la comparación de igualdad que Python y otros lenguajes: los errores de redondeo para números con expansiones decimales pueden componerse de formas peligrosas, por lo que la comparación de valores numéricos para determinar la igualdad debe hacerse con cuidado. (Puede ver esto al intentar ejecutarimprimir (0.2 * 0.2 / 0.2 == 0.2), lo que resultará enFALSO; de nuevo, consulte el capítulo 17 para obtener más detalles.[3]) La forma "oficial" de comparar dos números para la igualdad aproximada en R es bastante torpe:es VERDADERO (todos.equal (a, b))devolucionesCIERTOsiayBson aproximadamente iguales (o, si contienen varios valores, todos los elementos lo son). Exploraremos algunas alternativas en capítulos posteriores.

Hablando de errores de programación, porque<-es el operador de asignación preferido pero=es también un operador de asignación, se debe tener cuidado al codificar con estos y el==o<operadores de comparación. Considere las siguientes declaraciones similares, todas las cuales tienen diferentes significados.

R también admite conectivos lógicos, aunque estos adoptan una sintaxis ligeramente diferente a la de la mayoría de los otros lenguajes.

ConectivoSentidoEjemplo (cona <- 7,b <- 3)
&y:Ciertosi ambos lados sonCiertoa <8 & b == 3 # Verdadero
|o:Ciertosi uno o ambos lados sonCiertoa <8 | b == 9 # Verdadero
!no:Ciertosi lo siguiente esFalso! a <3 # Verdadero

Estos se pueden agrupar entre paréntesis y, por lo general, deben ser para evitar confusiones.

Al combinar expresiones lógicas de esta manera, cada lado de un ampersand o|debe resultar en una lógica: el códigoa == 9 | 7es no lo mismo quea == 9 | a == 7(y, de hecho, el primero siempre resultará enCIERTOsin previo aviso).

Debido a que R es un lenguaje tan dinámico, a menudo puede ser útil verificar a qué tipo de datos se refiere una variable en particular. Esto se puede lograr con elclase()función, que devuelve una cadena de caracteres del tipo apropiado.

Haremos esto con frecuencia a medida que seguimos aprendiendo sobre varios tipos de datos R.

Ejercicios

  1. Dado un conjunto de variables,a,B,C, yD, busque asignaciones de ellos paraCIERTOoFALSOtal que elresultadosostiene variableCIERTO.
  2. Sin ejecutar el código, intente razonar quéimprimir (clase (clase (4.5)))resultaría en.
  3. Intente convertir un tipo de carácter como"1e-50"a un tipo numérico conas.numeric ()y uno como"1x10 ^ 5". ¿Cuáles son los valores numéricos después de la conversión? Intente convertir el valor numérico0.00000001a un tipo de carácter, ¿cuál es la cadena producida? ¿Cuáles son los números más pequeños y más grandes que puede crear?
  4. loses.numérico ()función devuelve el lógicoCIERTOsi su entrada es de tipo numérico, yFALSOde lo contrario. Las funcioneses.carácter (),es.integer (), yes.logico ()haga lo mismo con sus respectivos tipos. Intente usarlos para probar si las variables específicas son tipos específicos.
  5. ¿Qué sucede cuando ejecutas una línea comoimprimir ("ABC" * 4)? Qué pasaimprimir ("ABC" + 4)? ¿Por qué cree que los resultados son los que son? Qué tal siimprimir ("ABC" + "DEF")? Finalmente, intente lo siguiente:imprimir (VERDADERO + 5),imprimir (VERDADERO + 7),imprimir (FALSO + 5),imprimir (FALSO + 7),imprimir (VERDADERO * 4), yimprimir (FALSO * 4). ¿Qué crees que está pasando aquí?


Entender los tipos de variables

Publicado el 21 de noviembre de 2019 por Rebecca Bevans. Revisado el 2 de marzo de 2021.

En la investigación estadística, una variable se define como un atributo de un objeto de estudio. Elegir qué variables medir es fundamental para un buen diseño experimental.

Ejemplo

Si desea probar si algunas especies de plantas son más tolerantes a la sal que otras, algunas variables clave que podría medir incluyen: cantidad de sal agregas al agua, el especies de plantas en estudio, y variables relacionadas con la sanidad vegetal como crecimiento y marchitez.

Necesita saber con qué tipos de variables está trabajando para elegir las pruebas estadísticas adecuadas e interpretar los resultados de su estudio.

Por lo general, puede identificar el tipo de variable haciendo dos preguntas:


Las variables de medición son, como su nombre lo indica, cosas que se pueden medir. Una observación individual de una variable de medida es siempre un número. Los ejemplos incluyen longitud, peso, pH y densidad ósea. Otros nombres para ellos incluyen variables "numéricas" o "cuantitativas".

Algunos autores dividen las variables de medición en dos tipos. Un tipo son las variables continuas, como la longitud de la antena de un isópodo, que en teoría tienen un número infinito de valores posibles. La otra son las variables discretas (o merísticas), que solo tienen valores de números enteros, son cosas que se cuentan, como el número de espinas en la antena de un isópodo. Las teorías matemáticas subyacentes a las pruebas estadísticas que involucran variables de medición asumen que las variables son continuas. Afortunadamente, estas pruebas estadísticas funcionan bien con variables de medición discretas, por lo que generalmente no necesita preocuparse por la diferencia entre las variables de medición continuas y discretas. La única excepción sería si tiene un número muy pequeño de valores posibles de una variable discreta, en cuyo caso es posible que desee tratarla como una variable nominal.

Cuando tiene una variable de medida con una pequeña cantidad de valores, puede que no quede claro si debe considerarse una medida o una variable nominal. Por ejemplo, digamos que sus isópodos tienen (20 ) a (55 ) espinas en su antena izquierda, y desea saber si el número promedio de espinas en la antena izquierda es diferente entre machos y hembras. Debe considerar el número de columna vertebral como una variable de medición y analizar los datos utilizando una t& ndashtest o anova unidireccional. Si solo hay dos números de columna diferentes & mdashalgunos isópodos tienen (32 ) espinas y otros tienen (33 ) & mdash, debería tratar el número de columna como una variable nominal, con los valores & quot (32 ) & quot y & quot (33 ) ) & quot y compare las proporciones de isópodos con (32 ) o (33 ) espinas en machos y hembras utilizando la prueba exacta de independencia de Fisher (o chi-cuadrado o GRAMOprueba de independencia, si el tamaño de la muestra es realmente grande). Lo mismo es cierto para los experimentos de laboratorio si le da a sus isópodos alimento con (15 ) concentraciones de manosa diferentes y luego mide su tasa de crecimiento, la concentración de manosa sería una variable de medición si le da a algunos isópodos alimento con (5 mM ) manosa, y el resto de los isópodos obtienen (25 mM ) manosa, entonces la concentración de manosa sería una variable nominal.

Pero, ¿y si diseña un experimento con tres concentraciones de manosa, cinco o siete? No existe una regla rígida, y la forma en que trate la variable dependerá en parte de sus hipótesis nula y alternativa. Si su hipótesis alternativa es "diferentes valores de manosa tienen diferentes tasas de crecimiento de isópodos", podría tratar la concentración de manosa como una variable nominal. Incluso si hay un patrón extraño de alto crecimiento en cero manosa, bajo crecimiento en pequeñas cantidades, alto crecimiento en cantidades intermedias y bajo crecimiento en altas cantidades de manosa, un anova unidireccional podría dar un resultado significativo. Si su hipótesis alternativa es "los isópodos crecen más rápido con más manosa", sería mejor tratar la concentración de manosa como una variable de medición, para que pueda hacer una regresión.

Se puede utilizar la siguiente regla general:

  • una variable de medición con solo dos valores debe tratarse como una variable nominal
  • una variable de medición con seis o más valores debe tratarse como una variable de medición
  • no existe una variable de medida con tres, cuatro o cinco valores

Por supuesto, en el mundo real hay experimentos con tres, cuatro o cinco valores de una variable de medida. Los estudios de simulación muestran que el análisis de tales dependiente variables con los métodos utilizados para las variables de medición funciona bien (Fagerland et al. 2011). No tengo conocimiento de ninguna investigación sobre el efecto del tratamiento independiente variables con un pequeño número de valores como medida o nominal. Su decisión sobre cómo tratar su variable dependerá en parte de su pregunta biológica. Es posible que pueda evitar la ambigüedad cuando diseñe el experimento. Si desea saber si una variable dependiente está relacionada con una variable independiente que podría ser medida, es una buena idea tener al menos seis valores de la variable independiente.

Algo que podría medirse es una variable de medición, incluso cuando establezca los valores. Por ejemplo, si cultiva isópodos con un lote de alimento que contiene (10mM ) manosa, otro lote de alimento con (20mM ) manosa, otro lote con (30mM ) manosa, etc. hasta (100mM ) ) manosa, las diferentes concentraciones de manosa son una variable de medición, a pesar de que usted mismo preparó el alimento y estableció la concentración de manosa.

Tenga cuidado cuando cuente algo, ya que a veces es una variable nominal y, a veces, una variable de medida. Por ejemplo, el número de colonias de bacterias en un plato es una variable de medida, usted cuenta el número de colonias y hay (87 ) colonias en un plato, (92 ) en otro plato, etc. Cada plato tendría un punto de datos, el número de colonias es un número, por lo que es una variable de medición. Sin embargo, si la placa tiene colonias de bacterias rojas y blancas y cuenta el número de cada una, es una variable nominal. Ahora, cada colonia es un punto de datos separado con uno de los dos valores de la variable, "rojo" o "blanco" porque es una palabra, no un número, es una variable nominal. En este caso, puede resumir los datos nominales con un número (el porcentaje de colonias que son rojas), pero los datos subyacentes siguen siendo nominales.

Ratios

A veces, puede simplificar su análisis estadístico tomando la relación de dos variables de medición. Por ejemplo, si desea saber si los isópodos machos tienen cabezas más grandes, en relación con el tamaño del cuerpo, que las hembras, puede tomar la relación entre el ancho de la cabeza y la longitud del cuerpo para cada isópodo y comparar las proporciones medias de machos y hembras usando un dos muestras t& ndashtest. Sin embargo, esto supone que la proporción es la misma para diferentes tamaños de cuerpo. Sabemos que eso no es cierto para los humanos y mdash, la relación tamaño de la cabeza / tamaño del cuerpo en los bebés es increíblemente grande, en comparación con los adultos, por lo que debe observar la regresión del ancho de la cabeza sobre la longitud del cuerpo y asegurarse de que la línea de regresión se acerque bastante al origen, como una recta La línea de regresión que pasa por el origen significa que las razones permanecen iguales para diferentes valores de la variable (X ). Si la línea de regresión no se acerca al origen, sería mejor mantener las dos variables separadas en lugar de calcular una proporción, y comparar la línea de regresión del ancho de la cabeza en la longitud del cuerpo en los hombres con la de las mujeres usando un análisis de covarianza. .

Variables circulares

Un tipo especial de variable de medición es una variable circular. Estos tienen la propiedad de que el valor más alto y el valor más bajo están uno al lado del otro a menudo, el punto cero es completamente arbitrario. Las variables circulares más comunes en biología son la hora del día, la época del año y la dirección de la brújula. Si mide la época del año en días, el Día 1 podría ser el 1 de enero, el equinoccio de primavera o su cumpleaños, cualquiera que sea el día que elija, el Día 1 es adyacente al Día 2 por un lado y al Día 365 por el otro.

Si solo está considerando una parte del círculo, una variable circular se convierte en una variable de medición regular. Por ejemplo, si está haciendo una regresión polinomial de los ataques de osos frente a la época del año en el Parque Nacional Yellowstone, podría tratar el & quot mes & quot como una variable de medición, con marzo como (1 ) y noviembre como (9 ). no tendría que preocuparse de que febrero (mes (12 )) sea próximo a marzo, porque los osos están hibernando de diciembre a febrero, e ignoraría esos tres meses.

Sin embargo, si su variable es realmente circular, existen pruebas estadísticas especiales muy oscuras diseñadas solo para datos circulares. Los capítulos 26 y 27 en Zar (1999) son un buen lugar para comenzar.


Los 3 tipos más importantes de variables biológicas

Cada disciplina biológica tiene su propio conjunto de variables, que pueden incluir mediciones morfológicas convencionales, concentraciones de sustancias químicas en los fluidos corporales, tasas de ciertos procesos biológicos, frecuencias de ciertos eventos como en genética y biología de la radiación y muchos más.

Cortesía de imagen: limno.eu/LTER/immagini_limno/FiorituraAnabaena.jpg

Una variable puede definirse como una propiedad con respecto a la cual los individuos de una muestra difieren de alguna manera en cierta forma. Si la propiedad no difiere dentro de una muestra en cuestión o al menos entre las muestras que se están estudiando, no puede ser de interés estadístico.La longitud, la altura, el peso, el número de dientes, el contenido de vitamina C y los genotipos son ejemplos de variables en grupos de organismos ordinarios, genéticamente y fenotípicamente diversos.

La sangre caliente en un grupo de mamíferos no lo es, ya que todos son iguales en este aspecto, aunque la temperatura corporal de los mamíferos individuales sería, por supuesto, una variable.

Tipos de variables biológicas:

Las variables biológicas se han clasificado en los siguientes tipos:

1. Variables de medida:

Las variables de medida son todas aquellas cuyos estados diferentes se pueden expresar de forma ordenada numéricamente. Son divisibles en dos tipos. La primera de ellas son variables continuas, que al menos teóricamente pueden asumir un número infinito de valores entre dos puntos fijos cualesquiera.

Por ejemplo, entre dos medidas de longitud de 1,5 y 1,6 cm hay un número infinito de longitudes que podrían medirse si uno estuviera tan inclinado y tuviera un método de calibración lo suficientemente preciso para obtener tales medidas.

Cualquier lectura dada de una variable continua, como una longitud de 157 mm, es, por lo tanto, una aproximación a la lectura exacta, lo que en la práctica es poco común. Algunos ejemplos comunes de variables biológicas continuas son longitudes, áreas, volúmenes, pesos, ángulos, temperaturas, períodos de tiempo, porcentajes y tasas.

En contraste con las variables continuas están las variables discontinuas, también conocidas como variables merísticas o discretas. Estas son variables que tienen solo ciertos valores numéricos fijos, sin valores intermedios posibles en el medio. Por lo tanto, el número de segmentos en un cierto apéndice de un insecto puede ser 4, 5 o 6, pero nunca 51/2 o 4,3.

Ejemplos de variables discontinuas son números de cierta estructura (como segmentos, cerdas, dientes o glándulas), el número de descendientes, el número de colonias de microorganismos o animales, o el número de plantas en un cuadrado dado.

2. Variables clasificadas:

Algunas variables no se pueden medir, pero al menos se pueden ordenar o clasificar por su magnitud. Por lo tanto, en un experimento se podría registrar el orden de aparición de diez pupas sin especificar el momento exacto en el que emergió cada pupa. En tales casos, los datos se codifican como una variable clasificada, el orden de aparición.

Por lo tanto, al expresar una variable como una serie de rangos, como 1, 2, 3, 4, 5, no implicamos que la diferencia de magnitud entre, digamos, los rangos 1 y 2 sea idéntica o incluso proporcional a la diferencia entre 2 y 3.

3. Atributos:

Las variables que no se pueden medir pero que deben expresarse cualitativamente se denominan atributos. Todas estas son propiedades, como blanco o negro, embarazadas o no embarazadas, muertas o vivas, masculinas o femeninas. Cuando estos atributos se combinan con frecuencias, pueden tratarse estadísticamente.

Por ejemplo, de 80 ratones, podemos afirmar que cuatro eran negros, dos agutíes y el resto grises. Cuando los atributos se combinan con frecuencias en tablas adecuadas para el análisis estadístico, se denominan datos de enumeración. Por lo tanto, los datos de enumeración sobre el color en ratones que acabamos de mencionar se organizarían de la siguiente manera:


Datos estadísticos / Variables & # 8211 Introducción (Clasificación de datos estadísticos / variable: numérica frente a categórica)

Ø Los datos son un conjunto de valores de variables cualitativas o cuantitativas.

Ø En bioestadística (también en estadística) los datos son las observaciones individuales.

Ø Las investigaciones científicas involucran observaciones sobre variables.

Ø Las observaciones realizadas sobre estas variables se obtienen en forma de "datos’.

Ø Variable es una cantidad o característica que puede "variar de un individuo a otro".

Ø Ejemplo: considere el "peso" característico de los individuos y déjelo denotar con la letra "N". El valor de "N" varía de un individuo a otro y, por lo tanto, "N" es una variable.

Ø Los datos y las variables no son exactos, pero se utilizan con frecuencia como sinónimos.

Ø Las variables también se pueden llamar "elementos de datos’.

Ø La mayoría del análisis estadístico se realiza sobre variables.

Tipo de variables en estadísticas

Las variables estadísticas se pueden clasificar según dos criterio (I) Naturaleza de las variables y (II) Fuente de variables

I. Clasificación de variable basada en la naturaleza de las variables

Ø Con base en la naturaleza de las variables, las variables estadísticas se pueden clasificar DOS categorías principales como (1) Numérico y 2) Categórico.

Ø El cuadro de clasificación de variables se da a continuación:

(1). Variable numérica

Ø Las variables numéricas son las variables medibles o contables.

Ø Se les llama mejor como variable cuantitativa porque dan los datos cuantitativos.

Ø Ejemplo: altura de la planta, peso de la fruta, rendimiento del cultivo, número de pétalos, semillas, hojas de una planta, etc.

Ø Las variables numéricas se clasifican además en (a) Variables discretas y B) Variables continuas.

(a) Variables discretas:

Ø Las variables discretas también se denominan variables discontinuas.

Ø Aquí, los valores que pueden asumir las variables se limitan únicamente a números enteros (0, 1, 2, 3, etc.).

Ø Habrá "brechas" entre los valores sucesivos de la variable.

Ø Ejemplo: Considere el número de pétalos de una flor como una variable discreta X. En la situación real, el número de pétalos de una flor puede ser 4 o 5 o 6 o cualquier número entero. No habrá una variable como 5 ½ pétalos o 4.2 pétalos. Estas variables se denominan variables discretas o variables discontinuas.

Ø Ejemplo: número de hermanos, número de pétalos, etc.

(b) Variables continuas

Ø Continuas son aquellas variables que pueden tomar cualquier valor dentro de un cierto rango.

Ø Hay NO "Huecos" entre los valores sucesivos de la variable.

Ø Ejemplo: Considere la altura de la planta como la variable X. En una situación real, la altura de la planta puede ser de 10 cm, 10,1 cm, 10,5 cm, 10,8 cm, 11 cm, etc. Así, entre dos números enteros (aquí 10 y 11) , hay numerosos valores posibles. Tal variable se llama variable continua.

Ø Ejemplos: altura, peso, longitud, velocidad, etc.

(2). Variable categórica

Ø Las variables categóricas son variables no medibles.

Ø También se denominan variables no numéricas o cualitativas ya que dan datos cualitativos.

Ø Ejemplo: color de la flor, forma de las hojas, forma de las semillas, etc.

Ø Las variables categóricas se clasifican además en (a) Variables nominales y (b) Variables ordinales.

(a). Variables nominales:

Ø Las variables nominales tienen distintos niveles que NO tienen un orden inherente.

Ø Ejemplo: color de cabello (blanco, negro, castaño, etc.), género (masculino y femenino).

Ø En estadística, la medida nominal significa otorgar un valor numérico a una característica específica (ejemplo: Género de los empleados en una oficina: hombre 20, mujer 28).

(B). Variables ordinales :

Ø Las variables ordinales tienen niveles que siguen un orden distinto.

Ø Ejemplos: Los grados de cambios en el paciente con fiebre después del tratamiento con antibióticos (tales como: gran mejoría, mejoría moderada, sin cambios, muerte).

II. Clasificación de variable basada en la fuente de variables

Ø Con base en la fuente de datos (variables), los datos se pueden clasificar en (a) Primario Datos y (b) Secundario Datos

(a). Información primaria

Ø Los datos recopilados originalmente en el proceso de investigación por el investigador se denominan datos primarios.

Ø Los datos primarios son más precisos y uniformes.

Ø Los datos primarios implican la supervisión del investigador.

Ø La recopilación de datos primarios requiere tiempo y trabajo.

Ø Los estudios biológicos, particularmente los estudios experimentales, dependen principalmente de datos primarios.

(B). Datos secundarios

Ø Los datos secundarios son los datos recopilados por otra persona u organización para su propio uso.

Ø Son los datos que ya existen para el mismo u otro propósito que responder a la pregunta en cuestión (Blair M.M.).

Ø Los datos secundarios suelen ser datos publicados por el investigador principal.

Ø Obtener los datos secundarios es ventajoso ya que es menos costoso y requiere menos tiempo.

Ø Los datos secundarios se utilizan con frecuencia en disciplinas como la economía, el comercio, la agricultura, la salud pública, etc.

Ø Ejemplo: datos del censo de población, tasa de mortalidad nacional, lluvia anual, registros presupuestarios, etc.

Ø Los resultados de la investigación publicados en revistas de renombre también pueden actuar como datos secundarios.

Fuente de datos secundarios

Ø Las fuentes publicadas son la fuente excelente y de uso frecuente de datos secundarios.

Ø Estos son los registros publicados o mantenidos por agencias gubernamentales y no gubernamentales como el departamento de censo, el departamento de estadística, el departamento de salud, el departamento de agricultura y pesca, las publicaciones oficiales de la ONU, la OMS, el PNUMA, la UNESCO, etc.son una buena fuente de información secundaria datos.

Ø Las fuentes importantes de datos secundarios se resumen a continuación:

(a). Publicaciones internacionales: Estos son los informes periódicos u ocasionales de organizaciones internacionales como la ONU, la OMS, WWF, FMI (Fondo monetario internacional), etc.

(B). Publicaciones oficiales del estado y gobierno central: Son las publicaciones del estado de gobierno central sobre temas de actualidad o informes periódicos periódicos. Ejemplo: censo de la India, boletín del banco de reserva, informe de moneda y finanzas, etc.

(C). Informes del comité: estos son los informes de las comisiones de investigación designadas por el gobierno. Ejemplo: informe del comité Madhav Gadgil, informe del comité Kasturirangan, etc.

(D). Periódicos y revistas: Estos son los informes y artículos de revisión importantes publicados en periódicos y revistas de renombre.

(mi). Académicos de investigación: Son los informes o resultados de investigaciones anteriores publicados en revistas de renombre.

(F). Publicaciones semioficiales: Estas son las publicaciones de las organizaciones semigubernamentales como municipios, provincias, etc.

Ø Aparte de los datos publicados, algunos datos genuinos pero no publicados también pueden utilizarse como fuente de datos secundarios con gran precaución.

Se debe tener cuidado antes de tomar los datos secundarios

Ø Antes de tomar los datos secundarios, el investigador debe indagar sobre los siguientes aspectos de los datos:

$ La confiabilidad de los datos.

$ La competencia de la persona (u organización) que recopiló los datos.


Preguntas y respuestas amp

Contexto de la pregunta 1

Considere la siguiente función.

1) Si ejecutamos los siguientes comandos (escritos a continuación), ¿cuál será el resultado?

La regla de alcance de R hará que z & lt-4 tenga prioridad sobre z & lt-10. Por lo tanto, g (x) devolverá un valor de 8. Por lo tanto, la opción A es la respuesta correcta.

Contexto de la pregunta 2

El conjunto de datos de iris tiene diferentes especies de flores como Setosa, Versicolor y Virginica con la longitud de su sépalo. Ahora, queremos comprender la distribución de la longitud del sépalo en todas las especies de flores. Una forma de hacer esto es visualizar esta relación a través del gráfico que se muestra a continuación.

2) ¿Qué función se puede utilizar para producir el gráfico que se muestra arriba?

A) xyplot ()
B) trazado de bandas ()
C) gráfico de barras ()
D) bwplot ()

El gráfico anterior es de tipo franja, mientras que las opciones a, cyd producirán un gráfico de dispersión, barras y bigotes de caja, respectivamente. Por tanto, la opción B es la solución correcta.

Contexto de la pregunta 3

Alfa 125.5 0
Beta 235.6 1
Beta 212.03 0
Beta 211.30 0
Alfa 265.46 1

3) ¿Cuál de los siguientes comandos leerá correctamente el archivo csv anterior con 5 filas en un marco de datos?

Las opciones 1 y 2 leerán la primera fila del marco de datos anterior como encabezado. La opción 3 no existe. Por tanto, la opción D es la solución correcta.

Contexto de la pregunta 4

El formato de archivo de Excel es uno de los formatos más comunes que se utilizan para almacenar conjuntos de datos. Es importante saber cómo importar un archivo de Excel a R. A continuación se muestra un archivo de Excel en el que se han ingresado datos en la tercera hoja.

Alfa 125.5 0
Beta 235.6 1
Beta 212.03 0
Beta 211.30 0
Alfa 265.46 1

Nombre de archivo & # 8211 Dataframe.xlsx

4) ¿Cuál de los siguientes códigos leerá los datos anteriores en la tercera hoja en un marco de datos en R?

Todas las opciones anteriores son verdaderas, ya que brindan diferentes métodos para leer un archivo de Excel en R y leer el archivo anterior correctamente. Por tanto, la opción D es la solución correcta.

Pregunta Contexto 5

A 10 Sam
B 20 Pedro
C 30 Harry
D ! ?
mi 50 Marcos

Nombre de archivo & # 8211 Dataframe.csv

5) Los valores faltantes en este archivo csv se han representado con un signo de exclamación (& # 8220! & # 8221) y un signo de interrogación (& # 8220? & # 8221). ¿Cuál de los siguientes códigos leerá correctamente el archivo csv anterior en R?

B) csv (‘Dataframe.csv’, header = FALSE, sep = ’,’, na.strings = c (‘?’))

La opción A no podrá leer "?" y "!" como N / A en R. la opción B solo podrá leer "?" como N / A pero no "!”. La opción 4 no existe. Por tanto, la opción C es la solución correcta.

Contexto de la pregunta 6-7

Columna 1 Columna 2 Columna 3
Fila 1 15.5 14.12 69.5
Fila 2 18.6 56.23 52.4
Fila 3 21.4 47.02 63.21
Fila 4 36.1 56.63 36.12

Nombre de archivo & # 8211 Dataframe.csv

6) El archivo csv anterior tiene nombres de filas y columnas. ¿Cuál de los siguientes códigos leerá correctamente el archivo csv anterior en R?

B) csv2 ('Train.csv', header = TRUE, row.names = TRUE)

Solución: (D)

nombres de fila El argumento en las opciones A y B toma solo el vector que contiene los nombres de fila reales o un solo número que da la columna de la tabla que contiene los nombres de fila y no un valor lógico. La opción C no existe. Por tanto, la opción D es la solución correcta.

Contexto de la pregunta 6-7

Columna 1 Columna 2 Columna 3
Fila 1 15.5 14.12 69.5
Fila 2 18.6 56.23 52.4
Fila 3 21.4 47.02 63.21
Fila 4 36.1 56.63 36.12

Nombre de archivo & # 8211 Dataframe.csv

7) ¿Cuál de los siguientes códigos leerá solo las dos primeras filas del archivo csv?

La opción B no podrá leer el archivo csv correctamente ya que el separador predeterminado en la función csv2 es ""Mientras que los archivos csv son de tipo",”. La opción C tiene un valor de argumento de encabezado incorrecto. La opción D no existe. Por lo tanto, la opción A es la respuesta correcta.

Contexto de la pregunta 8

8) Hay dos marcos de datos almacenados Dataframe1 y Dataframe2 que se muestran arriba. ¿Cuál de los siguientes códigos producirá el resultado que se muestra a continuación?

Característica1 Feature2 Feature3
A 1000 25.5
B 2000 35.5
C 3000 45.5
D 4000 55.5
mi 5000 65.5
F 6000 75.5
GRAMO 7000 85.5
H 8000 95.5

Solución: (D)

La opción C dará como resultado que la característica 4 se incluya en el marco de datos combinado, que es lo que no queremos. Por lo tanto, la opción D es la solución correcta.

Contexto de la pregunta 9

V1 V2
1 121.5 461
2 516 1351
3 451 6918
4 613 112
5 112.36 230
6 25.23 1456
7 12 457

9) Se leyó un conjunto de datos en R y se almacenó en una variable & # 8220dataframe & # 8221. ¿Cuál de los siguientes códigos producirá un resumen (media, moda, mediana) de todo el conjunto de datos en una sola línea de código?

Solución: (MI)

La opción A dará solo la media y la mediana, pero no la moda. Las opciones B, C y D tampoco proporcionarán las estadísticas requeridas. Por lo tanto, la opción E es la solución correcta.

Contexto de la pregunta 10

Se leyó un conjunto de datos en R y se almacenó en una variable & # 8220dataframe & # 8221. Los valores faltantes se han leído como NA.

A 10 Sam
B N / A Pedro
C 30 Harry
D 40 N / A
mi 50 Marcos

10) ¿Cuál de los siguientes códigos no dará el número de valores faltantes en cada columna?

C) sapply (marco de datos, función (x) suma (es.na (x))

Solución: (D)

La opción D dará el recuento general de los valores faltantes, pero no por columnas. Por lo tanto, la opción D es la solución correcta.

Contexto de la pregunta 11

Una de las fases importantes en una canalización de análisis de datos es el análisis univariante de las características que incluye la verificación de los valores perdidos y la distribución, etc. A continuación se muestra un conjunto de datos y deseamos trazar un histograma para la variable & # 8220Value & # 8221.

Parámetro Estado Valor Dependientes
Alfa Activo 50 2
Beta Activo 45 5
Beta Pasivo 25 0
Alfa Pasivo 21 0
Alfa Pasivo 26 1
Beta Activo 30 2
Beta Pasivo 18 0

11) ¿Cuál de los siguientes comandos nos ayudará a realizar esa tarea?

Solución: (D)

Todas las opciones dadas trazarán un histograma y eso se puede usar para ver la asimetría de los datos deseados.

Contexto de la pregunta 12

Parámetro Estado Valor Uso
Alfa Activo 50 0
Beta Activo 45 1
Beta Pasivo 25 0
Alfa Pasivo 21 0
Alfa Pasivo 26 1
Beta Activo 30 1
Beta Pasivo 18 0

Ciertos algoritmos como XGBOOST funcionan solo con datos numéricos. En ese caso, las variables categóricas presentes en el conjunto de datos se convierten primero en variables DUMMY que representan la presencia o ausencia de un nivel de una variable categórica en el conjunto de datos. Por ejemplo, después de crear la variable ficticia para la función & # 8220Parameter & # 8221, el conjunto de datos se ve a continuación.

Parámetro_Alpha Parámetro_Beta Estado Valor Uso
1 0 Activo 50 0
0 1 Activo 45 1
0 1 Pasivo 25 0
1 0 Pasivo 21 0
1 0 Pasivo 26 1
0 1 Activo 30 1
0 1 Pasivo 18 0

12) ¿Cuál de los siguientes comandos nos ayudará a lograr esto?

A) dummies :: dummy.data.frame (marco de datos, nombres = c (& # 8216Parameter & # 8217))

Solución: (D)

La opción C codificará la Parámetro la columna tendrá 2 niveles pero no realizará una codificación en caliente. Por tanto, la opción D es la solución correcta.

Contexto de la pregunta 13

Columna1 Columna2 Columna3 Columna 4 Columna 5 Columna 6
Nombre1 Alfa 12 24 54 0 Alfa
Nombre2 Beta 16 32 51 1 Beta
Nombre3 Alfa 52 104 32 0 Gama
Nombre4 Beta 36 72 84 1 Delta
Nombre5 Beta 45 90 32 0 Fi
Nombre6 Alfa 12 24 12 0 Zeta
Nombre7 Beta 32 64 64 1 Sigma
Nombre8 Alfa 42 84 54 0 Mu
Nombre9 Alfa 56 112 31 1 Eta

13) Deseamos calcular la correlación entre & # 8220Column2 & # 8221 y & # 8220Column3 & # 8221 de un & # 8220dataframe & # 8221. ¿Cuál de los siguientes códigos logrará el propósito?

(suma (marco de datos $ Columna2 * marco de datos $ Columna3) - (suma (marco de datos $ Columna2) * suma (marco de datos $ Columna3) / nrow (marco de datos))) / (sqrt ((suma (marco de datos $ Columna2 * marco de datos $ Columna2) - ( suma (marco de datos $ Columna2) ^ 3) / nrow (marco de datos)) * (suma (marco de datos $ Columna3 * marco de datos $ Columna3) - (suma (marco de datos $ Columna3) ^ 2) / nrow (marco de datos))))

En la opción A, corr es el nombre de función incorrecto. El nombre de la función real para calcular la correlación es cor. En la opción B, es la desviación estándar la que debe ser el denominador y no la varianza. De manera similar, la fórmula de la Opción C es incorrecta. Por lo tanto, la opción D es la solución correcta.

Contexto de la pregunta 14

Parámetro Estado Valor Dependientes
Alfa Activo 50 2
Beta Activo 45 5
Beta Pasivo 25 0
Alfa Pasivo 21 0
Alfa Pasivo 26 1
Beta Activo 30 2
Beta Pasivo 18 0

14) El conjunto de datos anterior se ha cargado para usted en R en una variable llamada & # 8220dataframe & # 8221 con la primera fila que representa el nombre de la columna. ¿Cuál de los siguientes códigos seleccionará solo las filas para las que el parámetro es Alfa?

A) subconjunto (marco de datos, parámetro = & # 8217Alpha & # 8217)

B) subconjunto (marco de datos, parámetro == & # 8217Alpha & # 8217)

En la opción A, debería haber un operador de igualdad en lugar del operador de asignación. Por tanto, la opción D es la solución correcta.

15) ¿Cuál de las siguientes funciones se usa para ver el conjunto de datos en formato de hoja de cálculo?

Solución : (B)

La opción B es la única opción que mostrará el conjunto de datos en formato de hoja de cálculo. Por tanto, la opción B es la solución correcta.

Contexto de la pregunta 16

El siguiente marco de datos se almacena en una variable denominada datos.

A B
1 Derecha
2 Incorrecto
3 Incorrecto
4 Derecha
5 Derecha
6 Incorrecto
7 Incorrecto
8 Derecha

16) Suponga que B es una variable categórica y deseamos dibujar una gráfica de caja para cada nivel del nivel categórico. ¿Cuál de los siguientes comandos nos ayudará a lograrlo?

La función de diagrama de caja en R requiere una entrada de fórmula para dibujar diferentes diagramas de caja por niveles de una variable de factor. Por lo tanto, la opción B es la solución correcta.

17) ¿Cuál de los siguientes comandos dividirá la ventana de trazado en ventanas de 4 X 3 y dónde los gráficos entrarán en la columna de la ventana?

mfcol El argumento asegurará que los gráficos entren en la columna de la ventana de trazado. Por lo tanto, la opción B es la solución correcta.

Contexto de la pregunta 18

Un marco de datos & # 8220df & # 8221 tiene los siguientes datos:

Después de leer los datos anteriores, queremos el siguiente resultado:

18) ¿Cuál de los siguientes comandos producirá la salida deseada?

Solución: (D)

Ninguna de las opciones anteriores producirá el resultado deseado. Por lo tanto, la opción D es la solución correcta.

19) ¿Cuál de los siguientes comandos nos ayudará a cambiar el nombre de la segunda columna en un marco de datos llamado & # 8220table & # 8221 de alfa a beta?

Solución: (D)

Todas las opciones anteriores son métodos diferentes para cambiar el nombre de las columnas de un marco de datos. Por lo tanto, la opción D es la solución correcta.

Contexto de la pregunta: 20

La mayoría del trabajo en R usa la memoria interna del sistema y con grandes conjuntos de datos, pueden surgir situaciones en las que el espacio de trabajo de R no puede contener todos los objetos de R en la memoria. Así que eliminar los objetos no utilizados es una de las soluciones.

20) ¿Cuál de los siguientes comandos eliminará un objeto / variable R llamado & # 8220santa & # 8221 del espacio de trabajo?

A) quitar (santa)
B) rm (santa)
C) Ambos
D) Ninguno

Solucion: (C)

retirar y rm , ambos se pueden utilizar para limpiar el espacio de trabajo. Por tanto, la opción C es la solución correcta.

21) & # 8220dplyr & # 8221 es uno de los paquetes más populares utilizados en R para manipular datos y contiene 5 funciones básicas para manejar datos. ¿Cuál de las siguientes no es una de las funciones principales del paquete dplyr?

Solución: (D)

resumen es una función en el paquete base de R y no dplyr.

Contexto & # 8211 Pregunta 22

Durante la selección de características, utilizando el siguiente marco de datos (tabla con nombre), & # 8220Column1 & # 8221 y & # 8220Column2 & # 8221 resultaron no ser significativos. Por lo tanto, no nos gustaría incluir estas dos características en nuestro modelo predictivo.

Columna1 Columna2 Columna3 Columna 4 Columna 5 Columna 6
Nombre1 Alfa 12 24 54 0 Alfa
Nombre2 Beta 16 32 51 1 Beta
Nombre3 Alfa 52 104 32 0 Gama
Nombre4 Beta 36 72 84 1 Delta
Nombre5 Beta 45 90 32 0 Fi
Nombre6 Alfa 12 24 12 0 Zeta
Nombre7 Beta 32 64 64 1 Sigma
Nombre8 Alfa 42 84 54 0 Mu
Nombre9 Alfa 56 112 31 1 Eta

22) ¿Cuál de los siguientes comandos seleccionará todas las filas de la columna 3 a la columna 6 para el marco de datos a continuación denominado tabla?

Las opciones A, B y C son métodos de subconfiguración de columnas diferentes en R. Por lo tanto, la opción D es la solución correcta.

Pregunta de contexto 23-24

Columna1 Columna2 Columna3 Columna 4 Columna 5 Columna 6
Nombre1 Alfa 12 24 54 0 Alfa
Nombre2 Beta 16 32 51 1 Beta
Nombre3 Alfa 52 104 32 0 Gama
Nombre4 Beta 36 72 84 1 Delta
Nombre5 Beta 45 90 32 0 Fi
Nombre6 Alfa 12 24 12 0 Zeta
Nombre7 Beta 32 64 64 1 Sigma
Nombre8 Alfa 42 84 54 0 Mu
Nombre9 Alfa 56 112 31 1 Eta

23) ¿Cuál de los siguientes comandos seleccionará las filas que tienen valores & # 8220Alpha & # 8221 en & # 8220Column1 & # 8221 y un valor menor que 50 en & # 8220Column4 & # 8221? El marco de datos se almacena en una variable denominada tabla.

A) dplyr :: filter (tabla, Columna1 == & # 8217Alpha & # 8217, Columna4 & lt50)

B) dplyr :: filter (tabla, Columna1 == & # 8217Alpha & # 8217 & amp Column4 & lt50)

Solución: (C)

  1. la función de filtro en el paquete dplyr usa ",”Y & # 8220 & amp & # 8221 para agregar la condición. Por lo tanto, la opción C es la solución correcta.

Contexto de la pregunta 23-24

Columna1 Columna2 Columna3 Columna 4 Columna 5 Columna 6
Nombre1 Alfa 12 24 54 0 Alfa
Nombre2 Beta 16 32 51 1 Beta
Nombre3 Alfa 52 104 32 0 Gama
Nombre4 Beta 36 72 84 1 Delta
Nombre5 Beta 45 90 32 0 Fi
Nombre6 Alfa 12 24 12 0 Zeta
Nombre7 Beta 32 64 64 1 Sigma
Nombre8 Alfa 42 84 54 0 Mu
Nombre9 Alfa 56 112 31 1 Eta

24) ¿Cuál de los siguientes códigos ordenará el marco de datos según & # 8220Column2 & # 8221 en orden ascendente y & # 8220Column3 & # 8221 en orden descendente?

Solución: (C)

Tanto las funciones de orden como las de organización se pueden usar para ordenar las columnas en R. Por lo tanto, la Opción C es la solución correcta.

25) Tratar con cadenas es una parte importante del análisis de texto y dividir una cadena es a menudo una de las tareas comunes que se realizan al crear tokens, etc. ¿Cuál será el resultado de los siguientes comandos?

Solución : (B)

c (A.B) concatenaría A = ”alfa beta gamma” y B = ”phithetazeta” separados por un espacio en blanco. Al usar strsplit, las dos cadenas se separarán en el espacio en blanco entre A y B en dos listas. Parts [[1]] [2] nos dice que imprimamos el segundo subelemento del primer elemento de la lista que es “beta”. Por tanto, la opción B es la solución correcta.

26) ¿Cuál será el resultado del siguiente comando?

A) [FALSO VERDADERO VERDADERO FALSO VERDADERO]

B) [FALSO VERDADERO VERDADERO FALSO FALSO]

C) [FALSO FALSO VERDADERO FALSO FALSO]

Solución: (C)

El comando anterior buscará la coincidencia exacta del argumento pasado y, por lo tanto, la Opción C es la solución correcta.

Contexto de la pregunta 27

A veces, como científico de datos que trabaja con datos textuales, nos encontramos con casos en los que encontramos múltiples apariciones de una palabra que no es deseada. A continuación se muestra una de esas cadenas.

Solución: (A)

El subcomando reemplazará solo la primera aparición en una cadena, mientras que regexec devolverá una lista de posiciones de la coincidencia o -1 si no ocurre ninguna coincidencia. Por lo tanto, la opción A es la solución correcta.

28) Imagine un marco de datos creado a través del siguiente código.

¿Cuál de los siguientes comandos nos ayudará a eliminar las filas duplicadas basadas en ambas columnas?

Todos los métodos anteriores son formas diferentes de eliminar las filas duplicadas en función de ambas columnas. Por lo tanto, la opción D es la solución correcta.

Contexto de la pregunta 29

La agrupación es una actividad importante en el análisis de datos y nos ayuda a descubrir algunas tendencias interesantes que pueden no ser visibles fácilmente en los datos sin procesar.

Suponga que tiene un conjunto de datos creado por las siguientes líneas de código.

29) ¿Cuál de los siguientes comandos nos ayudará a calcular el valor medio de la barra agrupada por la variable foo?

Todos los métodos anteriores se utilizan para calcular la estadística agrupada de una columna. Por lo tanto, la opción D es la solución correcta.

30) Si tengo dos vectores x & lt- c (1,3, 5) e y & lt-c (3, 2), ¿qué se produce con la expresión cbind (x, y)?

A) una matriz con 2 columnas y 3 filas

B) una matriz con 3 columnas y 2 filas

C) un marco de datos con 2 columnas y 3 filas

D) un marco de datos con 3 columnas y 2 filas

Solución: (D)

Todas las opciones anteriores definen datos desordenados y, por lo tanto, la Opción D es la solución correcta.

31) ¿Cuál de los siguientes comandos convertirá el siguiente marco de datos llamado maverick en el que se muestra en la parte inferior?

Marco de datos de entrada & # 8211 & # 8220maverick & # 8221

Calificación Masculino Mujer
A 10 15
B 20 15
A 30 35

Marco de datos de salida

Calificación Sexo Contar
A Masculino 10
A Mujer 15
B Masculino 30
B Mujer 15
A Masculino 30
A Mujer 35

A) tidyr :: Gather (inconformista, Sexo, Conde, -Grado)

B) tidyr :: spread (inconformista, Sexo, Conde, -Grado

C) tidyr :: recolectar (inconformista, Sexo, Conde, -Grado)

Solución: (A)

El comando Spread convierte filas en columnas, mientras que no hay un comando de recopilación en tidyr o en el paquete base.

Por lo tanto, la opción A es la solución correcta.

32) ¿Cuál de los siguientes comandos nos ayudará a reemplazar cada instancia de Delhi con Delhi_NCR en el siguiente vector de caracteres?

Aunque el subcomando solo reemplaza la primera aparición de un patrón. En este caso, las cadenas tienen una sola apariencia de Delhi. Por lo tanto, tanto gsub como sub command funcionarán en esta situación. Por lo tanto, la opción C es la solución correcta.

Contexto de la pregunta 33

A veces, la creación de una función que represente si otra variable tiene valores perdidos o no puede resultar muy útil para un modelo predictivo.

A continuación se muestra un marco de datos al que le faltan valores en una de sus columnas.

Característica1 Feature2
B N / A
C 30
D 40
mi 50


33) ¿Cuál de los siguientes comandos creará una columna llamada & # 8220missing & # 8221 con valor 1 donde la variable & # 8220Feature2 & # 8221 tiene valores perdidos?

Característica1 Feature2 Desaparecido
B N / A 1
C 30 0
D 40 0
mi 50 0

La opción C es la respuesta correcta.

34) Suponga que hay 2 marcos de datos & # 8220A & # 8221 y & # 8220B & # 8221. A tiene 34 filas y B tiene 46 filas. ¿Cuál será el número de filas en el marco de datos resultante después de ejecutar el siguiente comando?

all.x fuerza a que la fusión se lleve a cabo sobre la base de A y, por lo tanto, contendrá el mismo número de filas que A. Por lo tanto, la opción C es la solución correcta.

Contexto de la pregunta 35

Lo primero que hace un científico de datos después de cargar el conjunto de datos es averiguar la cantidad de filas y columnas que tiene. En términos técnicos, se denomina conocer las dimensiones del conjunto de datos. Esto se hace para tener una idea sobre la escala de datos con los que está tratando y, posteriormente, elegir las técnicas y herramientas adecuadas.

35) ¿Cuál de los siguientes comandos no nos ayudará a ver las dimensiones de nuestro conjunto de datos?

Solución: (C)

El comando Ver imprimirá el conjunto de datos en la consola en un formato similar a una hoja de cálculo, pero no nos ayudará a ver las dimensiones. Por tanto, la opción C es la solución correcta.

Contexto de la pregunta 36

A veces, nos enfrentamos a una situación en la que tenemos dos columnas de un conjunto de datos y deseamos saber qué elementos de la columna no están presentes en otra columna. Esto se logra fácilmente en R usando el comando setdiff.

Columna1 Columna2 Columna3 Columna 4 Columna 5 Columna 6
Nombre1 Alfa 12 24 54 0 Sión
Nombre2 Beta 16 32 51 1 Beta
Nombre3 Alfa 52 104 32 0 Gama
Nombre4 Beta 36 72 84 1 Delta
Nombre5 Beta 45 90 32 0 Fi
Nombre6 Alfa 12 24 12 0 Zeta
Nombre7 Beta 32 64 64 1 Sigma
Nombre8 Alfa 42 84 54 0 Mu
Nombre9 Alfa 56 112 31 1 Eta

36) ¿Cuál será el resultado del siguiente comando?

Solución: (B)

El orden de los argumentos es importante en la función setdiff. Por tanto, la opción B es la solución correcta.

Contexto de la pregunta 37

El siguiente conjunto de datos se almacena en una variable llamada & # 8220frame & # 8221.

A B
alfa 100
beta 120
gama 80
delta 110

37) ¿Cuál de los siguientes comandos creará un diagrama de barras para el conjunto de datos anterior? Utilice los valores de la Columna B para representar la altura del gráfico de barras.

stat = ”identity” asegurará que los valores de la columna B se conviertan en la altura de la barra. Por lo tanto, la opción A es la solución correcta.

Contexto de la pregunta 38

A mpg cil disp hp maldita sea peso qsec vs soy engranaje carbohidratos
Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
Hornet Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
Valiente 18.1 6 225 105 2.76 3.460 20.22 1 0 3 1

38) Deseamos crear un gráfico de barras apiladas para la variable cyl con criterios de apilamiento de Ser vs Variable. ¿Cuál de los siguientes comandos nos ayudará a realizar esta acción?

Ambas opciones A y B crearán un gráfico de barras apiladas guiado por el parámetro "llenar". Por tanto, la opción C es la solución correcta.

39) ¿Cuál es el resultado del comando - pegar (1: 3, c (“x”, ”y”, ”z”), sep = ””)?

Contexto de la pregunta 40

R tiene una rica biblioteca de reserva para dibujar algunos de los gráficos y diagramas de muy alto nivel y muchas veces desea guardar los gráficos para presentar sus hallazgos a otra persona. Guardar sus parcelas en un archivo PDF es una de esas opciones.

40) Si desea guardar un trazado en un archivo PDF, ¿cuál de las siguientes es una forma correcta de hacerlo?

A) Construya el gráfico en el dispositivo de pantalla y luego cópielo en un archivo PDF con dev.copy2pdf ().

B) Construya el gráfico en el dispositivo PNG con png (), luego cópielo a un PDF con dev.copy2pdf ().

C) Abra el dispositivo PostScript con postscript (), construya el gráfico y luego cierre el dispositivo con dev.off ().

D) Abra el dispositivo de pantalla con quartz (), construya el gráfico y luego cierre el dispositivo con dev.off ().

Los gráficos se crean primero en el dispositivo de pantalla y luego se pueden copiar fácilmente a un archivo pdf. Por tanto, la opción A es la solución correcta.

Notas finales

Si está aprendiendo R, debe usar la prueba anterior para verificar sus habilidades en R. Si tiene alguna pregunta o duda, no dude en publicarla a continuación.

¡Aprende, compite, piratea y consigue que te contraten!


Tipos de variables en ciencia de datos y análisis estadístico

Una solución optimizada para un problema del mundo real modelado como un caso de uso de ciencia de datos depende de una multitud de factores. Los más importantes serían el análisis de datos exploratorios, la ingeniería de características y la selección de algoritmos. Todo esto depende en gran medida de la comprensión de los datos en su conjunto, las variables independientes (características) y la variable dependiente (variable de resultado).

Desde la perspectiva estadística, el análisis de los conjuntos de datos correspondientes a un problema típico de ciencia de datos mostrará que los valores de estas variables se encuentran en general en 2 categorías: categóricas o numéricas. Las variables categóricas pueden ser binarias, nominales u ordinales, mientras que las variables numéricas pueden ser discretas o continuas.

VARIABLES CATEGÓRICAS

Variables dicotómicas (o binarias) - Los valores correspondientes a tales variables se clasifican en solo 2 categorías. Ejemplo: si una variable en particular documenta las respuestas a una pregunta "¿Alguna vez ha estado en Roma" con dos opciones de respuesta "Sí" o "No", entonces se puede llamar una variable binaria?

Variables nominales - Los valores se clasifican en dos o más categorías, pero sin un orden específico. Ejemplo: si una variable documenta las respuestas a una pregunta "Nombre el país en el que reside", podría haber muchas respuestas distintas a esa pregunta y las respuestas no tendrán ningún orden asignado. Este puede ser un ejemplo de una variable nominal.

Variables ordinales - Los valores correspondientes a variables ordinales caen en 2 o más categorías como variables nominales, pero las categorías seguirán un cierto orden intrínseco. Ejemplo: si una variable corresponde al nivel de educación más alto de una persona y puede tomar valores de Bachillerato, Grado Asociado, Licenciatura, Maestría, Doctorado, etc., entonces se puede considerar como una variable ordinal siguiendo un orden específico desde el nivel de educación más bajo ( High School) al más alto nivel educativo (Ph.D).

VARIABLES NUMERICAS

Variables discretas - Las variables numéricas discretas suelen seguir una distribución estadística discreta y solo pueden tomar valores numéricos específicos. Ejemplo: si una variable corresponde a los diferentes resultados posibles de lanzar un dado, podría haber solo 6 valores posibles, del 1 al 6. Este es un ejemplo de una variable numérica discreta.

Variables continuas - Las variables numéricas continuas siguen una distribución continua y pueden tomar cualquier valor numérico real en un rango de valores finito o infinito. Ejemplo: si una variable documenta la temperatura corporal de una persona, los valores posibles podrían ser 99,20 F, 97,90 F, 102,40 F, etc. y pueden ser un ejemplo de una variable numérica continua.

¿Qué tipo de los tipos de variables anteriores se ven con más frecuencia en los conjuntos de datos utilizados para el aprendizaje automático o la ciencia de datos? Categórico, numérico, combinación de ambos: las respuestas pueden variar según la experiencia del científico de datos individual. Si bien el conjunto de datos con el que comienza el científico de datos puede tener todos estos tipos diferentes de variables, es importante hacer una selección de características efectiva para elegir lo que es importante para el caso de uso en cuestión y hacer ingeniería de características para convertir una forma a otra cuando sea necesario para asegurarse de que el modelo de aprendizaje automático logre un rendimiento óptimo.


7.7 llamadas ggplot2

A medida que avanzamos en estos capítulos introductorios, pasaremos a una expresión más concisa del código ggplot2. Hasta ahora hemos sido muy explícitos, lo que es útil cuando está aprendiendo:

Por lo general, los primeros uno o dos argumentos de una función son tan importantes que debe conocerlos de memoria. Los dos primeros argumentos de ggplot () son datos y mapeo, y los dos primeros argumentos de aes () son x e y. En el resto del libro, no proporcionaremos esos nombres. Eso ahorra mecanografía y, al reducir la cantidad de texto repetitivo, hace que sea más fácil ver las diferencias entre las parcelas. Esa es una preocupación de programación realmente importante que volveremos en funciones.

Reescribiendo la trama anterior de manera más concisa produce:

A veces, convertiremos el final de un proceso de transformación de datos en una gráfica. Esté atento a la transición de% & gt% a +. Desearía que esta transición no fuera necesaria, pero desafortunadamente ggplot2 se creó antes de que se descubriera la tubería.


3.7 Visualización de datos en 2D: diagramas de dispersión

Los diagramas de dispersión son útiles para visualizar comparaciones tratamiento-respuesta (como en la Figura 3.3), asociaciones entre variables (como en la Figura 3.10) o datos emparejados (por ejemplo, un biomarcador de enfermedad en varios pacientes antes y después del tratamiento). Usamos las dos dimensiones de nuestro papel de trazado, o pantalla, para representar las dos variables. Echemos un vistazo a la expresión diferencial entre un tipo salvaje y una muestra FGF4-KO.

Figura 3.25: Diagrama de dispersión de 45101 medidas de expresión para dos de las muestras.

Las etiquetas 59 E4.5 (PE) y 92 E4.5 (FGF4-KO) se refieren a nombres de columna (nombres de muestra) en el marco de datos dfx, que creamos anteriormente. Dado que contienen caracteres especiales (espacios, paréntesis, guión) y comienzan con números, debemos encerrarlos entre comillas con pendiente descendente para que sean sintácticamente digeribles para R. La gráfica se muestra en la Figura 3.25. Obtenemos una nube de puntos densa que podemos intentar interpretar en las afueras de la nube, pero realmente no tenemos idea visual de cómo se distribuyen los datos dentro de las regiones más densas de la trama.

Una forma fácil de mejorar la sobreimpresión es ajustar la transparencia (valor alfa) de los puntos modificando el parámetro alfa de geom_point (Figura 3.26).

Figura 3.26: Como en la Figura 3.25, pero con puntos semitransparentes para resolver algunos de los sobretrazados.

Esto ya es mejor que en la Figura 3.25, pero en las regiones más densas, incluso los puntos semitransparentes se superponen rápidamente a una masa negra sin rasgos distintivos, mientras que los puntos más aislados y periféricos se están debilitando.Una alternativa es una gráfica de contorno de la densidad 2D, que tiene el beneficio adicional de no representar todos los puntos en la gráfica, como en la Figura 3.27.

Figura 3.27: Como en la Figura 3.25, pero representada como un gráfico de contorno de la estimación de densidad 2D.

Sin embargo, vemos en la Figura 3.27 que la nube de puntos en la parte inferior derecha (que contiene un número relativamente pequeño de puntos) ya no está representada. De alguna manera podemos superar esto ajustando el ancho de banda y los parámetros de agrupamiento de geom_density2d (Figura 3.28, panel izquierdo).

Figura 3.28: Izquierda: como en la Figura 3.27, pero con un ancho de banda de suavizado más pequeño y un agrupamiento más ajustado para las curvas de nivel. Derecha: con relleno de color.

Podemos completar cada espacio entre las líneas de contorno con la densidad relativa de puntos llamando explícitamente a la función stat_density2d (para la cual geom_density2d es un envoltorio) y usando el objeto geométrico polígono, como en el panel derecho de la Figura 3.28.

Usamos la función brewer.pal del paquete RColorBrewer para definir la escala de color, y agregamos una llamada a coord_fixed para fijar la relación de aspecto del gráfico, para asegurarnos de que la asignación del rango de datos a las coordenadas (x ) - y (y ) es la misma para las dos variables. Ambos temas merecen una mirada más profunda, y hablaremos más sobre las formas de los gráficos en la Sección 3.7.1 y sobre los colores en la Sección 3.9.

Los métodos de trazado basados ​​en densidad en la Figura 3.28 son visualmente más atractivos e interpretables que las nubes de puntos sobretrazados de las Figuras 3.25 y 3.26, aunque debemos tener cuidado al usarlos ya que perdemos gran parte de la información sobre los puntos atípicos en las regiones más dispersas de la trama. Una posibilidad es usar geom_point para volver a agregar dichos puntos.

Pero posiblemente la mejor alternativa, que evita las limitaciones del suavizado, es el agrupamiento hexagonal (Carr et al. 1987).

Figura 3.29: Agrupación hexagonal. Izquierda: parámetros predeterminados. Derecha: tamaños de contenedor más finos y escala de colores personalizada.

3.7.1 Trazar formas

Es importante elegir la forma adecuada para su parcela para asegurarse de que la información se transmita bien. De forma predeterminada, el parámetro de forma, es decir, la relación entre la altura del gráfico y su ancho, se elige mediante ggplot2 basado en el espacio disponible en el dispositivo de trazado actual. El ancho y la altura del dispositivo se especifican cuando se abre en R, ya sea explícitamente por usted o mediante parámetros predeterminados 47 47 Consulte, por ejemplo, las páginas del manual de las funciones pdf y png. . Además, las dimensiones del gráfico también dependen de la presencia o ausencia de decoraciones adicionales, como las barras de escala de colores en la Figura 3.29.

Hay dos reglas simples que puede aplicar para diagramas de dispersión:

Si las variables en los dos ejes se miden en las mismas unidades, asegúrese de que se utilice el mismo mapeo del espacio de datos al espacio físico, es decir, utilice coord_fixed. En los diagramas de dispersión anteriores, ambos ejes son el logaritmo en base 2 de las medidas del nivel de expresión, es decir, un cambio en una unidad tiene el mismo significado en ambos ejes (una duplicación del nivel de expresión). Otro caso es el análisis de componentes principales (PCA), donde el eje (x ) típicamente representa el componente 1 y el eje (y ) el componente 2. Dado que los ejes surgen de una rotación ortonormal del espacio de datos de entrada, quiere asegurarse de que sus escamas coincidan. Dado que la varianza de los datos es (por definición) más pequeña a lo largo del segundo componente que a lo largo del primer componente (o como mucho, igual), los gráficos de PCA bien hechos generalmente tienen un ancho que es mayor que la altura.

Si las variables en los dos ejes se miden en diferentes unidades, entonces aún podemos relacionarlas entre sí comparando sus dimensiones. El valor predeterminado en muchas rutinas de trazado en R, incluyendo ggplot2, es mirar el rango de los datos y mapearlo a la región de trazado disponible. Sin embargo, en particular cuando los datos siguen más o menos una línea, puede resultar útil observar la pendiente típica de la línea. Se llama bancario (William S. Cleveland, McGill y McGill 1988).

Para ilustrar la banca, usemos los datos clásicos de manchas solares del artículo de Cleveland.

Figura 3.30: Los datos de las manchas solares. En el panel superior, la forma de la trama es aproximadamente cuadrática, una opción predeterminada frecuente. En el panel inferior, una técnica llamada bancario se utilizó para elegir la forma de la parcela. (Nota: la ubicación de las etiquetas de marcación no es excelente en este gráfico y se beneficiaría de la personalización).

La gráfica resultante se muestra en el panel superior de la Figura 3.30. Podemos ver claramente fluctuaciones a largo plazo en la amplitud de los ciclos de actividad de las manchas solares, con actividades máximas particularmente bajas a principios de 1700, principios de 1800 y alrededor del cambio de 20 (^ text) siglo. Pero ahora probemos la banca.

¿Cómo funciona el algoritmo? Su objetivo es hacer que las pendientes en la curva sean alrededor de uno. En particular, bank_slopes calcula la pendiente absoluta mediana, y luego con la llamada a coord_fixed establecemos la relación de aspecto de la parcela de modo que esta cantidad se convierta en 1. El resultado se muestra en el panel inferior de la Figura 3.30. De manera bastante contraria a la intuición, a pesar de que la trama ocupa un espacio mucho más pequeño, ¡vemos más en ella! En particular, podemos ver la forma de dientes de sierra de los ciclos de manchas solares, con aumentos bruscos y descensos más lentos.


10.3 Impresión

Los marcos de datos tienen un método de impresión refinado que muestra solo la primera y las últimas 5 filas, y todas las columnas que caben en la pantalla. Esto hace que sea mucho más fácil trabajar con datos grandes.

Los marcos de datos están diseñados para que no abrume accidentalmente su consola cuando imprime marcos de datos grandes. Pero a veces necesita más salida que la pantalla predeterminada. Hay algunas opciones que pueden ayudar.

Primero, puede devolver el marco de datos usando .head () en el marco de datos y controlar el número de filas (n) de la pantalla. En el visor interactivo de Python en VS Code, puede desplazarse para ver las otras columnas.

También puede controlar el comportamiento de impresión predeterminado configurando opciones:

pd.set_option ("display.max_rows", 101): si hay más de 101 filas, imprima solo n filas.

pd.set_option ('precisión', 5) establecerá el número de decimales que se muestran.

Puede ver una lista completa de opciones en la ayuda de pandas.

10.3.1 Subconjunto

Hasta ahora, todas las herramientas que ha aprendido han funcionado con marcos de datos completos. Si desea extraer una sola variable, necesita algunas herramientas nuevas, [. [puede extraer por nombre o cargo.


Ver el vídeo: Intro a Past Estadística y Diseño Experimental (Mayo 2022).