3  Seleccionar variables

Al estudiar un conjunto de datos, es frecuente tener que seleccionar los datos relevantes para responder a las diferentes cuestiones planteadas.

Si por ejemplo queremos saber cuál es el peso máximo de todos los pingüinos del estudio, seleccionaremos la variable body_mass_g y después calcularemos su máximo.

En esta sección aprenderás los métodos para seleccionar variables de una hoja de datos.

3.1 Seleccionar una variable

Utiliza la siguiente instrucción para seleccionar la variable body_mass_g:

mass = penguins["body_mass_g"]

Para seleccionar una sola variable, usa corchetes [] e indica el nombre de la columna de interés.

Ahora podemos aplicar la función max() para obtener el peso máximo:

mass.max()
6300.0

Vemos que el pingüino más pesado del estudio pesa \(6\) kilos y \(300\) gramos.

Podemos realizar las dos operaciones anteriores, seleccionar la variable body_mass_g, y calcular su máximo con una sola instrucción:

penguins["body_mass_g"].max()
6300.0

Obtenemos el mismo resultado de antes.

Ejercicio 3.1 Calcula el peso medio de todos los pingüinos (función mean()).

Ejercicio 3.2 Calcula el valor mínimo para la longitud de las alas de todos los pingüinos (función min()).

3.2 Seleccionar una lista de variables

Para seleccionar las dos variables relativas a las dimensiones del pico, bill_length_mm y bill_depth_mm, ejecuta la siguiente instrucción:

bill = penguins[["bill_length_mm", "bill_depth_mm"]]

Para seleccionar una lista de variables, usa corchetes [] adicionales para crear la lista con los nombres de las columnas de interés (los corchetes exteriores indican que se van a seleccionar datos y los interiores crean la lista).

Ahora podemos calcular la media para ambas variables con

bill.mean()
bill_length_mm    43.92193
bill_depth_mm     17.15117
dtype: float64

Vemos que los picos de los pingüinos tiene una longitud media de \(43.92\) milímetros y una anchura media de \(17.15\) milímetros.

Ejercicio 3.3 Calcula el número de observaciones no nulas (función count()) para las variables species y body_mass_g con una sola línea de código.