= penguins["body_mass_g"] mass
3 Seleccionar variables
Al estudiar un conjunto de datos, es frecuente tener que seleccionar los datos relevantes para responder a las diferentes cuestiones planteadas.
Si por ejemplo queremos saber cuál es el peso máximo de todos los pingüinos del estudio, seleccionaremos la variable body_mass_g
y después calcularemos su máximo.
En esta sección aprenderás los métodos para seleccionar variables de una hoja de datos.
3.1 Seleccionar una variable
Utiliza la siguiente instrucción para seleccionar la variable body_mass_g
:
Para seleccionar una sola variable, usa corchetes []
e indica el nombre de la columna de interés.
Ahora podemos aplicar la función max()
para obtener el peso máximo:
max() mass.
6300.0
Vemos que el pingüino más pesado del estudio pesa \(6\) kilos y \(300\) gramos.
Podemos realizar las dos operaciones anteriores, seleccionar la variable body_mass_g
, y calcular su máximo con una sola instrucción:
"body_mass_g"].max() penguins[
6300.0
Obtenemos el mismo resultado de antes.
Ejercicio 3.1 Calcula el peso medio de todos los pingüinos (función mean()
).
Ejercicio 3.2 Calcula el valor mínimo para la longitud de las alas de todos los pingüinos (función min()
).
3.2 Seleccionar una lista de variables
Para seleccionar las dos variables relativas a las dimensiones del pico, bill_length_mm
y bill_depth_mm
, ejecuta la siguiente instrucción:
= penguins[["bill_length_mm", "bill_depth_mm"]] bill
Para seleccionar una lista de variables, usa corchetes []
adicionales para crear la lista con los nombres de las columnas de interés (los corchetes exteriores indican que se van a seleccionar datos y los interiores crean la lista).
Ahora podemos calcular la media para ambas variables con
bill.mean()
bill_length_mm 43.92193
bill_depth_mm 17.15117
dtype: float64
Vemos que los picos de los pingüinos tiene una longitud media de \(43.92\) milímetros y una anchura media de \(17.15\) milímetros.
Ejercicio 3.3 Calcula el número de observaciones no nulas (función count()
) para las variables species
y body_mass_g
con una sola línea de código.