# Array (parte 2)

In [None]:
import matplotlib.pyplot as plt
import numpy as np

plt.rc("figure", dpi=100)  # aumenta la resolución de las figuras

## Cargando un archivo

Hay muchos formatos para guardar datos en archivos.
El más simple es guardarlos en un archivo de texto.

En este caso,
tenemos preparado un archivo de ejemplo
que pueden descargar de [aqui](https://github.com/maurosilber/python-tutorial/raw/main/book/numpy/datos.txt).

Si están corriendo este notebook en Google Colab,
pueden descargar el archivo de ejemplo
corriendo la siguiente linea en una celda de código:

```python
!wget https://github.com/maurosilber/python-tutorial/raw/main/book/numpy/datos.txt
```

También,
pueden descargarlo manualmente,
y subirlo a Google Colab.

Si abren el archivo `datos.txt` en un editor de texto,
como el bloc de notas o notepad,
pueden ver que es un archivo de texto
con un número en cada línea:

```
10.50
9.86
10.65
...
```

Para cargarlo a un array de NumPy,
podemos usar la función `np.loadtxt`,
a la que le tenemos que pasar el nombre o ubicación del archivo:

In [None]:
datos = np.loadtxt("datos.txt")

datos

Si tienen problemas al cargar el archivo,
puede deberse a que no se encuentre en la misma carpeta en la que están ejecutando el notebook.

### Números con coma decimal

Un problema típico es que
los programas de adquisición de datos
hayan guardado los números con coma,
en lugar de punto,
como separador decimal.

En ese caso,
necesitan definir una función
para convertir los números con coma,
y pasársela a `np.loadtxt` en el parámetro `converters`:

```python
def comma_to_float(x):
    x = x.decode().replace(",", ".")
    return float(x)


np.loadtxt("datos.txt", converters=comma_to_float)
```

En versiones de NumPy anteriores a la 1.23,
hay que pasar un diccionario con `numero_de_columna: funcion`.
En este caso,
que solo hay una columna,
sería para la columna `0`:

```python
np.loadtxt("datos.txt", converters={0: comma_to_float})
```

### Comentarios o títulos

Otro problema sucede cuando en la(s) primera(s) línea(s) del archivo no hay números,
sino texto con comentarios o títulos sobre los datos.
Podemos decirle que se saltee la primera linea con:

```python
np.loadtxt("datos.txt", skiprows=1)
```

Si lo llegaran a necesitar,
pueden ver más opciones para `np.loadtxt` en la [documentación](https://numpy.org/doc/stable/reference/generated/numpy.loadtxt.html).

## Visualizando datos

Lo primero y más importante que hay que hacer
al trabajar con datos
es visualizarlos.

Una forma es usar la función `plt.plot`,
que usamos en la sección anterior:

In [None]:
plt.plot(datos, marker="o")

Cuando solo le pasamos un array a `plt.plot`,
lo usa para los valores en `y`,
mientras que para `x` usa la posición (o índice) de cada valor.

Es decir,
`x = np.arange(len(y))`.

Otra forma de visualizarlos
es hacer un histograma:

In [None]:
plt.hist(datos, bins="auto")

plt.ylabel("Cantidad de datos")

Un histograma se construye
dividiendo el rango de los datos en "canastas",
o `bins`,
y contando cuantos datos caen en cada canasta.

En el histograma anterior,
dejamos que la cantidad y ancho de los *bins*
se elijan automáticamente,
pero se pueden especificar manualmente.

A diferencia del gráfico de linea,
en el histograma
se puede entender mejor la distribución de los datos.
Hay una mayor cantidad de datos alrededor de ~10,
y disminuye su cantidad a medida que nos alejamos.

En ambos gráficos,
podemos notar que hay un valor,
alrededor de `15`,
que se aleja significativamente del resto.
Veamos como podemos hacer para descartarlo*.

(*no vamos a discutir acá si está bien o no descartarlo)

## Indexing y slicing

Los *arrays* de NumPy permiten seleccionar un subconjunto de elementos de diversas maneras.

Para el siguiente array:

In [None]:
x = np.array([10, 20, 5, 7, 8])

podemos seleccionar un elemento particular por su índice,
por ejemplo,
el tercer elemento como:

In [None]:
x[2]

(recuerden que el primer elemento es el `0`).

Si queremos acceder al último elemento,
necesitamos saber el largo del array.
Podemos usar la función `len`,
y restarle `1`:

In [None]:
x[len(x) - 1]

Python nos permite ahorrarnos el `len(x)`
y directamente poner `-1`:

In [None]:
x[-1]


Para seleccionar un rango (o *slice*) de elementos,
usamos:

In [None]:
x[1:3]

donde la sintaxis es `x[start:stop]`,
incluyendo `start` y excluyendo `stop`,
al igual que la función `range`.

Otras variantes de *slicing* son:
- especificar el paso con `x[start:stop:step]`,
- omitir `start`, `x[:stop]`, donde el valor por defecto es `0`,
- omitir `stop`, `x[start:]`, donde el valor por defecto es "hasta el final".

Por ejemplo,
para seleccionar los dos primeros elementos:

In [None]:
x[:2]

Todo esto también es válido para las listas,
pero lo siguiente no.

### Advanced indexing

NumPy permite indexar los arrays de otras maneras,
que no son válidas para la lista.

Una de ellas es
pasarle una lista con los índices de los valores que queremos:

In [None]:
x[[0, 1, 3]]

Otra es pasarle un array
de valores *booleanos*,
es decir,
`True` o `False`.

Si este array tiene
`True` en la posición `i`-ésima,
es que queremos quedarnos con el valor en la posición `i`-ésima,
y `False`, que no lo queremos.

Para generar este array,
podemos usar operadores de comparación:

In [None]:
x > 7

Recuerden que `x` era:

In [None]:
x

Entonces,
podemos usar ese array para quedarnos con los valores mayores a `7`:

In [None]:
x[x > 7]

Si queremos obtener los índices donde se cumple la condición,
podemos usar la función `np.nonzero`:

In [None]:
np.nonzero(x > 7)

### Ejercicio 1

Filtrar los datos para descartar el dato cuyo valor es ~15,
y rehacer el histograma para los datos filtrados.

In [None]:
# Escriba aquí su solución

#### Solución

In [None]:
datos_filtrados = datos[datos < 14]

plt.hist(datos_filtrados, bins="auto")

## Reducción

De esta parte sobre los arrays de NumPy,
nos queda aprender las operaciones de reducción.

Hasta ahora,
habíamos visto las operaciones elemento a elemento y de *broadcasting*.

En la primera,
a partir de dos arrays iguales,
se generaba un tercero del mismo tamaño.

En la de *broadcasting*,
al combinar un número con un array,
el número se "estiraba" al tamaño del array,
y se combinaba elemento a elemento.

En las operaciones de reducción,
partimos de un array
y lo reducimos a un número.

Por ejemplo,
para este array:

In [None]:
x = np.array([1, 2, 4, 3])

podemos usar la función `np.sum`
para calcular la suma:

In [None]:
np.sum(x)

o `np.max` para calcular el máximo:

In [None]:
np.max(x)

o `np.argmax` para encontrar la posición del máximo:

In [None]:
np.argmax(x)

y muchas otras que pueden buscar en la [documentación](https://numpy.org/doc/stable/reference/routines.html).

```{note}
Puede parecer innecesario que haya un término específico,
*reducción*,
para operaciones como calcular la suma o el máximo.
Pero va a tener sentido cuando veamos arrays en 2 o más dimensiones.
```

### Ejercicio 2

Para el array de datos filtrados,
calcular la cantidad de datos,
su promedio $\bar{x}$,
y su desviación estándar $\hat{\sigma}$.

La fórmula para estos últimos es:

$$
\begin{align}
\bar{x}
&= \frac{x_1 + \ldots + x_n}{n}
&&= \frac{1}{n} \sum_{i=1}^n x_i
\\
\\
\hat{\sigma}
&= \sqrt{\frac{(x_1 - \bar{x})^2 + \ldots + (x_n - \bar{x})^2}{n}}
&&= \sqrt{\frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2}
\end{align}
$$

*Ayuda:* usar las funciones `np.size`, `np.sum`.
Para restar el promedio a todos los números,
rever la sección, *broadcasting*.

In [None]:
# Escriba aquí su código

#### Solución

In [None]:
x = datos_filtrados

total = np.size(x)
promedio = np.sum(x) / total
varianza = np.sum((x - promedio) ** 2) / total
desv_estandar = varianza**0.5

total, promedio, desv_estandar

Si necesitáramos calcular constantemente la desviación estándar de los datos,
nos convendría definir una función que encapsule esas operaciones.

Pero esas funciones ya están definidas en NumPy:

In [None]:
np.size(x), np.mean(x), np.std(x)

- `mean` es media o promedio en inglés,
- `std` viene de *standard deviation*, desviación estándar en inglés.