# Sesión 1: Numpy array y DataFrames

**Análisis de datos** El análisis de datos puede ser definido como el proceso en el que estudiamos un grupo de datos (colectados usando diversos métodos) por medio de varias herramientas computacionales y matemáticas para encontrar respuestas de como las variables se comportan; esto con el objetivo de encontrar patrones, realizar predicciones y tomar decisiones en nuestro campo de acción. 

![image.png](attachment:5cea3f2f-01bf-42af-aae6-1a7c47c55bad.png)


Por ejemplo, supongamos que tenemos un negocio que vende productos lácteos. El modelo de negocios en este caso es muy simple: compramos materia de un proveedor al por mayor y la vendemos a los clientes por un precio un poco mayor. ¿Que tipo de problemas se pueden presentar en este negocio que precisen de análisis de datos?

In [1]:
#Aquí colocamos el tipo de problemas que pueden surgir en el negocio

Aquí podemos dar un ejemplo simple de un problema que puede surgir: la cantidad de producto que se compra no puede ser ni subestimada, ni sobre-estimada porque en un caso podemos perder clientes potenciales y en el segundo caso podríamos perder producto (productos perecibles). ¿cómo podríamos lidiar con este problema en términos simples?

In [116]:
#Aquí colocamos como podríamos solucionar este problema

Aquí un ejemplo de como lidiar con el problema:
* Primero debemos tener en cuenta nuestro objetivo principal: en este caso podríamos definir como objetivo minimizar las pérdidas que tendremos en nuestro negocio.
* Una vez que tenemos claro nuestro objetivo, vamos a definir las variables que son relevantes para cumplir nuestro objetivo ¿Que variables ustedes consideran que serían relevantes para cumplir nuestro objetivo?

In [117]:
#Escribimos aquí las variables que consideramos relevantes para cumplir con nuestro objetivo.

* Una vez que tenemos las variables, colectamos datos, determinamos la fuente de datos que tenemos y registramos toda esa información en una base a la que se pueda tener acceso y que puede ser controlada.
* Luego de esto continuamos con el proceso de análisis de datos, mediante su procesamiento. Basados en su respuesta al item anterior ¿cómo procesamos los datos que colectamos para cumplir nuestro objetivo?

In [118]:
#Escribimos aquí como podemos procesar los datos

* Finalmente realizamos un reporte y sacamos conclusiones sobre el proceso.

### Numpy arrays y data frames

La forma en la que procesamos datos de manera eficiente es por medio de software y para esto tenemos diversas herramientas dentro de varios lenguajes de programación. En python por ejemplo organizamos nuestros datos en dos tipos de estructuras: numpy arrays y data frames. 
Los **Numpy arrays** son creados para manejar arrays en varias dimensiones. Esta biblioteca contiene métodos para calcular funciones matemáticas, álgebra lineal, etc.

Supongamos ahora que tenemos un set de datos relacionado a nuestro problema anterior, para el mes de junio tenemos varios productos junto con el precio por unidad con el que lo adquirimos, el precio de venta al público y la cantidad de productos que han sido vendidos en el mes. Esto puede ser visto gráficamente en la imagen abajo:


![Firstdata.png](attachment:a5cfbdcb-ac52-49af-bda5-24a45e650c79.png)

Por supuesto este set de datos puede ser más complexo y contener más productos y diferentes categorías pero para comenzar vamos a mantener las cosas simples. Y la pregunta que surge es ¿cómo podemos escribir esto usando numpy arrays? 
Intentamos crear una estructura parecida a una tabla para que simule los datos; primero debemos importar la biblioteca numpy y vamos a usar el comando `import numpy as np` para esto.

In [3]:
import numpy as np

Para definir un array nosotros usamos el método `.array`. Abajo podemos ver un ejemplo de como crear un array:

In [120]:
# Creamos un array con does filas y tres columnas
arr = np.array( [[ 1, 2, 3],
                 [ 4, 2, 5]] )
# Imprimimos el array
print(arr)

[[1 2 3]
 [4 2 5]]


A estos arrays se les puede aplicar métodos para ver sus propiedades:

In [121]:
# Imprimimos el tipo de objeto que tenemos
print("El array es de tipo: ", type(arr))
  
# Imprimimos las dimensiones del array (ejes)
print("No. de dimensiones: ", arr.ndim)
  
# Imprimimos las filas y columnas del array
print("Filas y columnas del array: ", arr.shape)
  
# Imprimimos el tamaño total del array (número total de elementos)
print("Tamaño del array: ", arr.size)
  
# Imprimimos los elementos del arrray
print("Los elementos guardados en el array tienen tipo: ", arr.dtype)

El array es de tipo:  <class 'numpy.ndarray'>
No. de dimensiones:  2
Filas y columnas del array:  (2, 3)
Tamaño del array:  6
Los elementos guardados en el array tienen tipo:  int64


Los numpy arrays pueden soportar diferentes tipos de datos como integers, floats, strings y booleans, en nuestro caso nos centraremos en números porque el análisis de datos contiene operaciones matemáticas. Aun así podemos ver un ejemplo en el que definimos un array con strings.

In [122]:
# Imprimimos un array con strings
arr2 = np.array([ "1", "2", "3"])

Ahora la pregunta es ¿cómo podemos inicializar el array de datos en el caso de el set de datos que tenemos en la tabla arriba? (importante notar que los arrays solo pueden contener datos de un solo tipo, lo que es una desventaja comparados con data frames)

In [123]:
# colocamos aquí el set de datos de arriba como un numpy array

Existen otras formas de inicializar arrays en python que están incluídas como built-in functions, por ejemplo los métodos `.arange` que crea un array con valores espaciados uniformente dado un intervalo. La syntax para este método es dada por: `numpy.arange([start, ]stop, [step, ]dtype=None)`.

El método `.linspace` retorna números espaciados uniformemente entre dos límites, la syntax para este método está dada por:  `numpy.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None, axis=0)`. Abajo podemos ver ejemplos de arryas definidos usando estos métodos.

In [124]:
# Un array definido usando el método arange
arr3 = np.arange(1, 20 , 2, dtype = np.float32)
# Un array definido usando el método linspace
arr4 = np.linspace(3.5, 10, 3)

print("Array definido usando el método arange: ", arr3)
print("Array definido usando el método linspace: ", arr4)

Array definido usando el método arange:  [ 1.  3.  5.  7.  9. 11. 13. 15. 17. 19.]
Array definido usando el método linspace:  [ 3.5   6.75 10.  ]


Existen otros métodos para crear arrays como `.full`, `.zero`, `.empty` y unos cuantos más que no serán mencionados, ni hablaremos sobre ellos por el momento, pero pueden revisar la syntax para conocerlos más a profundidad en la documentación de `.numpy`.

##### Operaciones en numpy arrays

Numpy arrays que contienen números aceptan operaciones arítmeticas tales como suma, división, multiplicación y resta. Esto se puede realizar con los operadores arítmeticos comunes o con los métodos correspondientes. En la siguiente celda se observa como se pueden aplicar todos estos métodos.

In [125]:
#definimos dos arrays
arr5 = np.array( [[ 1, 2, 3],
                 [ 4, 2, 5]] )

arr6 = np.array( [[ 1, 2, 3],
                 [ 4, 2, 5]] )
#vamos a aplicar distintos métodos
#suma de los dos arrays, los arrays deben tener la dimensión para poder ser sumados!
print("Suma de dos arrays: ", arr5+arr6)
#suma de un array más una constante, a todos los elementos en el array se les suma la misma constante
print("Suma un array más una constante: ", arr5+3)

Suma de dos arrays:  [[ 2  4  6]
 [ 8  4 10]]
Suma un array más una constante:  [[4 5 6]
 [7 5 8]]


De la misma forma se puede hacer con el resto de operaciones arítmeticas.

In [126]:
#aquí calculamos el resto de operaciones arítmeticas realizadas con los array 5 y 6

Además de esto, podemos usar los métodos `.add`, `.subtract`, `.multiply`, `.divide` para realizar este tipo de operaciones.

In [127]:
#Aquí se encuentran los métodos utilizados para realizar las operaciones con arrays
print('\nSumar dos arrays:')
print(np.add(arr5, arr6))
 
print('\nRestar dos arrays:')
print(np.subtract(arr5, arr6))
 
print('\nMultiplicar dos arrays:')
print(np.multiply(arr5, arr6))
 
print('\nDividir dos arrays:')
print(np.divide(arr5, arr6))


Sumar dos arrays:
[[ 2  4  6]
 [ 8  4 10]]

Restar dos arrays:
[[0 0 0]
 [0 0 0]]

Multiplicar dos arrays:
[[ 1  4  9]
 [16  4 25]]

Dividir dos arrays:
[[1. 1. 1.]
 [1. 1. 1.]]


Pregunta ¿qué método se puede utilizar para calcular la potencia a un array?

In [128]:
#Aquí colocamos el método para calcular la potencia

De esta misma forma existen varios métodos para realizar diferentes operaciones en numpy arrays, algunos ejemplos pueden ser encontrados aquí: `all()`, `any()`, `put()`, `argmin()`, `argmax()`, `amax()`, `amin()`, `insert()`, `delete()`, `append()`, `isrealobj()`, `isposinf()` , `exp()`, `absolute()`, `degrees()`, `radians()`, `log()`, `equal()`, `less()`, `greater()`,`logical_or()`,`logical_and()`, `sin()`, `cos()`, `tan()` y que pueden ser usados en el contexto de su análisis. Les recomiendo que revisen estos métodos para que se instruyan sobre lo que hace cada uno.



**Array broadcasting** Ahora una cosa que puede resultar útil es saber como accedemos a los elementos de un array una vez que este se encuentra definido, para esto simplemente usamos índices para buscar el elemento que deseamos encontrar. Abajo podemos observar un ejemplo de esto:

In [4]:
#definimos un array
arr7 = np.array( [[ 5, 7, 8],
                 [ -3, 2, -5]])

#tomamos un elemento del array, digamos el elemento en la primera fila, segunda columna
p = arr7[0,1]
#para tomar una fila o columna usamos los siguientes comandos:
#tomamos la segunda fila
q = arr7[1, :]
#tomamos la tercera columna
r = arr7[: ,2]

print("Elemento en la primera fila y segunda columna: ", p)
print("La segunda fila es: ", q)
print("La tercera columna es: ", r)


Elemento en la primera fila y segunda columna:  7
La segunda fila es:  [-3  2 -5]
La tercera columna es:  [ 8 -5]


Sabiendo todo esto, podemos comenzar calculando el total de dinero y productos adquiridos y vendidos en nuestro set de datos de la tienda de productos lácteos.

In [6]:
#Aquí calculamos el total de cada columna en el set de datos de productos lácteos
#g = np.zeros(5)


**Números aleatorios** Finalmente vamos a revisar un poco los comandos para generación de números aleatorios usando numpy (esto no es muy relevante para el análisis de datos en general pero puede ser útil en el caso que se encuentren en ciencias y necesiten generar números aleatorios). Se puede generar números aleatorios entre el intervalo [0.0, 1.0) con `numpy.random.random()` como se muestra en la celda abajo.

In [131]:
#Array con números aleatorios
arr8 = np.random.random(size = 3)
print ("Array 1D con floats : ", arr8) 

Array 1D con floats :  [0.77961286 0.10927265 0.72151548]


Para generar números con distintas distribuciones pueden revisar los métodos que existen en `numpy.random`

**Data frames** 

Los data frames son estructuras que permiten almacenar los datos en una especie de tabla con dos ejes, que se encuentra mejor diseñada para el procesamiento de estos datos. Data frames pertencen a la biblioteca `pandas` que se encuentra en Python. Lo primero que debemos hacer es aprender a crear un DataFrame que por lo general vienen de datos reales que cargamos a nuestro programa. Los DataFrames pueden ser creados a partir de listas o dictionaries o también de una lista de dictionaries. Abajo podemos ver un ejemplo de como crear un DataFrame.

In [8]:
# Primero cargamos la biblioteca Pandas en nuestro programa
import pandas as pd
# podemos construimos un DataFrame vacío
df = pd.DataFrame() 
print("\nDataFrame vacío: \n", df)

# podemos del mismo modo contruir un DataFarme con datos explícitos
df1 = pd.DataFrame({
    'Producto' :["Pollo", "Carne", "Pescado"], 
    'Cantidad' : [3, 4, 6], 
    'Precio de venta' : [3.5, 5.6, 3.4], 
})
print("\nDataFrame con datos explícitos: \n", df1)
    
# Construimos un DataFrame con una lista de listas, nombrando las columnas y filas
df2 = pd.DataFrame(data=[[3,4.3,3.6], [4,4.5,4], [5,3.4,5], [3,3.4,5]] , columns=["Cantidad vendida", "Precio", "Precio de venta"] , index=["Pollo", "Mortadela", "Carne", "Pescado"] )
print("\nDataFrame con una lista de listas: \n", df2)



# list of strings
dict1 =	{
  "Producto": "Pollo",
  "Precio": 3.5,
  "Precio de venta": 5.4
}

dict2 =	{
  "Producto": "Carne",
  "Precio": 4.3,
  "Precio de venta": 7.4
}

# Podemos definir también crear un set de datos usando una lista de dictionaries
lst = [dict1,dict2] 
df3 = pd.DataFrame(lst)
print("\nDataFrame con una lista de dictionaries: \n", df3)




DataFrame vacío: 
 Empty DataFrame
Columns: []
Index: []

DataFrame con datos explícitos: 
   Producto  Cantidad  Precio de venta
0    Pollo         3              3.5
1    Carne         4              5.6
2  Pescado         6              3.4

DataFrame con una lista de listas: 
            Cantidad vendida  Precio  Precio de venta
Pollo                     3     4.3              3.6
Mortadela                 4     4.5              4.0
Carne                     5     3.4              5.0
Pescado                   3     3.4              5.0

DataFrame con una lista de dictionaries: 
   Producto  Precio  Precio de venta
0    Pollo     3.5              5.4
1    Carne     4.3              7.4


Cada entrada en un DataFrame es una Series que es un objeto de `pandas` de la misma forma que los DataFrames y se define con el método `.Series` 

In [10]:
sr = pd.Series([3,4.3,3.6], index = ["Pollo", "Carne", "Pescado"]) 
print("\nEjemplo de una series: \n", sr)


Ejemplo de una series: 
 Pollo      3.0
Carne      4.3
Pescado    3.6
dtype: float64


Ahora que sabemos como definir DataFrames podemos usar estos comandos para crear un DataFrame basado en los datos que tenemos para el caso del negocio de lácteos:

In [11]:
# Aquí colocamos una DataFrame para el caso de los productos lácteos

Como se mencionó antes, la mayor parte del tiempo no vamos a escrribir explícitamente los datos que colectamos en un DataFrame, sino que los cargamos en nuestro código de un archivo que normalmente es una hoja de cálculo, para leer este tipo de archivos utilizamos el comando `read_csv` 

In [12]:
# Cargamos los datos de nuestro archivo en el programa
data = pd.read_csv("Datos_session1.csv") # ,index_col ="Producto")
print("\nDataFrame con lo datos en el archivo Datos_session1.csv: \n", data)
# Cuando el conjunto de datos es muy largo podemos usar el método .head() para visualizar solo las primeras entradas
print("\nPrimeras entradas en el archivo Datos_session1.csv: \n", data.head())



DataFrame con lo datos en el archivo Datos_session1.csv: 
       Producto  Total adquirido (unidades)  Total vendido (unidades)  \
0        Queso                          10                         7   
1       Yogurt                          20                        12   
2        Leche                          15                         8   
3  Mantequilla                          30                        15   
4  Queso crema                           5                         3   

   Total adquirido (USD)  Total vendido (USD)  
0                     30                   21  
1                     50                   27  
2                     30                   16  
3                     90                   45  
4                     20                   12  

Primeras entradas en el archivo Datos_session1.csv: 
       Producto  Total adquirido (unidades)  Total vendido (unidades)  \
0        Queso                          10                         7   
1       Yogurt      

**Operaciones con DataFrames** 

Al igual que en el caso de numpy arrays, podemos realizar diversas operaciones con DataFrames como operar con columnas: añadir, acceder, eliminar como se puede observar en la celda de abajo:

In [18]:
# Aquí imprimimos las columnas relacionadas al producto y al total vendido en dólares
print('Imprimimos las columnas que contienen el nombre del producto y el total vendido\n')
print(data[['Producto', 'Total vendido (USD)']])

# Para añadir columnas, creamos una lista y la colocamos en el DataFrame
# Primero creamos una lista con precios unitarios
precio = [3. , 2.5, 2., 3., 4.] 

# Colocamos la nueva columna en el DataFrame
data['Precio unitario'] = precio
print('\nImprimimos el nuevo DataFrame\n', data)


Imprimimos las columnas que contienen el nombre del producto y el total vendido

      Producto  Total vendido (USD)
0        Queso                   21
1       Yogurt                   27
2        Leche                   16
3  Mantequilla                   45
4  Queso crema                   12

Imprimimos el nuevo DataFrame
       Producto  Total adquirido (unidades)  Total vendido (unidades)  \
0        Queso                          10                         7   
1       Yogurt                          20                        12   
2        Leche                          15                         8   
3  Mantequilla                          30                        15   
4  Queso crema                           5                         3   

   Total adquirido (USD)  Total vendido (USD)  Precio unitario  
0                     30                   21              3.0  
1                     50                   27              2.5  
2                     30                   

Del mismo modo podemos acceder a filas usando el método `.loc` 

In [19]:
# Tomamos la primera y la tercera fila en el DataFrame
first = data.loc[0]
third = data.loc[2]

# Imprimimos las filas
print('\nImprimimos la primera fila en el DataFrame: \n', first)
print('\nImprimimos la tercera fila en el DataFrame: \n', third)



Imprimimos la primera fila en el DataFrame: 
 Producto                      Queso
Total adquirido (unidades)       10
Total vendido (unidades)          7
Total adquirido (USD)            30
Total vendido (USD)              21
Precio unitario                 3.0
Name: 0, dtype: object

Imprimimos la tercera fila en el DataFrame: 
 Producto                      Leche
Total adquirido (unidades)       15
Total vendido (unidades)          8
Total adquirido (USD)            30
Total vendido (USD)              16
Precio unitario                 2.0
Name: 2, dtype: object


Del mismo modo en que añadimos columnas podemos también añadir filas al DataFrame con el método `.concat`. Primero creamos una DataFrame y colocamos en la nueva DataFrame.

In [20]:
# Definimos un nuevo DataFrame con los keys que existen en el DataFrame principal
new_row = pd.DataFrame({'Producto':'Mortadela', 'Total adquirido (unidades)':5, 'Total vendido (unidades)':3,
                        'Total adquirido (USD)':25, 'Total vendido (USD)':15, 'Precio unitario ':5},
                                                            index =[0])


# Concatenamos este nuevo DataFrame en el antiguo
data2 = pd.concat([new_row, data]).reset_index(drop = True)
# Imprimimos el nuevo DataFrame
print('\nImprimimos el nuevo DataFrame con la nueva fila: \n', data2)


Imprimimos el nuevo DataFrame con la nueva fila: 
       Producto  Total adquirido (unidades)  Total vendido (unidades)  \
0    Mortadela                           5                         3   
1        Queso                          10                         7   
2       Yogurt                          20                        12   
3        Leche                          15                         8   
4  Mantequilla                          30                        15   
5  Queso crema                           5                         3   

   Total adquirido (USD)  Total vendido (USD)  Precio unitario   \
0                     25                   15               5.0   
1                     30                   21               NaN   
2                     50                   27               NaN   
3                     30                   16               NaN   
4                     90                   45               NaN   
5                     20                 

Con el método `.iloc[]` podemos seleccionar también filas con columnas específicas usando las posiciones de los datos en los que estamos interesados. Pueden revisar este método en la documentación de python.
**Iterar sobre data sets** Otra cosa que puede ser útil en el análisis de datos es la iteración sobre un DataFrame, esto lo podemos realizar con un loop y con el método `.iterrows`

In [138]:
# Podemos iterar sobre filas para obtener el número de fila y los datos en forma de una serie
for i, j in data.iterrows():
    print(i,j)
    print()
    
# De la misma forma podemos imprimir 
print('\nAquí imprimimos solo el total adquirido en unidades para cada fila:\n')
for i, j in data.iterrows():
    print(i, j['Total adquirido (unidades)'])


0 Producto                      Queso
Total adquirido (unidades)       10
Total vendido (unidades)          7
Total adquirido (USD)            30
Total vendido (USD)              21
Precio unitario                 3.0
Name: 0, dtype: object

1 Producto                      Yogurt
Total adquirido (unidades)        20
Total vendido (unidades)          12
Total adquirido (USD)             50
Total vendido (USD)               27
Precio unitario                  2.5
Name: 1, dtype: object

2 Producto                      Leche
Total adquirido (unidades)       15
Total vendido (unidades)          8
Total adquirido (USD)            30
Total vendido (USD)              16
Precio unitario                 2.0
Name: 2, dtype: object

3 Producto                      Mantequilla
Total adquirido (unidades)             30
Total vendido (unidades)               15
Total adquirido (USD)                  90
Total vendido (USD)                    45
Precio unitario                       3.0
Name: 3, dtype

Igualmente podemos obtener Tuples para una de las filas con el método `.itertuples`

In [139]:
# Imprimimos un tuple para cada una de las filas
for i in data.itertuples():
   print(i)


Pandas(Index=0, Producto='Queso', _2=10, _3=7, _4=30, _5=21, _6=3.0)
Pandas(Index=1, Producto='Yogurt', _2=20, _3=12, _4=50, _5=27, _6=2.5)
Pandas(Index=2, Producto='Leche', _2=15, _3=8, _4=30, _5=16, _6=2.0)
Pandas(Index=3, Producto='Mantequilla', _2=30, _3=15, _4=90, _5=45, _6=3.0)
Pandas(Index=4, Producto='Queso crema', _2=5, _3=3, _4=20, _5=12, _6=4.0)


Para iterar columnas creamos una lista con las columnas a partir de nuestro DataFrame.

In [25]:
# creamos una lista con columnas
columns = list(data)

# Imprimimos los datos
print('\nAquí imprimimos los datos:\n' , columns)

print('\nAquí imprimimos el tercer elemento de cada columna:')
for i in columns:
    # imprimimos el tercer elemento de cada columna
    print (data[i][2])


Aquí imprimimos los datos:
 ['Producto', 'Total adquirido (unidades)', 'Total vendido (unidades)', 'Total adquirido (USD)', 'Total vendido (USD)', 'Precio unitario']

Aquí imprimimos el tercer elemento de cada columna:
Leche
15
8
30
16
2.0


**Archivos y DataFrames** ya pudimos ver en los métodos arriba como leer archivos `.csv` con la función `.read_csv` y pueden también buscar en la documentación de pandas como personalizar la lectura de datos. Del mismo modo se puede guardar los DataFrames en archivos `.csv` con el comando escrito abajo. Adicionalmente pueden también se puede leer archivos de excel usando el método `.read_excel`

In [141]:
# guardar el DataFrame
data.to_csv('file1.csv')

## Ejercicio

Ahora que hemos aprendido sobre DataFrames y numpy arrays vamos aplicar los conocimientos en un ejercicio simple. Vamos a crear un archivo  `.csv` o un archivo de Excel con la siguiente información de una tienda de ropa. La columna que se encuentra vacía ustedes pueden llenarla dentro del archivo con métodos para hojas de cálculos. ¿cómo podríamos incluir esta nueva columna en la DataFrame?

![Exercise1.png](attachment:94040316-3b78-4a88-843f-a4ef9ee39981.png)

Vamos a tener el trabajo extra de crear explícitamente esta DataFrame manualmente. Además van a crear un numpy array con la misma información. Al final quiero que tengan tres objetos dos DataFrames (uno cargado desde el archivo de Excel y uno creado manualmente) y un numpy array con la información de datos.
Después usando los métodos que hemos aprendido aquí, van a calcular el total de cada columna e incluirlo al final de las DataFrames y del numpy array. Sus nuevos objetos no deben reemplazar a los antiguos teniendo en total 6 sets de datos dentro de objetos.