Clase 7

class: title-slide, inverse, middle, right
background-image: url(https://images.unsplash.com/photo-1612343267903-f6c1b17e6e1c?ixid=MXwxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHw%3D&ixlib=rb-1.2.1&auto=format&fit=crop&w=667&q=80)
background-size: cover

### Clase 7
# Exploración y<br> modelo lineal

## Miriam Lerma<br>
Marzo 2021

---

# Intro

- [Explorar datos](#explora)  
- [Modelo lineal](#lineal)

## Ustedes

- Conocimientos de R (saben abrirlo, cargar paquetes y datos, saben hacer operaciones y gráficos).

- Quieren conocer explorar datos y conocer la sintaxis para hacer modelos lineales en R.

<br>

**Notas** <br>
Ya vieron teoría, hoy es solo para que practiquen en R. <br>
Recuerden que los modelos dependen de sus preguntas y experimentos o muestreos.

---

# Créditos & materiales:

- <svg aria-hidden="true" role="img" viewBox="0 0 512 512" style="height:1em;width:1em;vertical-align:-0.125em;margin-left:auto;margin-right:auto;font-size:inherit;fill:#f2cc8f;overflow:visible;position:relative;"><path d="M326.612 185.391c59.747 59.809 58.927 155.698.36 214.59-.11.12-.24.25-.36.37l-67.2 67.2c-59.27 59.27-155.699 59.262-214.96 0-59.27-59.26-59.27-155.7 0-214.96l37.106-37.106c9.84-9.84 26.786-3.3 27.294 10.606.648 17.722 3.826 35.527 9.69 52.721 1.986 5.822.567 12.262-3.783 16.612l-13.087 13.087c-28.026 28.026-28.905 73.66-1.155 101.96 28.024 28.579 74.086 28.749 102.325.51l67.2-67.19c28.191-28.191 28.073-73.757 0-101.83-3.701-3.694-7.429-6.564-10.341-8.569a16.037 16.037 0 0 1-6.947-12.606c-.396-10.567 3.348-21.456 11.698-29.806l21.054-21.055c5.521-5.521 14.182-6.199 20.584-1.731a152.482 152.482 0 0 1 20.522 17.197zM467.547 44.449c-59.261-59.262-155.69-59.27-214.96 0l-67.2 67.2c-.12.12-.25.25-.36.37-58.566 58.892-59.387 154.781.36 214.59a152.454 152.454 0 0 0 20.521 17.196c6.402 4.468 15.064 3.789 20.584-1.731l21.054-21.055c8.35-8.35 12.094-19.239 11.698-29.806a16.037 16.037 0 0 0-6.947-12.606c-2.912-2.005-6.64-4.875-10.341-8.569-28.073-28.073-28.191-73.639 0-101.83l67.2-67.19c28.239-28.239 74.3-28.069 102.325.51 27.75 28.3 26.872 73.934-1.155 101.96l-13.087 13.087c-4.35 4.35-5.769 10.79-3.783 16.612 5.864 17.194 9.042 34.999 9.69 52.721.509 13.906 17.454 20.446 27.294 10.606l37.106-37.106c59.271-59.259 59.271-155.699.001-214.959z"/></svg> Ejemplos de regresiones lineales simples <br>
[Sthda por Alboukadel Kassambara](http://www.sthda.com/english/articles/40-regression-analysis/167-simple-linear-regression-in-r/)

- <svg aria-hidden="true" role="img" viewBox="0 0 576 512" style="height:1em;width:1.12em;vertical-align:-0.125em;margin-left:auto;margin-right:auto;font-size:inherit;fill:#f2cc8f;overflow:visible;position:relative;"><path d="M542.22 32.05c-54.8 3.11-163.72 14.43-230.96 55.59-4.64 2.84-7.27 7.89-7.27 13.17v363.87c0 11.55 12.63 18.85 23.28 13.49 69.18-34.82 169.23-44.32 218.7-46.92 16.89-.89 30.02-14.43 30.02-30.66V62.75c.01-17.71-15.35-31.74-33.77-30.7zM264.73 87.64C197.5 46.48 88.58 35.17 33.78 32.05 15.36 31.01 0 45.04 0 62.75V400.6c0 16.24 13.13 29.78 30.02 30.66 49.49 2.6 149.59 12.11 218.77 46.95 10.62 5.35 23.21-1.94 23.21-13.46V100.63c0-5.29-2.62-10.14-7.27-12.99z"/></svg> Ejercicios de estadística con R <br> 
[Matias Andina](https://bookdown.org/matiasandina/R-intro/modelos-lineales.html)

- <svg aria-hidden="true" role="img" viewBox="0 0 576 512" style="height:1em;width:1.12em;vertical-align:-0.125em;margin-left:auto;margin-right:auto;font-size:inherit;fill:#f2cc8f;overflow:visible;position:relative;"><path d="M542.22 32.05c-54.8 3.11-163.72 14.43-230.96 55.59-4.64 2.84-7.27 7.89-7.27 13.17v363.87c0 11.55 12.63 18.85 23.28 13.49 69.18-34.82 169.23-44.32 218.7-46.92 16.89-.89 30.02-14.43 30.02-30.66V62.75c.01-17.71-15.35-31.74-33.77-30.7zM264.73 87.64C197.5 46.48 88.58 35.17 33.78 32.05 15.36 31.01 0 45.04 0 62.75V400.6c0 16.24 13.13 29.78 30.02 30.66 49.49 2.6 149.59 12.11 218.77 46.95 10.62 5.35 23.21-1.94 23.21-13.46V100.63c0-5.29-2.62-10.14-7.27-12.99z"/></svg> Libro <br> 
[Handbook of Regression Models in People Analytics](http://peopleanalytics-regression-book.org/)

- <svg aria-hidden="true" role="img" viewBox="0 0 512 512" style="height:1em;width:1em;vertical-align:-0.125em;margin-left:auto;margin-right:auto;font-size:inherit;fill:#f2cc8f;overflow:visible;position:relative;"><path d="M326.612 185.391c59.747 59.809 58.927 155.698.36 214.59-.11.12-.24.25-.36.37l-67.2 67.2c-59.27 59.27-155.699 59.262-214.96 0-59.27-59.26-59.27-155.7 0-214.96l37.106-37.106c9.84-9.84 26.786-3.3 27.294 10.606.648 17.722 3.826 35.527 9.69 52.721 1.986 5.822.567 12.262-3.783 16.612l-13.087 13.087c-28.026 28.026-28.905 73.66-1.155 101.96 28.024 28.579 74.086 28.749 102.325.51l67.2-67.19c28.191-28.191 28.073-73.757 0-101.83-3.701-3.694-7.429-6.564-10.341-8.569a16.037 16.037 0 0 1-6.947-12.606c-.396-10.567 3.348-21.456 11.698-29.806l21.054-21.055c5.521-5.521 14.182-6.199 20.584-1.731a152.482 152.482 0 0 1 20.522 17.197zM467.547 44.449c-59.261-59.262-155.69-59.27-214.96 0l-67.2 67.2c-.12.12-.25.25-.36.37-58.566 58.892-59.387 154.781.36 214.59a152.454 152.454 0 0 0 20.521 17.196c6.402 4.468 15.064 3.789 20.584-1.731l21.054-21.055c8.35-8.35 12.094-19.239 11.698-29.806a16.037 16.037 0 0 0-6.947-12.606c-2.912-2.005-6.64-4.875-10.341-8.569-28.073-28.073-28.191-73.639 0-101.83l67.2-67.19c28.239-28.239 74.3-28.069 102.325.51 27.75 28.3 26.872 73.934-1.155 101.96l-13.087 13.087c-4.35 4.35-5.769 10.79-3.783 16.612 5.864 17.194 9.042 34.999 9.69 52.721.509 13.906 17.454 20.446 27.294 10.606l37.106-37.106c59.271-59.259 59.271-155.699.001-214.959z"/></svg> Tutoriales diversos <br> 
[STAT 545](https://stat545.com/)

- <svg aria-hidden="true" role="img" viewBox="0 0 512 512" style="height:1em;width:1em;vertical-align:-0.125em;margin-left:auto;margin-right:auto;font-size:inherit;fill:#f2cc8f;overflow:visible;position:relative;"><path d="M326.612 185.391c59.747 59.809 58.927 155.698.36 214.59-.11.12-.24.25-.36.37l-67.2 67.2c-59.27 59.27-155.699 59.262-214.96 0-59.27-59.26-59.27-155.7 0-214.96l37.106-37.106c9.84-9.84 26.786-3.3 27.294 10.606.648 17.722 3.826 35.527 9.69 52.721 1.986 5.822.567 12.262-3.783 16.612l-13.087 13.087c-28.026 28.026-28.905 73.66-1.155 101.96 28.024 28.579 74.086 28.749 102.325.51l67.2-67.19c28.191-28.191 28.073-73.757 0-101.83-3.701-3.694-7.429-6.564-10.341-8.569a16.037 16.037 0 0 1-6.947-12.606c-.396-10.567 3.348-21.456 11.698-29.806l21.054-21.055c5.521-5.521 14.182-6.199 20.584-1.731a152.482 152.482 0 0 1 20.522 17.197zM467.547 44.449c-59.261-59.262-155.69-59.27-214.96 0l-67.2 67.2c-.12.12-.25.25-.36.37-58.566 58.892-59.387 154.781.36 214.59a152.454 152.454 0 0 0 20.521 17.196c6.402 4.468 15.064 3.789 20.584-1.731l21.054-21.055c8.35-8.35 12.094-19.239 11.698-29.806a16.037 16.037 0 0 0-6.947-12.606c-2.912-2.005-6.64-4.875-10.341-8.569-28.073-28.073-28.191-73.639 0-101.83l67.2-67.19c28.239-28.239 74.3-28.069 102.325.51 27.75 28.3 26.872 73.934-1.155 101.96l-13.087 13.087c-4.35 4.35-5.769 10.79-3.783 16.612 5.864 17.194 9.042 34.999 9.69 52.721.509 13.906 17.454 20.446 27.294 10.606l37.106-37.106c59.271-59.259 59.271-155.699.001-214.959z"/></svg> Ejercicios practicos <br> 
[ourcodingclub](https://ourcodingclub.github.io/tutorials/mixed-models/)

- <svg aria-hidden="true" role="img" viewBox="0 0 480 512" style="height:1em;width:0.94em;vertical-align:-0.125em;margin-left:auto;margin-right:auto;font-size:inherit;fill:#f2cc8f;overflow:visible;position:relative;"><path d="M186.1 328.7c0 20.9-10.9 55.1-36.7 55.1s-36.7-34.2-36.7-55.1 10.9-55.1 36.7-55.1 36.7 34.2 36.7 55.1zM480 278.2c0 31.9-3.2 65.7-17.5 95-37.9 76.6-142.1 74.8-216.7 74.8-75.8 0-186.2 2.7-225.6-74.8-14.6-29-20.2-63.1-20.2-95 0-41.9 13.9-81.5 41.5-113.6-5.2-15.8-7.7-32.4-7.7-48.8 0-21.5 4.9-32.3 14.6-51.8 45.3 0 74.3 9 108.8 36 29-6.9 58.8-10 88.7-10 27 0 54.2 2.9 80.4 9.2 34-26.7 63-35.2 107.8-35.2 9.8 19.5 14.6 30.3 14.6 51.8 0 16.4-2.6 32.7-7.7 48.2 27.5 32.4 39 72.3 39 114.2zm-64.3 50.5c0-43.9-26.7-82.6-73.5-82.6-18.9 0-37 3.4-56 6-14.9 2.3-29.8 3.2-45.1 3.2-15.2 0-30.1-.9-45.1-3.2-18.7-2.6-37-6-56-6-46.8 0-73.5 38.7-73.5 82.6 0 87.8 80.4 101.3 150.4 101.3h48.2c70.3 0 150.6-13.4 150.6-101.3zm-82.6-55.1c-25.8 0-36.7 34.2-36.7 55.1s10.9 55.1 36.7 55.1 36.7-34.2 36.7-55.1-10.9-55.1-36.7-55.1z"/></svg> Outliers <br> 
[Rocio Joo](https://github.com/rociojoo)

- Imágenes adicionales <br> 
[<svg aria-hidden="true" role="img" viewBox="0 0 512 512" style="height:1em;width:1em;vertical-align:-0.125em;margin-left:auto;margin-right:auto;font-size:inherit;fill:#f2cc8f;overflow:visible;position:relative;"><path d="M48 32C21.5 32 0 53.5 0 80v352c0 26.5 21.5 48 48 48h416c26.5 0 48-21.5 48-48V80c0-26.5-21.5-48-48-48H48zm0 32h106c3.3 0 6 2.7 6 6v20c0 3.3-2.7 6-6 6H38c-3.3 0-6-2.7-6-6V80c0-8.8 7.2-16 16-16zm426 96H38c-3.3 0-6-2.7-6-6v-36c0-3.3 2.7-6 6-6h138l30.2-45.3c1.1-1.7 3-2.7 5-2.7H464c8.8 0 16 7.2 16 16v74c0 3.3-2.7 6-6 6zM256 424c-66.2 0-120-53.8-120-120s53.8-120 120-120 120 53.8 120 120-53.8 120-120 120zm0-208c-48.5 0-88 39.5-88 88s39.5 88 88 88 88-39.5 88-88-39.5-88-88-88zm-48 104c-8.8 0-16-7.2-16-16 0-35.3 28.7-64 64-64 8.8 0 16 7.2 16 16s-7.2 16-16 16c-17.6 0-32 14.4-32 32 0 8.8-7.2 16-16 16z"/></svg>Unsplash](https://unsplash.com/)<br>
<svg aria-hidden="true" role="img" viewBox="0 0 512 512" style="height:1em;width:1em;vertical-align:-0.125em;margin-left:auto;margin-right:auto;font-size:inherit;fill:#f2cc8f;overflow:visible;position:relative;"><path d="M48 32C21.5 32 0 53.5 0 80v352c0 26.5 21.5 48 48 48h416c26.5 0 48-21.5 48-48V80c0-26.5-21.5-48-48-48H48zm0 32h106c3.3 0 6 2.7 6 6v20c0 3.3-2.7 6-6 6H38c-3.3 0-6-2.7-6-6V80c0-8.8 7.2-16 16-16zm426 96H38c-3.3 0-6-2.7-6-6v-36c0-3.3 2.7-6 6-6h138l30.2-45.3c1.1-1.7 3-2.7 5-2.7H464c8.8 0 16 7.2 16 16v74c0 3.3-2.7 6-6 6zM256 424c-66.2 0-120-53.8-120-120s53.8-120 120-120 120 53.8 120 120-53.8 120-120 120zm0-208c-48.5 0-88 39.5-88 88s39.5 88 88 88 88-39.5 88-88-39.5-88-88-88zm-48 104c-8.8 0-16-7.2-16-16 0-35.3 28.7-64 64-64 8.8 0 16 7.2 16 16s-7.2 16-16 16c-17.6 0-32 14.4-32 32 0 8.8-7.2 16-16 16z"/></svg>[Portada por Kristine Wook](https://unsplash.com/@kwook)

---
name: explora
class: title-slide, inverse, bottom, right
background-image: url(https://images.unsplash.com/photo-1612343267903-f6c1b17e6e1c?ixid=MXwxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHw%3D&ixlib=rb-1.2.1&auto=format&fit=crop&w=667&q=80)
background-size: cover

# Exploración

---

## 1.1. Inspecciona

**Siempre inspecciona tus datos!** <br>
Todos esto [gráficos]("https://raw.githubusercontent.com/stephlocke/lazyCDN/master/DinoSequential.gif) tienen medias, desviaciones estandar y una correlacion entre puntos similar.

---

## 1.1. Inspecciona

Alberto Cairo creo este paquete (datasauRus) para ilustrarlo.

```r
#install.packages('datasauRus')
library(datasauRus)
```

```r
ggplot(datasaurus_dozen,
       aes(x=x, y=y, 
           colour=dataset))+
  geom_point()+ 
  theme_void()+ 
  theme(legend.position = "none")+
  facet_wrap(~dataset, ncol=3)
```
]

---

## 1.2. Pinguinos
Exploremos los datos de pinguinos.

```r
library(ggplot2)
library(datos)
```

```
## Warning: package 'datos' was built under R version 4.2.3
```

```r
Pingus<-datos::pinguinos
```

.center[
<img src="https://raw.githubusercontent.com/allisonhorst/palmerpenguins/master/man/figures/lter_penguins.png" height="300" />
]

---

## 1.2. Pinguinos
Recordemos como se realizan los gráficos de puntos.

```r
ggplot(Pingus) +
  aes(x = largo_aleta_mm, 
      y = masa_corporal_g)+
* geom_point()
```
]

---

## 1.2. Pinguinos
Sabemos que hay tres especies, separemos las especies por colores.

```r
ggplot(Pingus, 
       aes(x=largo_aleta_mm, 
           y=masa_corporal_g, 
*          color=especie))+
  geom_point()
```
]

---

## 1.2. Pinguinos
Si agregamos una nueva capa con la linea de tendencia, especificamos un ajuste lineal ("lm") podemos ver como se relacionan estos datos.  
No obstante! tenemos datos de tres especies diferentes!

```r
ggplot(Pingus, 
       aes(x=largo_aleta_mm, 
           y=masa_corporal_g)) +
*      geom_point(aes(color =especie))+
       geom_smooth(method="lm")
```
]

---

## 1.2. Pinguinos
Cambiando algunos argumentos nos permite explorar y obtener diferentes resultados gráficos usando los mismos datos.  
Por ejemplo, si cambiamos la ubicacion del color, le decimos que me haga lineas por especies.

```r
ggplot(Pingus, 
       aes(x=largo_aleta_mm, 
           y=masa_corporal_g, 
*          color = especie)) +
       geom_point() +
       geom_smooth(method = "lm")
```
]

---

## 1.3. facet_wrap

**facet_wrap** es un argumento que nos permite ver variables categoricas separadas por panel.

```r
ggplot(Pingus, 
       aes(x=largo_pico_mm, 
           y=alto_pico_mm)) +
  geom_point()+
* facet_wrap(~especie)
```
]

---

## 1.4. cowplot

Noten que al usar **facet_wrap** los paneles se acomodan de cierta manera que no es fácil de cambiar, para cambiar como están acomodados podemos usar **cowplot** o **patchwork**.

Deben instalarlo antes.

```r
#install.packages("cowplot")
library(cowplot)
```

Guardar plots con nombres e incluirlos en una sola figura.

```r
cowplot::plot_grid(p1,p2,p3,p4, 
                   labels = "AUTO") #<< Agrega letras
```

---

## 1.5. plotly

Cargar libreria.

```r
#install.packages(plotly)
library(plotly)
```

Crear ggplot.

```r
Pingus_puntos<-ggplot(Pingus, 
       aes(x=largo_aleta_mm, 
           y=masa_corporal_g, 
           color = especie)) +
       geom_point()
```

La funcion **ggplotly** te permite inspeccionar tu grafico de manera interactiva.

```r
ggplotly(Pingus_puntos)
```
Vamos a ver un ejemplo en los ejercicios.

---

# Ejercicios <svg aria-hidden="true" role="img" viewBox="0 0 512 512" style="height:1em;width:1em;vertical-align:-0.125em;margin-left:auto;margin-right:auto;font-size:inherit;fill:#FFFFFF;overflow:visible;position:relative;"><path d="M497.9 142.1l-46.1 46.1c-4.7 4.7-12.3 4.7-17 0l-111-111c-4.7-4.7-4.7-12.3 0-17l46.1-46.1c18.7-18.7 49.1-18.7 67.9 0l60.1 60.1c18.8 18.7 18.8 49.1 0 67.9zM284.2 99.8L21.6 362.4.4 483.9c-2.9 16.4 11.4 30.6 27.8 27.8l121.5-21.3 262.6-262.6c4.7-4.7 4.7-12.3 0-17l-111-111c-4.8-4.7-12.4-4.7-17.1 0zM124.1 339.9c-5.5-5.5-5.5-14.3 0-19.8l154-154c5.5-5.5 14.3-5.5 19.8 0s5.5 14.3 0 19.8l-154 154c-5.5 5.5-14.3 5.5-19.8 0zM88 424h48v36.3l-64.5 11.3-31.1-31.1L51.7 376H88v48z"/></svg>

- Cargar datos de pinguinos
- Crear dos gráficos de puntos con lineas de regresión
- Usar facet_wrap
- Crear un gráfico de puntos interactivo usando plotly

---

## 1. 6. Ejercicios

Cargar datos desde el paquete, usar read_csv, o import dataset.

```r
library(datos)
library(tidyverse)
Pingus<-datos::pinguinos
```

Crear un gráfico.

```r
ggplot(Pingus, 
       aes(x=largo_aleta_mm, 
           y=masa_corporal_g, 
*          color = especie)) +
       geom_point() +
       geom_smooth(method = "lm") 
```

Cambiemos el orden de los argumentos.

```r
ggplot(Pingus, 
       aes(x=largo_aleta_mm, 
           y=masa_corporal_g)) +
*      geom_point(aes(color =especie))+
       geom_smooth(method="lm")
```

---

## 1. 6. Ejercicios 
Ver variables categoricas separadas por panel.

```r
ggplot(Pingus, aes(largo_pico_mm, alto_pico_mm)) +
  geom_point()+
* facet_wrap(~especie)
```

Exploremos los datos usando solo los datos de Pinguinos de Adelia.

```r
Adelia<-Pingus%>%
* filter(especie=='Adelia')
```

```r
ggplot(Adelia, 
       aes(x=largo_aleta_mm, 
           y=masa_corporal_g)) +
       geom_point())+
       geom_smooth(method="lm")
```

---

## 1. 6. Ejercicios

Cargar libreria.

```r
#install.packages(plotly)
library(plotly)
```

Crear ggplot.

```r
Pingus_puntos<-ggplot(Pingus, 
       aes(x=largo_aleta_mm, 
           y=masa_corporal_g, 
           color = especie)) +
       geom_point()
```

La funcion **ggplotly** te permite inspeccionar tu grafico de manera interactiva.

```r
*ggplotly(Pingus_puntos)
```

---
name: lineal
class: title-slide, inverse, bottom, right
background-image: url(https://images.unsplash.com/photo-1612343267903-f6c1b17e6e1c?ixid=MXwxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHw%3D&ixlib=rb-1.2.1&auto=format&fit=crop&w=667&q=80)
background-size: cover

### Modelos lineales

---

## 2. Modelos lineales

Recordatorio:

- La realidad es multidimensional, compleja e incierta.  
- Un modelo es una representación formal de un fenómeno, una reducción de dimensionalidad que posee utilidad práctica.  
- Dicha representación normalmente puede ser condensada en una expresión matemática, una fórmula, que indica cómo una variable se relaciona con otra(s).

---

## 2.1. Generar datos

Cuando busquen ejemplos en Internet, en algún momento van a toparse con:

```r
set.seed(123)
ejemplo <- rnorm(n = 10000, mean = 0, sd = 1)
```

Que es **set.seed**?  
**set.seed** genera secuencias de numeros "random" pero al poner una "semilla" nos aseguramos de que nos genere la misma secuencia en todas las computadoras.

Que es **rnorm**?  
**rnorm** sirve para generar muestras aleatorias a partir de una población teórica con distribución normal, dandole media y desviación estándar.

Cuando hagan preguntas en internet, es muy útil usarlo!

---

## 2.2. Chocolate y felicidad

-  Supongamos que podemos medir felicidad de manera cuantitativa, como una variable continua.  
- Supongamos, además, que nuestro laboratorio quiere investigar cómo impactan distintas dosis de **chocolate** a la **felicidad** de los humanos.

---

## 2.2. Chocolate y felicidad
Para esto, tomamos una muestra de **100 voluntarios** y los asignamos de manera aleatoria a **5 dosis de chocolate (20, 40, 60, 80, y 100 gramos)**. Los individuos consumen la dosis asignada, el chocolate aumenta su felicidad (según la fórmula felicidad=dosis∗2.5+10), que medimos y graficamos.

Generar participantes

```r
id <- 1:100
```

Generar dosis

```r
dosis <- sort(rep(seq(20,100,20), 20))
```

Generar respuesta "ideal"

```r
respuesta <- dosis * 2.5 + 10
```

Construir data.frame

```r
datos <- data.frame(id=id,dosis=dosis,respuesta=respuesta)
```

---

## 2.3. Chocolate y felicidad
Asi se veria nuestro modelo **ideal**

```r
p <- ggplot(datos, 
            aes(x=dosis, 
                y=respuesta))+
      geom_point()+
      xlab("Dosis Chocolate (gr)")+
      ylab("Felicidad")
p
```
]

---

## 2.4. Chocolate y felicidad

- Pero, en la realidad, esperamos variabilidad en la respuesta al chocolate entre individuos.  
- Si queremos trabajar con un modelo **más realista** deberíamos tener mas variacion en la respuesta:

Semilla para muestras aleatorias.

```r
set.seed(444)
```

Agregar ruido con distribución normal (media 0, sd = 5)

```r
datos$respuesta <- datos$respuesta + rnorm(n = 100, mean = 0, sd = 5)
```

---

## 2.4. Chocolate y felicidad

- Modelo un poco **más** realista, la respuesta muestra variaciones.

```r
p <- ggplot(datos, 
            aes(x=dosis, 
                y=respuesta))+
*      geom_point(alpha = 0.1)+
       xlab("Dosis Chocolate (gr)")+
       ylab("Felicidad")
p
```
]

**nuevo concepto**: alpha en el grafico crea puntos con _'transparencia'._

---

## 2.5. Chocolate y felicidad

- ¿Cuál es el valor esperado de felicidad para una dada dosis de chocolate?  
- ¿Cómo podemos estimarlo?

.center[
<h3> ¿ 100 g  🍫 = 😃  ?</h3>
<br>
<h2> ¿ 200 g  🍫 = 😃  ?</h2>
<br>
<h1> ¿ 300 g  🍫 = 😃  ?</h1>
]

---

## 2.6. Modelo lineal

Para construir modelos en R, es importante el simbolo *virgulilla*

```r
~  
```

En nuestro caso, queremos estudiar la relación entre la felicidad (respuesta) y la dosis de chocolate (dosis).
Entonces el modelo se construiría de la siguiente manera.

```r
modelo_chocolate <- lm(data=datos,
                       respuesta ~ dosis)
```

---

## 2.6. summary
Ver resultados del modelo.

```r
summary(modelo_chocolate)
```

```
## 
## Call:
## lm(formula = respuesta ~ dosis, data = datos)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -9.204 -3.696 -1.330  3.091 11.497 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  8.59279    1.15698   7.427 4.15e-11 ***
## dosis        2.51659    0.01744 144.283  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.933 on 98 degrees of freedom
## Multiple R-squared:  0.9953,	Adjusted R-squared:  0.9953 
## F-statistic: 2.082e+04 on 1 and 98 DF,  p-value: < 2.2e-16
```

---

## 2.7. Broom

El paquete broom (de la paqueteria tidyverse), nos permite extraer información estadística de los modelos.

Aquí está la tabla con los estimadores:

```r
broom::tidy(modelo_chocolate)
```

```
## # A tibble: 2 × 5
##   term        estimate std.error statistic   p.value
##   <chr>          <dbl>     <dbl>     <dbl>     <dbl>
## 1 (Intercept)     8.59    1.16        7.43 4.15e- 11
## 2 dosis           2.52    0.0174    144.   5.93e-116
```

A partir de la columna de estimadores (estimate), vemos que el consumo de chocolate incrementa la felicidad (esperamos mayor un incremento en ~2.52 unidades de felicidad por cada gramo de chocolate).

Nuestro modelo puede escribirse como:

**felicidad=2.52∗dosis de chocolate+8.59**

---

## 2.8. Recordatorio

**felicidad=2.52∗dosis de chocolate+8.59**

---

## 2.9. Coeficientes

También podemos acceder a porciones del modelo por separado.

Coeficientes.

```r
modelo_chocolate$coefficients
```

```
## (Intercept)       dosis 
##    8.592791    2.516593
```

---

## 2.9. Intervalos

Intervalos.

```r
round(confint(modelo_chocolate), 3) 
```

```
##             2.5 % 97.5 %
## (Intercept) 6.297 10.889
## dosis       2.482  2.551
```

Valores predichos.

```r
head(modelo_chocolate$fitted.values,5)
```

```
##        1        2        3        4        5 
## 58.92464 58.92464 58.92464 58.92464 58.92464
```

Residuales.

```r
head(modelo_chocolate$residuals,5)
```

```
##          1          2          3          4          5 
## -3.7340820 -0.3253313 -7.2040228  1.8230764  6.2374206
```

---

## 2.10. Supuestos

Podemos explorar el ajuste y analizar el cumplimiento de supuestos en R utilizando la función plot que maneja bien objetos lm.

```r
par(mfrow = c(2, 2))
plot(modelo_chocolate)
```

**nuevo concepto** par(mfrow), es que nos muestre los graficos en dos columnas y dos filas. _par_ por grafical parameters, _mf_ de Multiple Figures/Frames y _row_ de ordenado por fila.
]

---

## 2.10. Supuestos

```r
#install.packages("performance")
#install.packages('see')
library(performance)
```

Algunas funciones del paquete:
- check_collinearity() 
- check_normality()
- check_heteroscedasticity() 
- check_model()
]

```r
check_model(modelo_chocolate)
```

![](Clase7_files/figure-html/unnamed-chunk-41-1.png)
]

---

## 2.11. Nuevo modelo

Cambiemos nuestros datos para un peor ajuste.

```r
datos$nueva_dosis <- datos$dosis + rnorm(100,10,10)
```

Creemos un nuevo modelo.

```r
nuevo_modelo <- lm(data = datos,
                   respuesta~nueva_dosis)
```

Agreguemos los valores predichos y los residuales a nuestro data frame.

```r
datos$nuevo_pred <- nuevo_modelo$fitted.values
datos$residuos <- nuevo_modelo$residuals 
```

---

## 2.11. Nuevo modelo

Estos son nuestros nuevos datos, y la linea de regression.

```r
Plot_nueva_dosis<- ggplot(datos, aes(nueva_dosis, respuesta))+
  geom_point()+
  geom_point(aes(nueva_dosis, nuevo_pred), color="gray50", pch=1) +
  theme(plot.background = element_rect(colour = NA))+
  xlab("Dosis Chocolate (gr)")+
  ylab("Felicidad")
Plot_nueva_dosis
```

---

## 2.11. Residuales

Agregar los residuales.

```r
Plot_nueva_dosis +
* geom_segment(aes(xend = nueva_dosis,
*                  yend = nuevo_pred),
               alpha=0.5)
```

---

## 2.11. Residuales

Una herramienta para visualizar mejor los puntos con residuos grandes es graficarlos utilizando una escala de color y tamaño.

```r
ggplot(datos, aes(nueva_dosis, respuesta))+
  geom_point(aes(color = residuos, size=abs(residuos)))+ 
  geom_point(aes(nueva_dosis, nuevo_pred), color="gray50", pch=1) +
  geom_segment(aes(xend = nueva_dosis, yend = nuevo_pred),
               alpha=0.5)+
  xlab("Dosis Chocolate (gr)")+
  ylab("Felicidad")+
  scale_color_gradientn(colours = c("red", "black", "red"))+
  guides(color = FALSE,
         size = FALSE)
```
]

---

## 2.12. ¿Por qué hacer una regresión?

Los objetivos de realizar un análisis de regresión pueden resumirse en:

- Describir la relación funcional entre X e Y
- Determinar cuánta de la variación en Y puede ser explicada por la variación de X y cuánto permanece sin explicar.
- Estimar los parámetros del modelo.
- Hacer inferencia sobre los parámetros del modelo (mediante pruebas de hipótesis y cálculo de intervalos de confianza).

---

- Generar datos, usando set.seed y rnorm
- Crear una figura con estos datos
- Crear un modelo lineal
- Extraer estimadores del modelo
- Crear un segundo modelo
- Graficar los residuales

---

## 2.13. Ejercicios 
Generar nuestros datos.

```r
id <- 1:100 
dosis <- sort(rep(seq(20,100,20), 20))
respuesta <- dosis * 2.5 + 10
datos <- data.frame(id=id,
                    dosis=dosis,
                    respuesta=respuesta)
set.seed(444)
datos$respuesta <- datos$respuesta + rnorm(n = 100, mean = 0, sd = 5)
```

Crear figura.

```r
p <- ggplot(datos, 
            aes(x=dosis, y=respuesta))+
       geom_point(alpha = 0.1)+
       geom_smooth(method="lm")+
       xlab("Dosis Chocolate (gr)")+
       ylab("Felicidad")
p
```

---

## 2.14. Ejercicios

Sintaxis de modelos lineares.

```r
modelo_chocolate <- lm(data=datos,
                       respuesta ~ dosis)
```

Obtener estimadores.

```r
summary(modelo_chocolate)
broom::tidy(modelo_chocolate)
```

Ver coeficientes.

```r
modelo_chocolate$coefficients
```

Checar supuestos.

```r
#install.packages("performance")
#install.packages('see')
library(performance)
```

```r
check_model(modelo_chocolate)
```

---

## 2.14. Ejercicios 
Ver los residuales.
Cambiemos nuestros datos para un peor ajuste.

```r
datos$nueva_dosis <- datos$dosis + rnorm(100,10,10)
```

```r
nuevo_modelo <- lm(data = datos,
                   respuesta~nueva_dosis)
```

```r
datos$nuevo_pred <- nuevo_modelo$fitted.values
datos$residuos <- nuevo_modelo$residuals 
```

---

# Recapitulando

Esta clase:  
- [Explorar datos](#explora).  
- [Modelo lineal](#lineal)

Siguiente clase:  
- Objetos clase factor.  
- Analisis de varianza.

Este material esta accesible y se encuentra en <br>
 mi [<svg aria-hidden="true" role="img" viewBox="0 0 512 512" style="height:1em;width:1em;vertical-align:-0.125em;margin-left:auto;margin-right:auto;font-size:inherit;fill:#f2cc8f;overflow:visible;position:relative;"><path d="M432,320H400a16,16,0,0,0-16,16V448H64V128H208a16,16,0,0,0,16-16V80a16,16,0,0,0-16-16H48A48,48,0,0,0,0,112V464a48,48,0,0,0,48,48H400a48,48,0,0,0,48-48V336A16,16,0,0,0,432,320ZM488,0h-128c-21.37,0-32.05,25.91-17,41l35.73,35.73L135,320.37a24,24,0,0,0,0,34L157.67,377a24,24,0,0,0,34,0L435.28,133.32,471,169c15,15,41,4.5,41-17V24A24,24,0,0,0,488,0Z"/></svg>github](https://github.com/MiriamLL/Curso_CIAD/)
y mi [<svg aria-hidden="true" role="img" viewBox="0 0 512 512" style="height:1em;width:1em;vertical-align:-0.125em;margin-left:auto;margin-right:auto;font-size:inherit;fill:#f2cc8f;overflow:visible;position:relative;"><path d="M432,320H400a16,16,0,0,0-16,16V448H64V128H208a16,16,0,0,0,16-16V80a16,16,0,0,0-16-16H48A48,48,0,0,0,0,112V464a48,48,0,0,0,48,48H400a48,48,0,0,0,48-48V336A16,16,0,0,0,432,320ZM488,0h-128c-21.37,0-32.05,25.91-17,41l35.73,35.73L135,320.37a24,24,0,0,0,0,34L157.67,377a24,24,0,0,0,34,0L435.28,133.32,471,169c15,15,41,4.5,41-17V24A24,24,0,0,0,488,0Z"/></svg>página](https://www.miriam-lerma.com)
]

<h1>
.right[
[<svg aria-hidden="true" role="img" viewBox="0 0 576 512" style="height:1em;width:1.12em;vertical-align:-0.125em;margin-left:auto;margin-right:auto;font-size:inherit;fill:#f2cc8f;overflow:visible;position:relative;"><path d="M280.37 148.26L96 300.11V464a16 16 0 0 0 16 16l112.06-.29a16 16 0 0 0 15.92-16V368a16 16 0 0 1 16-16h64a16 16 0 0 1 16 16v95.64a16 16 0 0 0 16 16.05L464 480a16 16 0 0 0 16-16V300L295.67 148.26a12.19 12.19 0 0 0-15.3 0zM571.6 251.47L488 182.56V44.05a12 12 0 0 0-12-12h-56a12 12 0 0 0-12 12v72.61L318.47 43a48 48 0 0 0-61 0L4.34 251.47a12 12 0 0 0-1.6 16.9l25.5 31A12 12 0 0 0 45.15 301l235.22-193.74a12.19 12.19 0 0 1 15.3 0L530.9 301a12 12 0 0 0 16.9-1.6l25.5-31a12 12 0 0 0-1.7-16.93z"/></svg>](https://www.miriam-lerma.com/teaching.html)
]</h1>