Data Wrangling

This might be the most important thing you learn about R, and about working with data. It is rare, and I daresay impossible, that the data you work on are in exactly the right form for analysis. For example, you might want to discard certain variables from the dataset to reduce clutter. Or you need to create new variables from existing ones. Or you encounter missing data. The process of gathering data in its raw form and molding it into a form that is suitable for its end use is known as data wrangling. What’s great about the tidyverse package is its suite of functions make data wrangling relatively easy, straight forward, and transparent.

In this lab, we won’t have time to go through all of the methods and functions in R that are associated with the data wrangling process. We will cover more in later labs and many methods you will have to learn on your own given the specific tasks you will need to accomplish. In the rest of this guide, we’ll go through some of the basic data wrangling techniques using the functions found in the package dplyr, which was automatically installed and loaded when you brought in the tidyverse package. These functions can be used for either tibbles or regular data frames.

Install packages

Let’s load some packages that we will need this week. We need to load any packages we previously installed using the function library(). Remember, install once, load every time. And if it gives you an error for no package called..., then we need to install those packages using install.packages(). So when using a package, library() should always be at the top of your R Markdown.

library(tidyverse)
library(tmap)
library(nycflights13)

Reading in data

The dataset nycflights13 was included in (Lab 1 in an R package called nycflights13. In most cases, you’ll have to read it in. Most data files you will encounter are comma-delimited (or comma-separated) files, which have .csv extensions. Comma-delimited means that columns are separated by commas. We’re going to bring in two csv files lab1dataset1.csv and lab1dataset2.csv. The first file is a county-level dataset containing median household income. The second file is also a county-level dataset containing Non-Hispanic white, Non-Hispanic black, non-Hispanic Asian, and Hispanic population counts. Both data sets come from the 2014-2018 American Community Survey (ACS). We’ll cover the Census, and how to download Census data, in another lab.

To read in a csv file, use the function read_csv(), which is a part of the tidyverse package, and plug in the name of the file in quotes inside the parentheses. Make sure you include the .csv extension. The two files are up on the GitHub for this course, so you can read them in directly from there. We’ll name these objects ca1 and ca2.

ca1 <- read_csv("https://raw.githubusercontent.com/pjames-ucdavis/SPH215/refs/heads/main/lab1dataset1.csv")

## Rows: 58 Columns: 4
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (2): County, Formatted FIPS
## dbl (2): FIPS Code, Estimated median income of a household, between 2014-2018.
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

ca2 <- read_csv("https://raw.githubusercontent.com/pjames-ucdavis/SPH215/refs/heads/main/lab1dataset2.csv")

## Rows: 58 Columns: 12
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr  (2): GEOID, NAME
## dbl (10): tpoprE, tpoprM, nhwhiteE, nhwhiteM, nhblkE, nhblkM, nhasnE, nhasnM...
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

You should see two tibbles ca1 and ca2 pop up in your Environment window (top right). Every time you bring a dataset into R for the first time, look at it to make sure you understand its structure. You can do this a number of ways. One is to use the function glimpse(), which gives you a succinct summary of your data.

glimpse(ca1)

## Rows: 58
## Columns: 4
## $ `FIPS Code`                                                  <dbl> 6071, 602…
## $ County                                                       <chr> "San Bern…
## $ `Formatted FIPS`                                             <chr> "06071", …
## $ `Estimated median income of a household, between 2014-2018.` <dbl> 60164, 52…

glimpse(ca2)

## Rows: 58
## Columns: 12
## $ GEOID    <chr> "06033", "06047", "06043", "06049", "06013", "06027", "06099"…
## $ NAME     <chr> "Lake County, California", "Merced County, California", "Mari…
## $ tpoprE   <dbl> 64148, 269075, 17540, 8938, 1133247, 18085, 539301, 443738, 1…
## $ tpoprM   <dbl> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, N…
## $ nhwhiteE <dbl> 45623, 76008, 14125, 6962, 502951, 11389, 229796, 199356, 923…
## $ nhwhiteM <dbl> 30, 200, 31, 6, 607, 26, 445, 221, 121, 38, 980, 166, 201, 48…
## $ nhblkE   <dbl> 1426, 8038, 166, 149, 93683, 160, 14338, 7881, 40, 434, 14400…
## $ nhblkM   <dbl> 112, 371, 111, 97, 1433, 37, 584, 449, 47, 88, 2016, 209, 438…
## $ nhasnE   <dbl> 642, 19487, 243, 130, 182135, 289, 28599, 22996, 336, 1705, 2…
## $ nhasnM   <dbl> 187, 630, 95, 118, 1993, 62, 876, 507, 223, 125, 1893, 402, 6…
## $ hispE    <dbl> 12830, 158494, 1909, 1292, 288101, 3927, 245973, 200060, 3866…
## $ hispM    <dbl> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, N…

If you like viewing your data through an Excel style worksheet, type in View(ca1), and ca1 should pop up in the top left window of your R Studio interface. Scroll up and down, left and right.

We’ll learn how to summarize your data using descriptive statistics and graphs in the next lab.

By learning how to read in data the tidy way, I think you’ve earned another badge! Woot woot! Your Readr Badge

Renaming variables

More often than you think, you will encounter a column / variable with a name that is not descriptive. The more descriptive the variable names, the more efficient your analysis will be and the less likely you are going to make a mistake. To see the names of variables in your dataset, use the names() command.

names(ca1)

## [1] "FIPS Code"                                                 
## [2] "County"                                                    
## [3] "Formatted FIPS"                                            
## [4] "Estimated median income of a household, between 2014-2018."

The name Estimated median income of a household, between 2014-2018. is a doozy! Just a little long. Use the command rename() to – you guessed it – rename a variable! Let’s rename Estimated median income of a household, between 2014-2018. to medinc.

rename(ca1, medinc = "Estimated median income of a household, between 2014-2018.")

## # A tibble: 58 × 4
##    `FIPS Code` County         `Formatted FIPS` medinc
##          <dbl> <chr>          <chr>             <dbl>
##  1        6071 San Bernardino 06071             60164
##  2        6027 Inyo           06027             52874
##  3        6029 Kern           06029             52479
##  4        6093 Siskiyou       06093             44200
##  5        6065 Riverside      06065             63948
##  6        6019 Fresno         06019             51261
##  7        6035 Lassen         06035             56362
##  8        6049 Modoc          06049             45149
##  9        6107 Tulare         06107             47518
## 10        6023 Humboldt       06023             45528
## # ℹ 48 more rows

Note that you can rename multiple variables within the same rename() command. For example, we can also rename Formatted FIPS to GEOID. Make this permanent by assigning it back to ca1 using the arrow operator <-

ca1 <- rename(ca1, 
        medinc = "Estimated median income of a household, between 2014-2018.",
        GEOID = "Formatted FIPS")
names(ca1)

## [1] "FIPS Code" "County"    "GEOID"     "medinc"

And we can see our variable names have changed! We are doing things.

Selecting variables

In practice, most of the data files you will download will contain variables you don’t need. It is easier to work with a smaller dataset as it reduces clutter and clears up memory space, which is important if you are executing complex tasks on a large number of observations. Use the command select() to keep variables by name. Visually, we are doing the following (taken from the RStudio cheatsheet). Subsetting columns

Let’s take a look at the variables we have in the ca2 dataset.

names(ca2)

##  [1] "GEOID"    "NAME"     "tpoprE"   "tpoprM"   "nhwhiteE" "nhwhiteM"
##  [7] "nhblkE"   "nhblkM"   "nhasnE"   "nhasnM"   "hispE"    "hispM"

We’ll go into more detail what these variables mean in another lab when we cover the U.S. Census, but we only want to keep the variables GEOID, which is the county FIPS code (a unique numeric identifier), and tpoprE, nhwhiteE, nhblkE, nhasnE, and hispE, which are the total, white, black, Asian and Hispanic population counts.

ca2 <- select(ca2, GEOID, tpoprE, nhwhiteE, nhblkE, nhasnE, hispE)

Here, we provide the data object first, followed by the variables we want to keep separated by commas.

Let’s keep County, GEOID, and medinc from the ca1 dataset. Rather than listing all the variables we want to keep like we did above, a shortcut way of doing this is to use the : operator.

select(ca1, County:medinc)

## # A tibble: 58 × 3
##    County         GEOID medinc
##    <chr>          <chr>  <dbl>
##  1 San Bernardino 06071  60164
##  2 Inyo           06027  52874
##  3 Kern           06029  52479
##  4 Siskiyou       06093  44200
##  5 Riverside      06065  63948
##  6 Fresno         06019  51261
##  7 Lassen         06035  56362
##  8 Modoc          06049  45149
##  9 Tulare         06107  47518
## 10 Humboldt       06023  45528
## # ℹ 48 more rows

The : operator tells R to select all the variables from County to medinc. This operator is useful when you’ve got a lot of variables to keep and they all happen to be ordered sequentially.

You can use also use select() command to keep variables except for the ones you designate. For example, to keep all variables in ca1 except FIPS Code and save this back into ca1, type in:

ca1 <- select(ca1, -"FIPS Code")

The negative sign tells R to exclude the variable. Notice we need to use quotes around FIPS Code because it contains a space. You can delete multiple variables. For example, if you wanted to keep all variables except FIPS Code and County, you would type in select(ca1, -"FIPS Code", -County).

Take a glimpse and see if it looks how we think it should.

glimpse(ca1)

## Rows: 58
## Columns: 3
## $ County <chr> "San Bernardino", "Inyo", "Kern", "Siskiyou", "Riverside", "Fre…
## $ GEOID  <chr> "06071", "06027", "06029", "06093", "06065", "06019", "06035", …
## $ medinc <dbl> 60164, 52874, 52479, 44200, 63948, 51261, 56362, 45149, 47518, …

Try ca2 and let us know how it looks.

Creating new variables

The mutate() function (strange name, huh?) allows you to create new variables within your dataset. This is important when you need to transform variables in some way - for example, calculating a ratio or adding two variables together. Visually, you are doing this: mutate

You can use the mutate() command to generate as many new variables as you would like. For example, let’s construct four new variables in ca2 - the percent of residents who are non-Hispanic white, non-Hispanic Asian, non-Hispanic black, and Hispanic. Name these variables pwhite, pasian, pblack, and phisp, respectively.

mutate(ca2, pwhite = nhwhiteE/tpoprE, pasian = nhasnE/tpoprE, 
              pblack = nhblkE/tpoprE, phisp = hispE/tpoprE)

## # A tibble: 58 × 10
##    GEOID  tpoprE nhwhiteE nhblkE nhasnE  hispE pwhite pasian  pblack phisp
##    <chr>   <dbl>    <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>   <dbl> <dbl>
##  1 06033   64148    45623   1426    642  12830  0.711 0.0100 0.0222  0.200
##  2 06047  269075    76008   8038  19487 158494  0.282 0.0724 0.0299  0.589
##  3 06043   17540    14125    166    243   1909  0.805 0.0139 0.00946 0.109
##  4 06049    8938     6962    149    130   1292  0.779 0.0145 0.0167  0.145
##  5 06013 1133247   502951  93683 182135 288101  0.444 0.161  0.0827  0.254
##  6 06027   18085    11389    160    289   3927  0.630 0.0160 0.00885 0.217
##  7 06099  539301   229796  14338  28599 245973  0.426 0.0530 0.0266  0.456
##  8 06083  443738   199356   7881  22996 200060  0.449 0.0518 0.0178  0.451
##  9 06051   14174     9234     40    336   3866  0.651 0.0237 0.00282 0.273
## 10 06069   59416    20780    434   1705  35248  0.350 0.0287 0.00730 0.593
## # ℹ 48 more rows

Note that you can create new variables based on the variables you just created in the same line of code. For example, you can create a categorical variable called mhisp yielding “Majority” if the tract is majority Hispanic and “Not Majority” otherwise after creating the percent Hispanic variable phisp within the same mutate() command. Let’s save these changes back into ca2.

ca2 <- mutate(ca2, pwhite = nhwhiteE/tpoprE, pasian = nhasnE/tpoprE, 
              pblack = nhblkE/tpoprE, phisp = hispE/tpoprE,
              mhisp = case_when(phisp > 0.5 ~ "Majority",
                                .default = "Not Majority"))

We used the function case_when() to create mhisp - the function tells R that if the condition phisp > 0.5 is met, the tract’s value for the variable mhisp will be “Majority”, otherwise (designated by .default=) it will be “Not Majority”.

Take a look at our data. Pay attention to phisp and mhisp. Did our calculation work?

glimpse(ca2)

## Rows: 58
## Columns: 11
## $ GEOID    <chr> "06033", "06047", "06043", "06049", "06013", "06027", "06099"…
## $ tpoprE   <dbl> 64148, 269075, 17540, 8938, 1133247, 18085, 539301, 443738, 1…
## $ nhwhiteE <dbl> 45623, 76008, 14125, 6962, 502951, 11389, 229796, 199356, 923…
## $ nhblkE   <dbl> 1426, 8038, 166, 149, 93683, 160, 14338, 7881, 40, 434, 14400…
## $ nhasnE   <dbl> 642, 19487, 243, 130, 182135, 289, 28599, 22996, 336, 1705, 2…
## $ hispE    <dbl> 12830, 158494, 1909, 1292, 288101, 3927, 245973, 200060, 3866…
## $ pwhite   <dbl> 0.7112147, 0.2824789, 0.8053022, 0.7789215, 0.4438141, 0.6297…
## $ pasian   <dbl> 0.010008106, 0.072422187, 0.013854048, 0.014544641, 0.1607195…
## $ pblack   <dbl> 0.022229843, 0.029872712, 0.009464082, 0.016670396, 0.0826677…
## $ phisp    <dbl> 0.20000624, 0.58903280, 0.10883694, 0.14455135, 0.25422613, 0…
## $ mhisp    <chr> "Not Majority", "Majority", "Not Majority", "Not Majority", "…

Joining Tables

Rather than working on two separate datasets, we should join the two datasets ca1 and ca2, because we may want to examine the relationship between median household income, which is in ca1, and racial/ethnic composition, which is in ca2. To do this, we need a unique ID that connects the tracts across the two files. The unique Census ID for a county combines the county and state IDs. The Census ID is named GEOID in both files. The IDs should be the same data class. Let’s check if they are!

class(ca1$GEOID)

## [1] "character"

class(ca2$GEOID)

## [1] "character"

Lookin good! Note: If they are not the same class, we can coerce them using the as.numeric() or as.character() function described earlier.

To merge the datasets together, use the function left_join(), which matches pairs of observations whenever their keys or IDs are equal. We match on the variable GEOID and save the merged data set into a new object called cacounty.

cacounty <- left_join(ca1, ca2, by = "GEOID")

We want to merge ca2 into ca1, so that’s why the sequence is ca1, ca2. The argument by tells R which variable(s) to match rows on, in this case GEOID. You can match on multiple variables and you can also match on a single variable with different variable names (see the left_join() help documentation for how to do this). The number of columns in cacounty equals the number of columns in ca1 plus the number of columns in ca2 minus the ID variable you merged on.

Note that if you have two variables with the same name in both files, R will attach a .x to the variable name in ca1 and a .y to the variable name in ca1. For example, if you have a variable named Robert in both files, cacounty will contain both variables and name it Robert.x (the variable in ca1) and Robert.y (the variable in ca1). Try to avoid having variables with the same names in the two files you want to merge.

Let’s use select() to keep the necessary variables.

cacounty <- select(cacounty, GEOID, County, pwhite, pasian, pblack, phisp, mhisp, medinc)

Filtering

Filtering means selecting rows/observations based on their values. To filter in R, use the command filter(). Visually, filtering rows looks like.

Filtering The first argument in the parentheses of this command is the name of the data frame. The second and any subsequent arguments (separated by commas) are the expressions that filter the data frame. For example, we can select Sacramento county using its FIPS code. A FIPS code is a unique ID for every geographic unit in the US. This will come up often!

filter(cacounty, GEOID == "06067")

## # A tibble: 1 × 8
##   GEOID County     pwhite pasian pblack phisp mhisp        medinc
##   <chr> <chr>       <dbl>  <dbl>  <dbl> <dbl> <chr>         <dbl>
## 1 06067 Sacramento  0.452  0.153 0.0954 0.230 Not Majority  63902

The double equal operator == means equal to. We can also explicitly exclude cases and keep everything else by using the not equal operator !=. Conversely, the following code excludes Sacramento county.

filter(cacounty, GEOID != "06067")

## # A tibble: 57 × 8
##    GEOID County         pwhite pasian  pblack phisp mhisp        medinc
##    <chr> <chr>           <dbl>  <dbl>   <dbl> <dbl> <chr>         <dbl>
##  1 06071 San Bernardino  0.292 0.0682 0.0791  0.528 Majority      60164
##  2 06027 Inyo            0.630 0.0160 0.00885 0.217 Not Majority  52874
##  3 06029 Kern            0.348 0.0456 0.0510  0.528 Majority      52479
##  4 06093 Siskiyou        0.767 0.0154 0.0142  0.123 Not Majority  44200
##  5 06065 Riverside       0.359 0.0620 0.0606  0.484 Not Majority  63948
##  6 06019 Fresno          0.298 0.100  0.0455  0.527 Majority      51261
##  7 06035 Lassen          0.658 0.0140 0.0864  0.187 Not Majority  56362
##  8 06049 Modoc           0.779 0.0145 0.0167  0.145 Not Majority  45149
##  9 06107 Tulare          0.290 0.0321 0.0127  0.641 Majority      47518
## 10 06023 Humboldt        0.746 0.0298 0.00988 0.113 Not Majority  45528
## # ℹ 47 more rows

What about filtering if a county has a value greater than a specified value? For example, counties with a percent white greater than 0.5 (50%).

filter(cacounty, pwhite > 0.5)

## # A tibble: 30 × 8
##    GEOID County          pwhite pasian  pblack  phisp mhisp        medinc
##    <chr> <chr>            <dbl>  <dbl>   <dbl>  <dbl> <chr>         <dbl>
##  1 06027 Inyo             0.630 0.0160 0.00885 0.217  Not Majority  52874
##  2 06093 Siskiyou         0.767 0.0154 0.0142  0.123  Not Majority  44200
##  3 06035 Lassen           0.658 0.0140 0.0864  0.187  Not Majority  56362
##  4 06049 Modoc            0.779 0.0145 0.0167  0.145  Not Majority  45149
##  5 06023 Humboldt         0.746 0.0298 0.00988 0.113  Not Majority  45528
##  6 06089 Shasta           0.802 0.0297 0.0119  0.0983 Not Majority  50905
##  7 06045 Mendocino        0.656 0.0191 0.00585 0.248  Not Majority  49233
##  8 06105 Trinity          0.825 0.0139 0.00676 0.0723 Not Majority  38497
##  9 06079 San Luis Obispo  0.691 0.0353 0.0175  0.224  Not Majority  70699
## 10 06103 Tehama           0.687 0.0152 0.00663 0.247  Not Majority  42899
## # ℹ 20 more rows

What about less than 0.5 (50%)?

filter(cacounty, pwhite < 0.5)

## # A tibble: 28 × 8
##    GEOID County         pwhite pasian pblack phisp mhisp        medinc
##    <chr> <chr>           <dbl>  <dbl>  <dbl> <dbl> <chr>         <dbl>
##  1 06071 San Bernardino  0.292 0.0682 0.0791 0.528 Majority      60164
##  2 06029 Kern            0.348 0.0456 0.0510 0.528 Majority      52479
##  3 06065 Riverside       0.359 0.0620 0.0606 0.484 Not Majority  63948
##  4 06019 Fresno          0.298 0.100  0.0455 0.527 Majority      51261
##  5 06107 Tulare          0.290 0.0321 0.0127 0.641 Majority      47518
##  6 06037 Los Angeles     0.263 0.144  0.0788 0.485 Not Majority  64251
##  7 06073 San Diego       0.459 0.116  0.0471 0.335 Not Majority  74855
##  8 06025 Imperial        0.110 0.0132 0.0217 0.838 Majority      45834
##  9 06053 Monterey        0.303 0.0546 0.0245 0.583 Majority      66676
## 10 06083 Santa Barbara   0.449 0.0518 0.0178 0.451 Not Majority  71657
## # ℹ 18 more rows

Both lines of code do not include counties that have a percent white equal to 0.5. We include it by using the less than or equal operator <= or greater than or equal operator >=.

filter(cacounty, pwhite <= 0.5)

## # A tibble: 28 × 8
##    GEOID County         pwhite pasian pblack phisp mhisp        medinc
##    <chr> <chr>           <dbl>  <dbl>  <dbl> <dbl> <chr>         <dbl>
##  1 06071 San Bernardino  0.292 0.0682 0.0791 0.528 Majority      60164
##  2 06029 Kern            0.348 0.0456 0.0510 0.528 Majority      52479
##  3 06065 Riverside       0.359 0.0620 0.0606 0.484 Not Majority  63948
##  4 06019 Fresno          0.298 0.100  0.0455 0.527 Majority      51261
##  5 06107 Tulare          0.290 0.0321 0.0127 0.641 Majority      47518
##  6 06037 Los Angeles     0.263 0.144  0.0788 0.485 Not Majority  64251
##  7 06073 San Diego       0.459 0.116  0.0471 0.335 Not Majority  74855
##  8 06025 Imperial        0.110 0.0132 0.0217 0.838 Majority      45834
##  9 06053 Monterey        0.303 0.0546 0.0245 0.583 Majority      66676
## 10 06083 Santa Barbara   0.449 0.0518 0.0178 0.451 Not Majority  71657
## # ℹ 18 more rows

In addition to comparison operators, filtering may also utilize logical operators that make multiple selections. There are three basic logical operators: & (and), | is (or), and ! is (not). We can keep counties with phisp greater than 0.5 and medinc greater than 50000 percent using &.

filter(cacounty, phisp > 0.5 & medinc > 50000)

## # A tibble: 9 × 8
##   GEOID County         pwhite pasian  pblack phisp mhisp    medinc
##   <chr> <chr>           <dbl>  <dbl>   <dbl> <dbl> <chr>     <dbl>
## 1 06071 San Bernardino  0.292 0.0682 0.0791  0.528 Majority  60164
## 2 06029 Kern            0.348 0.0456 0.0510  0.528 Majority  52479
## 3 06019 Fresno          0.298 0.100  0.0455  0.527 Majority  51261
## 4 06053 Monterey        0.303 0.0546 0.0245  0.583 Majority  66676
## 5 06039 Madera          0.345 0.0197 0.0312  0.573 Majority  52884
## 6 06047 Merced          0.282 0.0724 0.0299  0.589 Majority  50129
## 7 06069 San Benito      0.350 0.0287 0.00730 0.593 Majority  81977
## 8 06031 Kings           0.327 0.0382 0.0585  0.541 Majority  53865
## 9 06011 Colusa          0.357 0.0151 0.0129  0.590 Majority  56704

Use | to keep counties with a GEOID of 06067 (Sacramento) or 06113 (Yolo) or 06075 (San Francisco).

filter(cacounty, GEOID == "06067" | GEOID == "06113" | GEOID == "06075")

## # A tibble: 3 × 8
##   GEOID County        pwhite pasian pblack phisp mhisp        medinc
##   <chr> <chr>          <dbl>  <dbl>  <dbl> <dbl> <chr>         <dbl>
## 1 06113 Yolo           0.471  0.137 0.0243 0.315 Not Majority  65923
## 2 06067 Sacramento     0.452  0.153 0.0954 0.230 Not Majority  63902
## 3 06075 San Francisco  0.406  0.339 0.0501 0.152 Not Majority 104552

Phew. That’s a lot! You’ve gone through some of the basic data wrangling functions offered by tidyverse. Can we get another Tidy badge? Oh yeah. Congratulations! Your dplyr Badge

R Markdown

In running the lines of code above, we’ve asked you to work directly in the R Console and issue commands in an interactive way. That is, you type a command after >, you hit enter/return, R responds, you type the next command, hit enter/return, R responds, and so on. Instead of writing the command directly into the console, you should write it in a script. The process is now: Type your command in the script. Run the code from the script. R responds. You get results. You can write two commands in a script. Run both simultaneously. R responds. You get results. This is the basic flow.

One way to do this is to use the default R Script, which is covered in the assignment guidelines. In your homework assignments, we will be asking you to submit code in another type of script: the R Markdown file. R Markdown allows you to create documents that serve as a neat record of your analysis. Think of it as a word document file, but instead of sentences in an essay, you are writing code for a data analysis.

When going through lab guides, I would recommend not copying and pasting code directly into the R Console, but saving and running it in an R Markdown file. This will give you good practice in the R Markdown environment. Now is a good time to read through the class assignment guidelines as they go through the basics of R Markdown files.

To open an R Markdown file, click on File at the top menu in RStudio, select New File, and then R Markdown…. A window should pop up. In that window, for title, put in “Lab 2”. For author, put your name. Leave the HTML radio button clicked, and select OK. A new R Markdown file should pop up in the top left window.

R Markdown

Don’t change anything inside the YAML (the stuff at the top in between the ---). Also keep the grey chunk after the YAML.

Delete everything else. Save this file (File -> Save) in an appropriate folder. It’s best to set up a clean and efficient file management structure (e.g., SPH215>Labs>Lab1) but you do what works for you.

Follow the directions in the assignment guidelines to add this lab’s code in your Lab 2 R Markdown file. Then knit it as an html, word or pdf file. You don’t have to turn in the Rmd and its knitted file, but it’s good practice to create an Rmd file for each lab (and you will see that the lab assignments are eerily similar to what we do in the lab, so you will save yourself time).

Although the lab guides and course textbooks should get you through a lot of the functions that are needed to successfully accomplish tasks for this class, there are a number of useful online resources on R and RStudio that you can look into if you get stuck or want to learn more. We outline these resources in the R Help section of the website. If you ever get stuck, check this resource out first to troubleshoot before immediately asking a friend or the instructor.

Practice makes perfect

Here are a few practice questions. You don’t need to submit these, but it’s good practice to answer these questions in R Markdown, producing a knitted file (html, pdf or docx).

Look up the help documentation for the function rep(). Use this function to create the following 3 vectors.

[1] 0 0 0 0 0
[1] 1 2 3 1 2 3 1 2 3 1 2 3
[1] 4 5 5 6 6 6

Explain what is the problem in each line of code below. Fix the code so it will run properly.

my variable <- 3
seq(1, 10 by = 2)
Library(cars)

Look up the help documentation for the function cut().

Describe the purpose of this function. What kind of data type(s) does this function accept? Which arguments/options are required? Which arguments are not required and what are their default value(s)?
Create an example vector and use the cut() function on it. Explain your results.

Load the mtcars dataset by using the code data(mtcars). Find the minimum, mean, median and maximum of the variable mpg in the mtcars dataset using just one line of code. We have not covered a function that does this yet, so the main point 1. of this question is to get you used to using the resources you have available to find an answer. Describe the process you used (searched online? used the class textbook?) to find the answer.
Look up the functions arrange() and relocate(). Input the variable phisp from cacounty in each function. What are the functions doing?
Use the function bind_rows() to create a new dataset called cacounty_brows that combines ca1 and ca2. Describe the structure of this new dataset. Do the same for the function bind_cols() (name the new dataset cacounty_bcols). How is bind_cols() different from left_join()?

But wait, we didn’t make a map!

This lab is a foundation for all of the work we will do moving forward in R. But what kind of GIS course would this be if we didn’t make a map? Remember that dataset we brought in earlier on cancer cases across CA called ca_cancer? Let’s plot that real quick. We will talk more about it next week (or later today if we have time)!

# Download Cancer Dataset
download.file("https://raw.githubusercontent.com/pjames-ucdavis/SPH215/refs/heads/main/CA_Cancer_Data.rds", "ca_cancer.rds", mode = "wb")

# Read in Cancer Dataset
cancer <- readRDS("ca_cancer.rds")

## Let's view the data
head(cancer)

##         time event AGE INS                   geometry
## 1   1.275976     1  67 Mcr  POINT (-122.3492 38.3025)
## 14  3.509907     1  69 Mcr POINT (-121.9832 37.82052)
## 17 10.297702     0  75 Mng  POINT (-122.3092 38.3314)
## 36  7.012532     0  46 Mcr POINT (-122.2031 38.09592)
## 55  3.389200     0  70 Mcr POINT (-122.6356 38.26257)
## 92  6.110251     1  59 Unk POINT (-122.0198 37.35523)

table(cancer$event)

## 
##   0   1 
## 424 550

## Load these packages--let's not worry too much about what they do!
library(sf)

## Linking to GEOS 3.13.0, GDAL 3.8.5, PROJ 9.5.1; sf_use_s2() is TRUE

library(tmap)

## Setting coordinate reference system (CRS) to North American Datum 1983 (NAD83)--we will discuss more next week!
cancer_projected = st_as_sf(cancer, crs=4269)

## Plot the data--will also discuss more in a few weeks!
tmap_mode("view")

## ℹ tmap modes "plot" - "view"

## ℹ toggle with `tmap::ttm()`
## This message is displayed once per session.

cancer_map = tm_shape(cancer_projected) + 
  tm_dots(size=0.5,fill_alpha=0.8, fill="event",fill.scale = tm_scale_categorical())
cancer_map

OK we made a pretty map! Blue dots mean they didn’t have the “event” and green means they did. We are going to dive much deeper on this next week. I think this is enough for today! Get outside and enjoy the rest of your day!

LS0tCnRpdGxlOiAnTGFiIDI6IERhdGEgV3JhbmdsaW5nIGluIFInCi0tLQoKCiMgRGF0YSBXcmFuZ2xpbmcKClRoaXMgbWlnaHQgYmUgdGhlIG1vc3QgaW1wb3J0YW50IHRoaW5nIHlvdSBsZWFybiBhYm91dCBSLCBhbmQgYWJvdXQgd29ya2luZyB3aXRoIGRhdGEuIEl0IGlzIHJhcmUsIGFuZCBJIGRhcmVzYXkgaW1wb3NzaWJsZSwgdGhhdCB0aGUgZGF0YSB5b3Ugd29yayBvbiBhcmUgaW4gZXhhY3RseSB0aGUgcmlnaHQgZm9ybSBmb3IgYW5hbHlzaXMuIEZvciBleGFtcGxlLCB5b3UgbWlnaHQgd2FudCB0byBkaXNjYXJkIGNlcnRhaW4gdmFyaWFibGVzIGZyb20gdGhlIGRhdGFzZXQgdG8gcmVkdWNlIGNsdXR0ZXIuIE9yIHlvdSBuZWVkIHRvIGNyZWF0ZSBuZXcgdmFyaWFibGVzIGZyb20gZXhpc3Rpbmcgb25lcy4gT3IgeW91IGVuY291bnRlciBtaXNzaW5nIGRhdGEuIFRoZSBwcm9jZXNzIG9mIGdhdGhlcmluZyBkYXRhIGluIGl0cyByYXcgZm9ybSBhbmQgbW9sZGluZyBpdCBpbnRvIGEgZm9ybSB0aGF0IGlzIHN1aXRhYmxlIGZvciBpdHMgZW5kIHVzZSBpcyBrbm93biBhcyBkYXRhIHdyYW5nbGluZy4gV2hhdOKAmXMgZ3JlYXQgYWJvdXQgdGhlICoqdGlkeXZlcnNlKiogcGFja2FnZSBpcyBpdHMgc3VpdGUgb2YgZnVuY3Rpb25zIG1ha2UgZGF0YSB3cmFuZ2xpbmcgcmVsYXRpdmVseSBlYXN5LCBzdHJhaWdodCBmb3J3YXJkLCBhbmQgdHJhbnNwYXJlbnQuCgpJbiB0aGlzIGxhYiwgd2Ugd29u4oCZdCBoYXZlIHRpbWUgdG8gZ28gdGhyb3VnaCBhbGwgb2YgdGhlIG1ldGhvZHMgYW5kIGZ1bmN0aW9ucyBpbiBSIHRoYXQgYXJlIGFzc29jaWF0ZWQgd2l0aCB0aGUgZGF0YSB3cmFuZ2xpbmcgcHJvY2Vzcy4gV2Ugd2lsbCBjb3ZlciBtb3JlIGluIGxhdGVyIGxhYnMgYW5kIG1hbnkgbWV0aG9kcyB5b3Ugd2lsbCBoYXZlIHRvIGxlYXJuIG9uIHlvdXIgb3duIGdpdmVuIHRoZSBzcGVjaWZpYyB0YXNrcyB5b3Ugd2lsbCBuZWVkIHRvIGFjY29tcGxpc2guIEluIHRoZSByZXN0IG9mIHRoaXMgZ3VpZGUsIHdl4oCZbGwgZ28gdGhyb3VnaCBzb21lIG9mIHRoZSBiYXNpYyBkYXRhIHdyYW5nbGluZyB0ZWNobmlxdWVzIHVzaW5nIHRoZSBmdW5jdGlvbnMgZm91bmQgaW4gdGhlIHBhY2thZ2UgKipkcGx5cioqLCB3aGljaCB3YXMgYXV0b21hdGljYWxseSBpbnN0YWxsZWQgYW5kIGxvYWRlZCB3aGVuIHlvdSBicm91Z2h0IGluIHRoZSAqKnRpZHl2ZXJzZSoqIHBhY2thZ2UuIFRoZXNlIGZ1bmN0aW9ucyBjYW4gYmUgdXNlZCBmb3IgZWl0aGVyIHRpYmJsZXMgb3IgcmVndWxhciBkYXRhIGZyYW1lcy4KClwKCiMjIEluc3RhbGwgcGFja2FnZXMKTGV0J3MgbG9hZCBzb21lIHBhY2thZ2VzIHRoYXQgd2Ugd2lsbCBuZWVkIHRoaXMgd2Vlay4gV2UgbmVlZCB0byBsb2FkIGFueSBwYWNrYWdlcyB3ZSBwcmV2aW91c2x5IGluc3RhbGxlZCAgdXNpbmcgdGhlIGZ1bmN0aW9uIGBsaWJyYXJ5KClgLiBSZW1lbWJlciwgaW5zdGFsbCBvbmNlLCBsb2FkIGV2ZXJ5IHRpbWUuIEFuZCBpZiBpdCBnaXZlcyB5b3UgYW4gZXJyb3IgZm9yIGBubyBwYWNrYWdlIGNhbGxlZC4uLmAsIHRoZW4gd2UgbmVlZCB0byBpbnN0YWxsIHRob3NlIHBhY2thZ2VzIHVzaW5nIGBpbnN0YWxsLnBhY2thZ2VzKClgLiBTbyB3aGVuIHVzaW5nIGEgcGFja2FnZSwgYGxpYnJhcnkoKWAgc2hvdWxkIGFsd2F5cyBiZSBhdCB0aGUgdG9wIG9mIHlvdXIgUiBNYXJrZG93bi4KCgpgYGB7ciwgbWVzc2FnZT1GQUxTRX0KbGlicmFyeSh0aWR5dmVyc2UpCmxpYnJhcnkodG1hcCkKbGlicmFyeShueWNmbGlnaHRzMTMpCmBgYAoKIyMgUmVhZGluZyBpbiBkYXRhCgpUaGUgZGF0YXNldCAqbnljZmxpZ2h0czEzKiB3YXMgaW5jbHVkZWQgaW4gKFtMYWIgMV0oTGFiMV8yMDI2Lmh0bWwpIGluIGFuIFIgcGFja2FnZSBjYWxsZWQgKipueWNmbGlnaHRzMTMqKi4gSW4gbW9zdCBjYXNlcywgeW914oCZbGwgaGF2ZSB0byByZWFkIGl0IGluLiBNb3N0IGRhdGEgZmlsZXMgeW91IHdpbGwgZW5jb3VudGVyIGFyZSBjb21tYS1kZWxpbWl0ZWQgKG9yIGNvbW1hLXNlcGFyYXRlZCkgZmlsZXMsIHdoaWNoIGhhdmUgLmNzdiBleHRlbnNpb25zLiBDb21tYS1kZWxpbWl0ZWQgbWVhbnMgdGhhdCBjb2x1bW5zIGFyZSBzZXBhcmF0ZWQgYnkgY29tbWFzLiBXZeKAmXJlIGdvaW5nIHRvIGJyaW5nIGluIHR3byBjc3YgZmlsZXMgKmxhYjFkYXRhc2V0MS5jc3YqIGFuZCAqbGFiMWRhdGFzZXQyLmNzdiouIFRoZSBmaXJzdCBmaWxlIGlzIGEgY291bnR5LWxldmVsIGRhdGFzZXQgY29udGFpbmluZyBtZWRpYW4gaG91c2Vob2xkIGluY29tZS4gVGhlIHNlY29uZCBmaWxlIGlzIGFsc28gYSBjb3VudHktbGV2ZWwgZGF0YXNldCBjb250YWluaW5nIE5vbi1IaXNwYW5pYyB3aGl0ZSwgTm9uLUhpc3BhbmljIGJsYWNrLCBub24tSGlzcGFuaWMgQXNpYW4sIGFuZCBIaXNwYW5pYyBwb3B1bGF0aW9uIGNvdW50cy4gQm90aCBkYXRhIHNldHMgY29tZSBmcm9tIHRoZSAyMDE0LTIwMTggQW1lcmljYW4gQ29tbXVuaXR5IFN1cnZleSAoQUNTKS4gV2XigJlsbCBjb3ZlciB0aGUgQ2Vuc3VzLCBhbmQgaG93IHRvIGRvd25sb2FkIENlbnN1cyBkYXRhLCBpbiBhbm90aGVyIGxhYi4KClRvIHJlYWQgaW4gYSBjc3YgZmlsZSwgdXNlIHRoZSBmdW5jdGlvbiBgcmVhZF9jc3YoKWAsIHdoaWNoIGlzIGEgcGFydCBvZiB0aGUgKip0aWR5dmVyc2UqKiBwYWNrYWdlLCBhbmQgcGx1ZyBpbiB0aGUgbmFtZSBvZiB0aGUgZmlsZSBpbiBxdW90ZXMgaW5zaWRlIHRoZSBwYXJlbnRoZXNlcy4gTWFrZSBzdXJlIHlvdSBpbmNsdWRlIHRoZSAqLmNzdiogZXh0ZW5zaW9uLiBUaGUgdHdvIGZpbGVzIGFyZSB1cCBvbiB0aGUgR2l0SHViIGZvciB0aGlzIGNvdXJzZSwgc28geW91IGNhbiByZWFkIHRoZW0gaW4gZGlyZWN0bHkgZnJvbSB0aGVyZS4gV2XigJlsbCBuYW1lIHRoZXNlIG9iamVjdHMgKmNhMSogYW5kICpjYTIqLgoKYGBge3J9CmNhMSA8LSByZWFkX2NzdigiaHR0cHM6Ly9yYXcuZ2l0aHVidXNlcmNvbnRlbnQuY29tL3BqYW1lcy11Y2RhdmlzL1NQSDIxNS9yZWZzL2hlYWRzL21haW4vbGFiMWRhdGFzZXQxLmNzdiIpCmNhMiA8LSByZWFkX2NzdigiaHR0cHM6Ly9yYXcuZ2l0aHVidXNlcmNvbnRlbnQuY29tL3BqYW1lcy11Y2RhdmlzL1NQSDIxNS9yZWZzL2hlYWRzL21haW4vbGFiMWRhdGFzZXQyLmNzdiIpCmBgYAoKXAoKWW91IHNob3VsZCBzZWUgdHdvIHRpYmJsZXMgKmNhMSogYW5kICpjYTIqIHBvcCB1cCBpbiB5b3VyIEVudmlyb25tZW50IHdpbmRvdyAodG9wIHJpZ2h0KS4gRXZlcnkgdGltZSB5b3UgYnJpbmcgYSBkYXRhc2V0IGludG8gUiBmb3IgdGhlIGZpcnN0IHRpbWUsIGxvb2sgYXQgaXQgdG8gbWFrZSBzdXJlIHlvdSB1bmRlcnN0YW5kIGl0cyBzdHJ1Y3R1cmUuIFlvdSBjYW4gZG8gdGhpcyBhIG51bWJlciBvZiB3YXlzLiBPbmUgaXMgdG8gdXNlIHRoZSBmdW5jdGlvbiBgZ2xpbXBzZSgpYCwgd2hpY2ggZ2l2ZXMgeW91IGEgc3VjY2luY3Qgc3VtbWFyeSBvZiB5b3VyIGRhdGEuCgpgYGB7cn0KZ2xpbXBzZShjYTEpCmBgYAoKXAoKYGBge3J9CmdsaW1wc2UoY2EyKQpgYGAKClwKCklmIHlvdSBsaWtlIHZpZXdpbmcgeW91ciBkYXRhIHRocm91Z2ggYW4gRXhjZWwgc3R5bGUgd29ya3NoZWV0LCB0eXBlIGluIGBWaWV3KGNhMSlgLCBhbmQgKmNhMSoKc2hvdWxkIHBvcCB1cCBpbiB0aGUgdG9wIGxlZnQgd2luZG93IG9mIHlvdXIgUiBTdHVkaW8gaW50ZXJmYWNlLiBTY3JvbGwgdXAgYW5kIGRvd24sIGxlZnQgYW5kIHJpZ2h0LiAKCldl4oCZbGwgbGVhcm4gaG93IHRvIHN1bW1hcml6ZSB5b3VyIGRhdGEgdXNpbmcgZGVzY3JpcHRpdmUgc3RhdGlzdGljcyBhbmQgZ3JhcGhzIGluIHRoZSBuZXh0IGxhYi4KCkJ5IGxlYXJuaW5nIGhvdyB0byByZWFkIGluIGRhdGEgdGhlIHRpZHkgd2F5LCBJIHRoaW5rIHlvdeKAmXZlIGVhcm5lZCBhbm90aGVyIGJhZGdlISBXb290IHdvb3QhCiFbWW91ciBSZWFkciBCYWRnZV0ocmVhZHIucG5nKQpcCgojIyBSZW5hbWluZyB2YXJpYWJsZXMKCk1vcmUgb2Z0ZW4gdGhhbiB5b3UgdGhpbmssIHlvdSB3aWxsIGVuY291bnRlciBhIGNvbHVtbiAvIHZhcmlhYmxlIHdpdGggYSBuYW1lIHRoYXQgaXMgbm90IGRlc2NyaXB0aXZlLiBUaGUgbW9yZSBkZXNjcmlwdGl2ZSB0aGUgdmFyaWFibGUgbmFtZXMsIHRoZSBtb3JlIGVmZmljaWVudCB5b3VyIGFuYWx5c2lzIHdpbGwgYmUgYW5kIHRoZSBsZXNzIGxpa2VseSB5b3UgYXJlIGdvaW5nIHRvIG1ha2UgYSBtaXN0YWtlLiBUbyBzZWUgdGhlIG5hbWVzIG9mIHZhcmlhYmxlcyBpbiB5b3VyIGRhdGFzZXQsIHVzZSB0aGUgYG5hbWVzKClgIGNvbW1hbmQuCgpgYGB7cn0KbmFtZXMoY2ExKQpgYGAKClwKClRoZSBuYW1lICpFc3RpbWF0ZWQgbWVkaWFuIGluY29tZSBvZiBhIGhvdXNlaG9sZCwgYmV0d2VlbiAyMDE0LTIwMTguKiBpcyBhIGRvb3p5ISBKdXN0IGEgbGl0dGxlIGxvbmcuIFVzZSB0aGUgY29tbWFuZCBgcmVuYW1lKClgIHRvIC0tIHlvdSBndWVzc2VkIGl0IC0tIHJlbmFtZSBhIHZhcmlhYmxlISBMZXTigJlzIHJlbmFtZSAqRXN0aW1hdGVkIG1lZGlhbiBpbmNvbWUgb2YgYSBob3VzZWhvbGQsIGJldHdlZW4gMjAxNC0yMDE4LiogdG8gKm1lZGluYyouCgpgYGB7cn0KcmVuYW1lKGNhMSwgbWVkaW5jID0gIkVzdGltYXRlZCBtZWRpYW4gaW5jb21lIG9mIGEgaG91c2Vob2xkLCBiZXR3ZWVuIDIwMTQtMjAxOC4iKQpgYGAKClwKCk5vdGUgdGhhdCB5b3UgY2FuIHJlbmFtZSBtdWx0aXBsZSB2YXJpYWJsZXMgd2l0aGluIHRoZSBzYW1lIGByZW5hbWUoKWAgY29tbWFuZC4gRm9yIGV4YW1wbGUsIHdlIGNhbiBhbHNvIHJlbmFtZSAqRm9ybWF0dGVkIEZJUFMqIHRvICpHRU9JRCouIE1ha2UgdGhpcyBwZXJtYW5lbnQgYnkgYXNzaWduaW5nIGl0IGJhY2sgdG8gKmNhMSogdXNpbmcgdGhlIGFycm93IG9wZXJhdG9yIGA8LWAKCmBgYHtyfQpjYTEgPC0gcmVuYW1lKGNhMSwgCiAgICAgICAgbWVkaW5jID0gIkVzdGltYXRlZCBtZWRpYW4gaW5jb21lIG9mIGEgaG91c2Vob2xkLCBiZXR3ZWVuIDIwMTQtMjAxOC4iLAogICAgICAgIEdFT0lEID0gIkZvcm1hdHRlZCBGSVBTIikKbmFtZXMoY2ExKQoKYGBgCgpBbmQgd2UgY2FuIHNlZSBvdXIgdmFyaWFibGUgbmFtZXMgaGF2ZSBjaGFuZ2VkISBXZSBhcmUgZG9pbmcgdGhpbmdzLgoKXAoKIyBTZWxlY3RpbmcgdmFyaWFibGVzCgpJbiBwcmFjdGljZSwgbW9zdCBvZiB0aGUgZGF0YSBmaWxlcyB5b3Ugd2lsbCBkb3dubG9hZCB3aWxsIGNvbnRhaW4gdmFyaWFibGVzIHlvdSBkb27igJl0IG5lZWQuIEl0IGlzIGVhc2llciB0byB3b3JrIHdpdGggYSBzbWFsbGVyIGRhdGFzZXQgYXMgaXQgcmVkdWNlcyBjbHV0dGVyIGFuZCBjbGVhcnMgdXAgbWVtb3J5IHNwYWNlLCB3aGljaCBpcyBpbXBvcnRhbnQgaWYgeW91IGFyZSBleGVjdXRpbmcgY29tcGxleCB0YXNrcyBvbiBhIGxhcmdlIG51bWJlciBvZiBvYnNlcnZhdGlvbnMuIFVzZSB0aGUgY29tbWFuZCBgc2VsZWN0KClgIHRvIGtlZXAgdmFyaWFibGVzIGJ5IG5hbWUuIFZpc3VhbGx5LCB3ZSBhcmUgZG9pbmcgdGhlIGZvbGxvd2luZyAodGFrZW4gZnJvbSB0aGUgUlN0dWRpbyBbY2hlYXRzaGVldF0oaHR0cDovL3d3dy5yc3R1ZGlvLmNvbS93cC1jb250ZW50L3VwbG9hZHMvMjAxNS8wMi9kYXRhLXdyYW5nbGluZy1jaGVhdHNoZWV0LnBkZikpLgohW1N1YnNldHRpbmcgY29sdW1uc10oc3Vic2V0Y29scy5wbmcpCgpcCgpMZXTigJlzIHRha2UgYSBsb29rIGF0IHRoZSB2YXJpYWJsZXMgd2UgaGF2ZSBpbiB0aGUgY2EyIGRhdGFzZXQuCgpgYGB7cn0KbmFtZXMoY2EyKQpgYGAKCldl4oCZbGwgZ28gaW50byBtb3JlIGRldGFpbCB3aGF0IHRoZXNlIHZhcmlhYmxlcyBtZWFuIGluIGFub3RoZXIgbGFiIHdoZW4gd2UgY292ZXIgdGhlIFUuUy4gQ2Vuc3VzLCBidXQgd2Ugb25seSB3YW50IHRvIGtlZXAgdGhlIHZhcmlhYmxlcyAqR0VPSUQqLCB3aGljaCBpcyB0aGUgY291bnR5IEZJUFMgY29kZSAoYSB1bmlxdWUgbnVtZXJpYyBpZGVudGlmaWVyKSwgYW5kICp0cG9wckUqLCAqbmh3aGl0ZUUqLCAqbmhibGtFKiwgKm5oYXNuRSosIGFuZCAqaGlzcEUqLCB3aGljaCBhcmUgdGhlIHRvdGFsLCB3aGl0ZSwgYmxhY2ssIEFzaWFuIGFuZCBIaXNwYW5pYyBwb3B1bGF0aW9uIGNvdW50cy4KCmBgYHtyfQpjYTIgPC0gc2VsZWN0KGNhMiwgR0VPSUQsIHRwb3ByRSwgbmh3aGl0ZUUsIG5oYmxrRSwgbmhhc25FLCBoaXNwRSkKYGBgCgpcCgpIZXJlLCB3ZSBwcm92aWRlIHRoZSBkYXRhIG9iamVjdCBmaXJzdCwgZm9sbG93ZWQgYnkgdGhlIHZhcmlhYmxlcyB3ZSB3YW50IHRvIGtlZXAgc2VwYXJhdGVkIGJ5IGNvbW1hcy4KCkxldOKAmXMga2VlcCAqQ291bnR5KiwgKkdFT0lEKiwgYW5kICptZWRpbmMqIGZyb20gdGhlICpjYTEqIGRhdGFzZXQuIFJhdGhlciB0aGFuIGxpc3RpbmcgYWxsIHRoZSB2YXJpYWJsZXMgd2Ugd2FudCB0byBrZWVwIGxpa2Ugd2UgZGlkIGFib3ZlLCBhIHNob3J0Y3V0IHdheSBvZiBkb2luZyB0aGlzIGlzIHRvIHVzZSB0aGUgYDpgIG9wZXJhdG9yLgoKYGBge3J9CnNlbGVjdChjYTEsIENvdW50eTptZWRpbmMpCmBgYAoKXAoKVGhlIGA6YCBvcGVyYXRvciB0ZWxscyBSIHRvIHNlbGVjdCBhbGwgdGhlIHZhcmlhYmxlcyBmcm9tICpDb3VudHkqIHRvICptZWRpbmMqLiBUaGlzIG9wZXJhdG9yIGlzIHVzZWZ1bCB3aGVuIHlvdeKAmXZlIGdvdCBhIGxvdCBvZiB2YXJpYWJsZXMgdG8ga2VlcCBhbmQgdGhleSBhbGwgaGFwcGVuIHRvIGJlIG9yZGVyZWQgc2VxdWVudGlhbGx5LgoKWW91IGNhbiB1c2UgYWxzbyB1c2UgYHNlbGVjdCgpYCBjb21tYW5kIHRvIGtlZXAgdmFyaWFibGVzIGV4Y2VwdCBmb3IgdGhlIG9uZXMgeW91IGRlc2lnbmF0ZS4gRm9yIGV4YW1wbGUsIHRvIGtlZXAgYWxsIHZhcmlhYmxlcyBpbiAqY2ExKiBleGNlcHQgKkZJUFMgQ29kZSogYW5kIHNhdmUgdGhpcyBiYWNrIGludG8gKmNhMSosIHR5cGUgaW46CgpgYGB7cn0KY2ExIDwtIHNlbGVjdChjYTEsIC0iRklQUyBDb2RlIikKYGBgCgpcCgpUaGUgbmVnYXRpdmUgc2lnbiB0ZWxscyBSIHRvIGV4Y2x1ZGUgdGhlIHZhcmlhYmxlLiBOb3RpY2Ugd2UgbmVlZCB0byB1c2UgcXVvdGVzIGFyb3VuZCAqRklQUyBDb2RlKiBiZWNhdXNlIGl0IGNvbnRhaW5zIGEgc3BhY2UuIFlvdSBjYW4gZGVsZXRlIG11bHRpcGxlIHZhcmlhYmxlcy4gRm9yIGV4YW1wbGUsIGlmIHlvdSB3YW50ZWQgdG8ga2VlcCBhbGwgdmFyaWFibGVzIGV4Y2VwdCAqRklQUyBDb2RlKiBhbmQgKkNvdW50eSosIHlvdSB3b3VsZCB0eXBlIGluIGBzZWxlY3QoY2ExLCAtIkZJUFMgQ29kZSIsIC1Db3VudHkpYC4KClRha2UgYSBnbGltcHNlIGFuZCBzZWUgaWYgaXQgbG9va3MgaG93IHdlIHRoaW5rIGl0IHNob3VsZC4KYGBge3J9CmdsaW1wc2UoY2ExKQpgYGAKVHJ5ICpjYTIqIGFuZCBsZXQgdXMga25vdyBob3cgaXQgbG9va3MuCgpcCgojIyBDcmVhdGluZyBuZXcgdmFyaWFibGVzCgpUaGUgYG11dGF0ZSgpYCBmdW5jdGlvbiAoc3RyYW5nZSBuYW1lLCBodWg/KSBhbGxvd3MgeW91IHRvIGNyZWF0ZSBuZXcgdmFyaWFibGVzIHdpdGhpbiB5b3VyIGRhdGFzZXQuIFRoaXMgaXMgaW1wb3J0YW50IHdoZW4geW91IG5lZWQgdG8gdHJhbnNmb3JtIHZhcmlhYmxlcyBpbiBzb21lIHdheSAtIGZvciBleGFtcGxlLCBjYWxjdWxhdGluZyBhIHJhdGlvIG9yIGFkZGluZyB0d28gdmFyaWFibGVzIHRvZ2V0aGVyLiBWaXN1YWxseSwgeW91IGFyZSBkb2luZyB0aGlzOgohW211dGF0ZV0obXV0YXRlLnBuZykKClwKCllvdSBjYW4gdXNlIHRoZSBgbXV0YXRlKClgIGNvbW1hbmQgdG8gZ2VuZXJhdGUgYXMgbWFueSBuZXcgdmFyaWFibGVzIGFzIHlvdSB3b3VsZCBsaWtlLiBGb3IgZXhhbXBsZSwgbGV04oCZcyBjb25zdHJ1Y3QgZm91ciBuZXcgdmFyaWFibGVzIGluICpjYTIqIC0gdGhlIHBlcmNlbnQgb2YgcmVzaWRlbnRzIHdobyBhcmUgbm9uLUhpc3BhbmljIHdoaXRlLCBub24tSGlzcGFuaWMgQXNpYW4sIG5vbi1IaXNwYW5pYyBibGFjaywgYW5kIEhpc3BhbmljLiBOYW1lIHRoZXNlIHZhcmlhYmxlcyAqcHdoaXRlKiwgKnBhc2lhbiosICpwYmxhY2sqLCBhbmQgKnBoaXNwKiwgcmVzcGVjdGl2ZWx5LgoKYGBge3J9Cm11dGF0ZShjYTIsIHB3aGl0ZSA9IG5od2hpdGVFL3Rwb3ByRSwgcGFzaWFuID0gbmhhc25FL3Rwb3ByRSwgCiAgICAgICAgICAgICAgcGJsYWNrID0gbmhibGtFL3Rwb3ByRSwgcGhpc3AgPSBoaXNwRS90cG9wckUpCmBgYAoKXAoKTm90ZSB0aGF0IHlvdSBjYW4gY3JlYXRlIG5ldyB2YXJpYWJsZXMgYmFzZWQgb24gdGhlIHZhcmlhYmxlcyB5b3UganVzdCBjcmVhdGVkIGluIHRoZSBzYW1lIGxpbmUgb2YgY29kZS4gRm9yIGV4YW1wbGUsIHlvdSBjYW4gY3JlYXRlIGEgY2F0ZWdvcmljYWwgdmFyaWFibGUgY2FsbGVkICptaGlzcCogeWllbGRpbmcg4oCcTWFqb3JpdHnigJ0gaWYgdGhlIHRyYWN0IGlzIG1ham9yaXR5IEhpc3BhbmljIGFuZCDigJxOb3QgTWFqb3JpdHnigJ0gb3RoZXJ3aXNlIGFmdGVyIGNyZWF0aW5nIHRoZSBwZXJjZW50IEhpc3BhbmljIHZhcmlhYmxlICpwaGlzcCogd2l0aGluIHRoZSBzYW1lIGBtdXRhdGUoKWAgY29tbWFuZC4gTGV04oCZcyBzYXZlIHRoZXNlIGNoYW5nZXMgYmFjayBpbnRvICpjYTIqLgoKYGBge3J9CmNhMiA8LSBtdXRhdGUoY2EyLCBwd2hpdGUgPSBuaHdoaXRlRS90cG9wckUsIHBhc2lhbiA9IG5oYXNuRS90cG9wckUsIAogICAgICAgICAgICAgIHBibGFjayA9IG5oYmxrRS90cG9wckUsIHBoaXNwID0gaGlzcEUvdHBvcHJFLAogICAgICAgICAgICAgIG1oaXNwID0gY2FzZV93aGVuKHBoaXNwID4gMC41IH4gIk1ham9yaXR5IiwKICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAuZGVmYXVsdCA9ICJOb3QgTWFqb3JpdHkiKSkKYGBgCgpXZSB1c2VkIHRoZSBmdW5jdGlvbiBgY2FzZV93aGVuKClgIHRvIGNyZWF0ZSAqbWhpc3AqIC0gdGhlIGZ1bmN0aW9uIHRlbGxzIFIgdGhhdCBpZiB0aGUgY29uZGl0aW9uICpwaGlzcCogPiAwLjUgaXMgbWV0LCB0aGUgdHJhY3TigJlzIHZhbHVlIGZvciB0aGUgdmFyaWFibGUgKm1oaXNwKiB3aWxsIGJlIOKAnE1ham9yaXR54oCdLCBvdGhlcndpc2UgKGRlc2lnbmF0ZWQgYnkgYC5kZWZhdWx0PWApIGl0IHdpbGwgYmUg4oCcTm90IE1ham9yaXR54oCdLgoKVGFrZSBhIGxvb2sgYXQgb3VyIGRhdGEuIFBheSBhdHRlbnRpb24gdG8gKnBoaXNwKiBhbmQgKm1oaXNwKi4gRGlkIG91ciBjYWxjdWxhdGlvbiB3b3JrPwoKYGBge3J9CmdsaW1wc2UoY2EyKQpgYGAKClwKCiMjIEpvaW5pbmcgVGFibGVzCgpSYXRoZXIgdGhhbiB3b3JraW5nIG9uIHR3byBzZXBhcmF0ZSBkYXRhc2V0cywgd2Ugc2hvdWxkIGpvaW4gdGhlIHR3byBkYXRhc2V0cyAqY2ExKiBhbmQgKmNhMiosIGJlY2F1c2Ugd2UgbWF5IHdhbnQgdG8gZXhhbWluZSB0aGUgcmVsYXRpb25zaGlwIGJldHdlZW4gbWVkaWFuIGhvdXNlaG9sZCBpbmNvbWUsIHdoaWNoIGlzIGluICpjYTEqLCBhbmQgcmFjaWFsL2V0aG5pYyBjb21wb3NpdGlvbiwgd2hpY2ggaXMgaW4gKmNhMiouIFRvIGRvIHRoaXMsIHdlIG5lZWQgYSB1bmlxdWUgSUQgdGhhdCBjb25uZWN0cyB0aGUgdHJhY3RzIGFjcm9zcyB0aGUgdHdvIGZpbGVzLiBUaGUgdW5pcXVlIENlbnN1cyBJRCBmb3IgYSBjb3VudHkgY29tYmluZXMgdGhlIGNvdW50eSBhbmQgc3RhdGUgSURzLiBUaGUgQ2Vuc3VzIElEIGlzIG5hbWVkICpHRU9JRCogaW4gYm90aCBmaWxlcy4gVGhlIElEcyBzaG91bGQgYmUgdGhlIHNhbWUgZGF0YSBjbGFzcy4gTGV0J3MgY2hlY2sgaWYgdGhleSBhcmUhCgpgYGB7cn0KY2xhc3MoY2ExJEdFT0lEKQpgYGAKCmBgYHtyfQpjbGFzcyhjYTIkR0VPSUQpCmBgYAoKXAoKTG9va2luIGdvb2QhIE5vdGU6IElmIHRoZXkgYXJlIG5vdCB0aGUgc2FtZSBjbGFzcywgd2UgY2FuIGNvZXJjZSB0aGVtIHVzaW5nIHRoZSBgYXMubnVtZXJpYygpYCBvciBgYXMuY2hhcmFjdGVyKClgIGZ1bmN0aW9uIGRlc2NyaWJlZCBlYXJsaWVyLgoKVG8gbWVyZ2UgdGhlIGRhdGFzZXRzIHRvZ2V0aGVyLCB1c2UgdGhlIGZ1bmN0aW9uIGBsZWZ0X2pvaW4oKWAsIHdoaWNoIG1hdGNoZXMgcGFpcnMgb2Ygb2JzZXJ2YXRpb25zIHdoZW5ldmVyIHRoZWlyIGtleXMgb3IgSURzIGFyZSBlcXVhbC4gV2UgbWF0Y2ggb24gdGhlIHZhcmlhYmxlIEdFT0lEIGFuZCBzYXZlIHRoZSBtZXJnZWQgZGF0YSBzZXQgaW50byBhIG5ldyBvYmplY3QgY2FsbGVkICpjYWNvdW50eSouCgpgYGB7cn0KY2Fjb3VudHkgPC0gbGVmdF9qb2luKGNhMSwgY2EyLCBieSA9ICJHRU9JRCIpCmBgYAoKXAoKV2Ugd2FudCB0byBtZXJnZSAqY2EyKiBpbnRvICpjYTEqLCBzbyB0aGF04oCZcyB3aHkgdGhlIHNlcXVlbmNlIGlzIGBjYTEsIGNhMmAuIFRoZSBhcmd1bWVudCAqYnkqIHRlbGxzIFIgd2hpY2ggdmFyaWFibGUocykgdG8gbWF0Y2ggcm93cyBvbiwgaW4gdGhpcyBjYXNlICpHRU9JRC4qIFlvdSBjYW4gbWF0Y2ggb24gbXVsdGlwbGUgdmFyaWFibGVzIGFuZCB5b3UgY2FuIGFsc28gbWF0Y2ggb24gYSBzaW5nbGUgdmFyaWFibGUgd2l0aCBkaWZmZXJlbnQgdmFyaWFibGUgbmFtZXMgKHNlZSB0aGUgYGxlZnRfam9pbigpYCBoZWxwIGRvY3VtZW50YXRpb24gZm9yIGhvdyB0byBkbyB0aGlzKS4gVGhlIG51bWJlciBvZiBjb2x1bW5zIGluICpjYWNvdW50eSogZXF1YWxzIHRoZSBudW1iZXIgb2YgY29sdW1ucyBpbiAqY2ExKiBwbHVzIHRoZSBudW1iZXIgb2YgY29sdW1ucyBpbiAqY2EyKiBtaW51cyB0aGUgSUQgdmFyaWFibGUgeW91IG1lcmdlZCBvbi4KCk5vdGUgdGhhdCBpZiB5b3UgaGF2ZSB0d28gdmFyaWFibGVzIHdpdGggdGhlIHNhbWUgbmFtZSBpbiBib3RoIGZpbGVzLCBSIHdpbGwgYXR0YWNoIGEgKi54KiB0byB0aGUgdmFyaWFibGUgbmFtZSBpbiAqY2ExKiBhbmQgYSAqLnkqIHRvIHRoZSB2YXJpYWJsZSBuYW1lIGluICpjYTEqLiBGb3IgZXhhbXBsZSwgaWYgeW91IGhhdmUgYSB2YXJpYWJsZSBuYW1lZCAqUm9iZXJ0KiBpbiBib3RoIGZpbGVzLCAqY2Fjb3VudHkqIHdpbGwgY29udGFpbiBib3RoIHZhcmlhYmxlcyBhbmQgbmFtZSBpdCAqUm9iZXJ0LngqICh0aGUgdmFyaWFibGUgaW4gKmNhMSopIGFuZCAqUm9iZXJ0LnkqICh0aGUgdmFyaWFibGUgaW4gKmNhMSopLiBUcnkgdG8gYXZvaWQgaGF2aW5nIHZhcmlhYmxlcyB3aXRoIHRoZSBzYW1lIG5hbWVzIGluIHRoZSB0d28gZmlsZXMgeW91IHdhbnQgdG8gbWVyZ2UuCgpMZXTigJlzIHVzZSBgc2VsZWN0KClgIHRvIGtlZXAgdGhlIG5lY2Vzc2FyeSB2YXJpYWJsZXMuCgpgYGB7cn0KY2Fjb3VudHkgPC0gc2VsZWN0KGNhY291bnR5LCBHRU9JRCwgQ291bnR5LCBwd2hpdGUsIHBhc2lhbiwgcGJsYWNrLCBwaGlzcCwgbWhpc3AsIG1lZGluYykKYGBgCgpcCgojIyBGaWx0ZXJpbmcKCkZpbHRlcmluZyBtZWFucyBzZWxlY3Rpbmcgcm93cy9vYnNlcnZhdGlvbnMgYmFzZWQgb24gdGhlaXIgdmFsdWVzLiBUbyBmaWx0ZXIgaW4gUiwgdXNlIHRoZSBjb21tYW5kIGBmaWx0ZXIoKWAuIFZpc3VhbGx5LCBmaWx0ZXJpbmcgcm93cyBsb29rcyBsaWtlLgoKIVtGaWx0ZXJpbmddKHN1YnNldHJvd3MucG5nKQpUaGUgZmlyc3QgYXJndW1lbnQgaW4gdGhlIHBhcmVudGhlc2VzIG9mIHRoaXMgY29tbWFuZCBpcyB0aGUgbmFtZSBvZiB0aGUgZGF0YSBmcmFtZS4gVGhlIHNlY29uZCBhbmQgYW55IHN1YnNlcXVlbnQgYXJndW1lbnRzIChzZXBhcmF0ZWQgYnkgY29tbWFzKSBhcmUgdGhlIGV4cHJlc3Npb25zIHRoYXQgZmlsdGVyIHRoZSBkYXRhIGZyYW1lLiBGb3IgZXhhbXBsZSwgd2UgY2FuIHNlbGVjdCBTYWNyYW1lbnRvIGNvdW50eSB1c2luZyBpdHMgW0ZJUFMgY29kZV0oaHR0cHM6Ly93d3cubnJjcy51c2RhLmdvdi93cHMvcG9ydGFsL25yY3MvZGV0YWlsL2NhL2hvbWUvP2NpZD1ucmNzMTQzXzAxMzY5NykuIEEgRklQUyBjb2RlIGlzIGEgdW5pcXVlIElEIGZvciBldmVyeSBnZW9ncmFwaGljIHVuaXQgaW4gdGhlIFVTLiBUaGlzIHdpbGwgY29tZSB1cCBvZnRlbiEKCmBgYHtyfQpmaWx0ZXIoY2Fjb3VudHksIEdFT0lEID09ICIwNjA2NyIpCmBgYAoKXAoKVGhlIGRvdWJsZSBlcXVhbCBvcGVyYXRvciBgPT1gIG1lYW5zIGVxdWFsIHRvLiBXZSBjYW4gYWxzbyBleHBsaWNpdGx5IGV4Y2x1ZGUgY2FzZXMgYW5kIGtlZXAgZXZlcnl0aGluZyBlbHNlIGJ5IHVzaW5nIHRoZSBub3QgZXF1YWwgb3BlcmF0b3IgYCE9YC4gQ29udmVyc2VseSwgdGhlIGZvbGxvd2luZyBjb2RlICpleGNsdWRlcyogU2FjcmFtZW50byBjb3VudHkuCgpcCgpgYGB7cn0KZmlsdGVyKGNhY291bnR5LCBHRU9JRCAhPSAiMDYwNjciKQpgYGAKClwKCldoYXQgYWJvdXQgZmlsdGVyaW5nIGlmIGEgY291bnR5IGhhcyBhIHZhbHVlIGdyZWF0ZXIgdGhhbiBhIHNwZWNpZmllZCB2YWx1ZT8gRm9yIGV4YW1wbGUsIGNvdW50aWVzIHdpdGggYSBwZXJjZW50IHdoaXRlIGdyZWF0ZXIgdGhhbiAwLjUgKDUwJSkuCgpgYGB7cn0KZmlsdGVyKGNhY291bnR5LCBwd2hpdGUgPiAwLjUpCmBgYAoKXAoKV2hhdCBhYm91dCBsZXNzIHRoYW4gMC41ICg1MCUpPwoKYGBge3J9CmZpbHRlcihjYWNvdW50eSwgcHdoaXRlIDwgMC41KQpgYGAKClwKCkJvdGggbGluZXMgb2YgY29kZSBkbyBub3QgaW5jbHVkZSBjb3VudGllcyB0aGF0IGhhdmUgYSBwZXJjZW50IHdoaXRlIGVxdWFsIHRvIDAuNS4gV2UgaW5jbHVkZSBpdCBieSB1c2luZyB0aGUgbGVzcyB0aGFuIG9yIGVxdWFsIG9wZXJhdG9yIGA8PWAgb3IgZ3JlYXRlciB0aGFuIG9yIGVxdWFsIG9wZXJhdG9yIGA+PWAuCmBgYHtyfQpmaWx0ZXIoY2Fjb3VudHksIHB3aGl0ZSA8PSAwLjUpCmBgYAoKXAoKSW4gYWRkaXRpb24gdG8gY29tcGFyaXNvbiBvcGVyYXRvcnMsIGZpbHRlcmluZyBtYXkgYWxzbyB1dGlsaXplIGxvZ2ljYWwgb3BlcmF0b3JzIHRoYXQgbWFrZSBtdWx0aXBsZSBzZWxlY3Rpb25zLiBUaGVyZSBhcmUgdGhyZWUgYmFzaWMgbG9naWNhbCBvcGVyYXRvcnM6IGAmYCAoYW5kKSwgYHxgIGlzIChvciksIGFuZCBgIWAgaXMgKG5vdCkuIFdlIGNhbiBrZWVwIGNvdW50aWVzIHdpdGggKnBoaXNwKiBncmVhdGVyIHRoYW4gMC41ICoqYW5kKiogKm1lZGluYyogZ3JlYXRlciB0aGFuIDUwMDAwIHBlcmNlbnQgdXNpbmcgYCZgLgpgYGB7cn0KZmlsdGVyKGNhY291bnR5LCBwaGlzcCA+IDAuNSAmIG1lZGluYyA+IDUwMDAwKQpgYGAKClwKClVzZSBgfGAgdG8ga2VlcCBjb3VudGllcyB3aXRoIGEgKkdFT0lEKiBvZiAwNjA2NyAoU2FjcmFtZW50bykgKipvcioqIDA2MTEzIChZb2xvKSAqKm9yKiogMDYwNzUgKFNhbiBGcmFuY2lzY28pLgpgYGB7cn0KZmlsdGVyKGNhY291bnR5LCBHRU9JRCA9PSAiMDYwNjciIHwgR0VPSUQgPT0gIjA2MTEzIiB8IEdFT0lEID09ICIwNjA3NSIpCmBgYAoKXAoKUGhldy4gVGhhdCdzIGEgbG90ISBZb3XigJl2ZSBnb25lIHRocm91Z2ggc29tZSBvZiB0aGUgYmFzaWMgZGF0YSB3cmFuZ2xpbmcgZnVuY3Rpb25zIG9mZmVyZWQgYnkgdGlkeXZlcnNlLiBDYW4gd2UgZ2V0IGFub3RoZXIgVGlkeSBiYWRnZT8gT2ggeWVhaC4gQ29uZ3JhdHVsYXRpb25zIQohW1lvdXIgZHBseXIgQmFkZ2VdKGRwbHlyLnBuZykKClwKCiMgUiBNYXJrZG93bgoKSW4gcnVubmluZyB0aGUgbGluZXMgb2YgY29kZSBhYm92ZSwgd2XigJl2ZSBhc2tlZCB5b3UgdG8gd29yayBkaXJlY3RseSBpbiB0aGUgUiBDb25zb2xlIGFuZCBpc3N1ZSBjb21tYW5kcyBpbiBhbiBpbnRlcmFjdGl2ZSB3YXkuIFRoYXQgaXMsIHlvdSB0eXBlIGEgY29tbWFuZCBhZnRlciBgPmAsIHlvdSBoaXQgZW50ZXIvcmV0dXJuLCBSIHJlc3BvbmRzLCB5b3UgdHlwZSB0aGUgbmV4dCBjb21tYW5kLCBoaXQgZW50ZXIvcmV0dXJuLCBSIHJlc3BvbmRzLCBhbmQgc28gb24uIEluc3RlYWQgb2Ygd3JpdGluZyB0aGUgY29tbWFuZCBkaXJlY3RseSBpbnRvIHRoZSBjb25zb2xlLCB5b3Ugc2hvdWxkIHdyaXRlIGl0IGluIGEgc2NyaXB0LiBUaGUgcHJvY2VzcyBpcyBub3c6IFR5cGUgeW91ciBjb21tYW5kIGluIHRoZSBzY3JpcHQuIFJ1biB0aGUgY29kZSBmcm9tIHRoZSBzY3JpcHQuIFIgcmVzcG9uZHMuIFlvdSBnZXQgcmVzdWx0cy4gWW91IGNhbiB3cml0ZSB0d28gY29tbWFuZHMgaW4gYSBzY3JpcHQuIFJ1biBib3RoIHNpbXVsdGFuZW91c2x5LiBSIHJlc3BvbmRzLiBZb3UgZ2V0IHJlc3VsdHMuIFRoaXMgaXMgdGhlIGJhc2ljIGZsb3cuCgpPbmUgd2F5IHRvIGRvIHRoaXMgaXMgdG8gdXNlIHRoZSBkZWZhdWx0IFIgU2NyaXB0LCB3aGljaCBpcyBjb3ZlcmVkIGluIHRoZSBbYXNzaWdubWVudCBndWlkZWxpbmVzXShBc3NpZ25tZW50c18yMDI2Lmh0bWwpLiBJbiB5b3VyIGhvbWV3b3JrIGFzc2lnbm1lbnRzLCB3ZSB3aWxsIGJlIGFza2luZyB5b3UgdG8gc3VibWl0IGNvZGUgaW4gYW5vdGhlciB0eXBlIG9mIHNjcmlwdDogdGhlIFIgTWFya2Rvd24gZmlsZS4gUiBNYXJrZG93biBhbGxvd3MgeW91IHRvIGNyZWF0ZSBkb2N1bWVudHMgdGhhdCBzZXJ2ZSBhcyBhIG5lYXQgcmVjb3JkIG9mIHlvdXIgYW5hbHlzaXMuIFRoaW5rIG9mIGl0IGFzIGEgd29yZCBkb2N1bWVudCBmaWxlLCBidXQgaW5zdGVhZCBvZiBzZW50ZW5jZXMgaW4gYW4gZXNzYXksIHlvdSBhcmUgd3JpdGluZyBjb2RlIGZvciBhIGRhdGEgYW5hbHlzaXMuCgpXaGVuIGdvaW5nIHRocm91Z2ggbGFiIGd1aWRlcywgSSB3b3VsZCByZWNvbW1lbmQgbm90IGNvcHlpbmcgYW5kIHBhc3RpbmcgY29kZSBkaXJlY3RseSBpbnRvIHRoZSBSIENvbnNvbGUsIGJ1dCBzYXZpbmcgYW5kIHJ1bm5pbmcgaXQgaW4gYW4gUiBNYXJrZG93biBmaWxlLiBUaGlzIHdpbGwgZ2l2ZSB5b3UgZ29vZCBwcmFjdGljZSBpbiB0aGUgUiBNYXJrZG93biBlbnZpcm9ubWVudC4gTm93IGlzIGEgZ29vZCB0aW1lIHRvIHJlYWQgdGhyb3VnaCB0aGUgY2xhc3MgW2Fzc2lnbm1lbnQgZ3VpZGVsaW5lc10oQXNzaWdubWVudHNfMjAyNi5odG1sKSBhcyB0aGV5IGdvIHRocm91Z2ggdGhlIGJhc2ljcyBvZiBSIE1hcmtkb3duIGZpbGVzLgoKVG8gb3BlbiBhbiBSIE1hcmtkb3duIGZpbGUsIGNsaWNrIG9uICpGaWxlKiBhdCB0aGUgdG9wIG1lbnUgaW4gUlN0dWRpbywgc2VsZWN0ICpOZXcgRmlsZSosIGFuZCB0aGVuICpSIE1hcmtkb3duLi4uKi4gQSB3aW5kb3cgc2hvdWxkIHBvcCB1cC4gSW4gdGhhdCB3aW5kb3csIGZvciAqdGl0bGUqLCBwdXQgaW4g4oCcTGFiIDLigJ0uIEZvciAqYXV0aG9yKiwgcHV0IHlvdXIgbmFtZS4gTGVhdmUgdGhlIEhUTUwgcmFkaW8gYnV0dG9uIGNsaWNrZWQsIGFuZCBzZWxlY3QgT0suIEEgbmV3IFIgTWFya2Rvd24gZmlsZSBzaG91bGQgcG9wIHVwIGluIHRoZSB0b3AgbGVmdCB3aW5kb3cuCgpcCgohW1IgTWFya2Rvd25dKHJtYXJrZG93bi5wbmcpIAoKXAoKRG9u4oCZdCBjaGFuZ2UgYW55dGhpbmcgaW5zaWRlIHRoZSBZQU1MICh0aGUgc3R1ZmYgYXQgdGhlIHRvcCBpbiBiZXR3ZWVuIHRoZSBgLS0tYCkuIEFsc28ga2VlcCB0aGUgZ3JleSBjaHVuayBhZnRlciB0aGUgWUFNTC4KCkRlbGV0ZSBldmVyeXRoaW5nIGVsc2UuIFNhdmUgdGhpcyBmaWxlICgqRmlsZSogLT4gKlNhdmUqKSBpbiBhbiBhcHByb3ByaWF0ZSBmb2xkZXIuIEl04oCZcyBiZXN0IHRvIHNldCB1cCBhIGNsZWFuIGFuZCBlZmZpY2llbnQgZmlsZSBtYW5hZ2VtZW50IHN0cnVjdHVyZSAoZS5nLiwgU1BIMjE1PkxhYnM+TGFiMSkgYnV0IHlvdSBkbyB3aGF0IHdvcmtzIGZvciB5b3UuCgpGb2xsb3cgdGhlIGRpcmVjdGlvbnMgaW4gdGhlIFthc3NpZ25tZW50IGd1aWRlbGluZXNdKEFzc2lnbm1lbnRzXzIwMjYuaHRtbCkgdG8gYWRkIHRoaXMgbGFi4oCZcyBjb2RlIGluIHlvdXIgTGFiIDIgUiBNYXJrZG93biBmaWxlLiBUaGVuIGtuaXQgaXQgYXMgYW4gaHRtbCwgd29yZCBvciBwZGYgZmlsZS4gWW91IGRvbuKAmXQgaGF2ZSB0byB0dXJuIGluIHRoZSBSbWQgYW5kIGl0cyBrbml0dGVkIGZpbGUsIGJ1dCBpdOKAmXMgZ29vZCBwcmFjdGljZSB0byBjcmVhdGUgYW4gUm1kIGZpbGUgZm9yIGVhY2ggbGFiIChhbmQgeW91IHdpbGwgc2VlIHRoYXQgdGhlIGxhYiBhc3NpZ25tZW50cyBhcmUgZWVyaWx5IHNpbWlsYXIgdG8gd2hhdCB3ZSBkbyBpbiB0aGUgbGFiLCBzbyB5b3Ugd2lsbCBzYXZlIHlvdXJzZWxmIHRpbWUpLgoKQWx0aG91Z2ggdGhlIGxhYiBndWlkZXMgYW5kIGNvdXJzZSB0ZXh0Ym9va3Mgc2hvdWxkIGdldCB5b3UgdGhyb3VnaCBhIGxvdCBvZiB0aGUgZnVuY3Rpb25zIHRoYXQgYXJlIG5lZWRlZCB0byBzdWNjZXNzZnVsbHkgYWNjb21wbGlzaCB0YXNrcyBmb3IgdGhpcyBjbGFzcywgdGhlcmUgYXJlIGEgbnVtYmVyIG9mIHVzZWZ1bCBvbmxpbmUgcmVzb3VyY2VzIG9uIFIgYW5kIFJTdHVkaW8gdGhhdCB5b3UgY2FuIGxvb2sgaW50byBpZiB5b3UgZ2V0IHN0dWNrIG9yIHdhbnQgdG8gbGVhcm4gbW9yZS4gV2Ugb3V0bGluZSB0aGVzZSByZXNvdXJjZXMgaW4gdGhlIFtSIEhlbHBdKFJfaGVscF8yMDI2Lmh0bWwpIHNlY3Rpb24gb2YgdGhlIHdlYnNpdGUuIElmIHlvdSBldmVyIGdldCBzdHVjaywgY2hlY2sgdGhpcyByZXNvdXJjZSBvdXQgZmlyc3QgdG8gdHJvdWJsZXNob290IGJlZm9yZSBpbW1lZGlhdGVseSBhc2tpbmcgYSBmcmllbmQgb3IgdGhlIGluc3RydWN0b3IuCgpcCgojIFByYWN0aWNlIG1ha2VzIHBlcmZlY3QKCkhlcmUgYXJlIGEgZmV3IHByYWN0aWNlIHF1ZXN0aW9ucy4gWW91IGRvbuKAmXQgbmVlZCB0byBzdWJtaXQgdGhlc2UsIGJ1dCBpdOKAmXMgZ29vZCBwcmFjdGljZSB0byBhbnN3ZXIgdGhlc2UgcXVlc3Rpb25zIGluIFIgTWFya2Rvd24sIHByb2R1Y2luZyBhIGtuaXR0ZWQgZmlsZSAoaHRtbCwgcGRmIG9yIGRvY3gpLgoKMS4gTG9vayB1cCB0aGUgaGVscCBkb2N1bWVudGF0aW9uIGZvciB0aGUgZnVuY3Rpb24gYHJlcCgpYC4gVXNlIHRoaXMgZnVuY3Rpb24gdG8gY3JlYXRlIHRoZSBmb2xsb3dpbmcgMyB2ZWN0b3JzLgogIC0gWzFdIDAgMCAwIDAgMAogIC0gWzFdIDEgMiAzIDEgMiAzIDEgMiAzIDEgMiAzCiAgLSBbMV0gNCA1IDUgNiA2IDYKICAKMi4gRXhwbGFpbiB3aGF0IGlzIHRoZSBwcm9ibGVtIGluIGVhY2ggbGluZSBvZiBjb2RlIGJlbG93LiBGaXggdGhlIGNvZGUgc28gaXQgd2lsbCBydW4gcHJvcGVybHkuCiAgLSBteSB2YXJpYWJsZSA8LSAzCiAgLSBzZXEoMSwgMTAgYnkgPSAyKQogIC0gTGlicmFyeShjYXJzKQoKMy4gTG9vayB1cCB0aGUgaGVscCBkb2N1bWVudGF0aW9uIGZvciB0aGUgZnVuY3Rpb24gYGN1dCgpYC4KICAtIERlc2NyaWJlIHRoZSBwdXJwb3NlIG9mIHRoaXMgZnVuY3Rpb24uIFdoYXQga2luZCBvZiBkYXRhIHR5cGUocykgZG9lcyB0aGlzIGZ1bmN0aW9uIGFjY2VwdD8gV2hpY2ggYXJndW1lbnRzL29wdGlvbnMgYXJlIHJlcXVpcmVkPyBXaGljaCBhcmd1bWVudHMgYXJlIG5vdCByZXF1aXJlZCBhbmQgd2hhdCBhcmUgdGhlaXIgZGVmYXVsdCB2YWx1ZShzKT8KICAtIENyZWF0ZSBhbiBleGFtcGxlIHZlY3RvciBhbmQgdXNlIHRoZSBgY3V0KClgIGZ1bmN0aW9uIG9uIGl0LiBFeHBsYWluIHlvdXIgcmVzdWx0cy4KCjQuIExvYWQgdGhlICptdGNhcnMqIGRhdGFzZXQgYnkgdXNpbmcgdGhlIGNvZGUgYGRhdGEobXRjYXJzKWAuIEZpbmQgdGhlIG1pbmltdW0sIG1lYW4sIG1lZGlhbiBhbmQgbWF4aW11bSBvZiB0aGUgdmFyaWFibGUgKm1wZyogaW4gdGhlICptdGNhcnMqIGRhdGFzZXQgdXNpbmcganVzdCBvbmUgbGluZSBvZiBjb2RlLiBXZSBoYXZlIG5vdCBjb3ZlcmVkIGEgZnVuY3Rpb24gdGhhdCBkb2VzIHRoaXMgeWV0LCBzbyB0aGUgbWFpbiBwb2ludCAxLiBvZiB0aGlzIHF1ZXN0aW9uIGlzIHRvIGdldCB5b3UgdXNlZCB0byB1c2luZyB0aGUgcmVzb3VyY2VzIHlvdSBoYXZlIGF2YWlsYWJsZSB0byBmaW5kIGFuIGFuc3dlci4gRGVzY3JpYmUgdGhlIHByb2Nlc3MgeW91IHVzZWQgKHNlYXJjaGVkIG9ubGluZT8gdXNlZCB0aGUgY2xhc3MgdGV4dGJvb2s/KSB0byBmaW5kIHRoZSBhbnN3ZXIuCgo1LiBMb29rIHVwIHRoZSBmdW5jdGlvbnMgYGFycmFuZ2UoKWAgYW5kIGByZWxvY2F0ZSgpYC4gSW5wdXQgdGhlIHZhcmlhYmxlICpwaGlzcCogZnJvbSAqY2Fjb3VudHkqIGluIGVhY2ggZnVuY3Rpb24uIFdoYXQgYXJlIHRoZSBmdW5jdGlvbnMgZG9pbmc/Cgo2LiBVc2UgdGhlIGZ1bmN0aW9uIGBiaW5kX3Jvd3MoKWAgdG8gY3JlYXRlIGEgbmV3IGRhdGFzZXQgY2FsbGVkICpjYWNvdW50eV9icm93cyogdGhhdCBjb21iaW5lcyAqY2ExKiBhbmQgKmNhMiouIERlc2NyaWJlIHRoZSBzdHJ1Y3R1cmUgb2YgdGhpcyBuZXcgZGF0YXNldC4gRG8gdGhlIHNhbWUgZm9yIHRoZSBmdW5jdGlvbiBgYmluZF9jb2xzKClgIChuYW1lIHRoZSBuZXcgZGF0YXNldCAqY2Fjb3VudHlfYmNvbHMqKS4gSG93IGlzIGBiaW5kX2NvbHMoKWAgZGlmZmVyZW50IGZyb20gYGxlZnRfam9pbigpYD8KClwKCiMgQnV0IHdhaXQsIHdlIGRpZG4ndCBtYWtlIGEgbWFwIQoKVGhpcyBsYWIgaXMgYSBmb3VuZGF0aW9uIGZvciBhbGwgb2YgdGhlIHdvcmsgd2Ugd2lsbCBkbyBtb3ZpbmcgZm9yd2FyZCBpbiBSLiBCdXQgd2hhdCBraW5kIG9mIEdJUyBjb3Vyc2Ugd291bGQgdGhpcyBiZSBpZiB3ZSBkaWRuJ3QgbWFrZSBhIG1hcD8gUmVtZW1iZXIgdGhhdCBkYXRhc2V0IHdlIGJyb3VnaHQgaW4gZWFybGllciBvbiBjYW5jZXIgY2FzZXMgYWNyb3NzIENBIGNhbGxlZCAqY2FfY2FuY2VyKj8gTGV0J3MgcGxvdCB0aGF0IHJlYWwgcXVpY2suIFdlIHdpbGwgdGFsayBtb3JlIGFib3V0IGl0IG5leHQgd2VlayAob3IgbGF0ZXIgdG9kYXkgaWYgd2UgaGF2ZSB0aW1lKSEKCmBgYHtyfQojIERvd25sb2FkIENhbmNlciBEYXRhc2V0CmRvd25sb2FkLmZpbGUoImh0dHBzOi8vcmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbS9wamFtZXMtdWNkYXZpcy9TUEgyMTUvcmVmcy9oZWFkcy9tYWluL0NBX0NhbmNlcl9EYXRhLnJkcyIsICJjYV9jYW5jZXIucmRzIiwgbW9kZSA9ICJ3YiIpCgojIFJlYWQgaW4gQ2FuY2VyIERhdGFzZXQKY2FuY2VyIDwtIHJlYWRSRFMoImNhX2NhbmNlci5yZHMiKQoKIyMgTGV0J3MgdmlldyB0aGUgZGF0YQpoZWFkKGNhbmNlcikKdGFibGUoY2FuY2VyJGV2ZW50KQoKIyMgTG9hZCB0aGVzZSBwYWNrYWdlcy0tbGV0J3Mgbm90IHdvcnJ5IHRvbyBtdWNoIGFib3V0IHdoYXQgdGhleSBkbyEKbGlicmFyeShzZikKbGlicmFyeSh0bWFwKQoKIyMgU2V0dGluZyBjb29yZGluYXRlIHJlZmVyZW5jZSBzeXN0ZW0gKENSUykgdG8gTm9ydGggQW1lcmljYW4gRGF0dW0gMTk4MyAoTkFEODMpLS13ZSB3aWxsIGRpc2N1c3MgbW9yZSBuZXh0IHdlZWshCmNhbmNlcl9wcm9qZWN0ZWQgPSBzdF9hc19zZihjYW5jZXIsIGNycz00MjY5KQoKIyMgUGxvdCB0aGUgZGF0YS0td2lsbCBhbHNvIGRpc2N1c3MgbW9yZSBpbiBhIGZldyB3ZWVrcyEKdG1hcF9tb2RlKCJ2aWV3IikKY2FuY2VyX21hcCA9IHRtX3NoYXBlKGNhbmNlcl9wcm9qZWN0ZWQpICsgCiAgdG1fZG90cyhzaXplPTAuNSxmaWxsX2FscGhhPTAuOCwgZmlsbD0iZXZlbnQiLGZpbGwuc2NhbGUgPSB0bV9zY2FsZV9jYXRlZ29yaWNhbCgpKQpjYW5jZXJfbWFwCmBgYAoKT0sgd2UgbWFkZSBhIHByZXR0eSBtYXAhIEJsdWUgZG90cyBtZWFuIHRoZXkgZGlkbid0IGhhdmUgdGhlICJldmVudCIgYW5kIGdyZWVuIG1lYW5zIHRoZXkgZGlkLiBXZSBhcmUgZ29pbmcgdG8gZGl2ZSBtdWNoIGRlZXBlciBvbiB0aGlzIG5leHQgd2Vlay4gSSB0aGluayB0aGlzIGlzIGVub3VnaCBmb3IgdG9kYXkhIEdldCBvdXRzaWRlIGFuZCBlbmpveSB0aGUgcmVzdCBvZiB5b3VyIGRheSEKCgoK

Lab 2: Data Wrangling in R

Data Wrangling

Install packages

Reading in data

Renaming variables

Selecting variables

Creating new variables

Joining Tables

Filtering

R Markdown

Practice makes perfect

But wait, we didn’t make a map!