In this lab, we are going to work more with vector data, spatially joining two vector datasets.

The objectives of this guide are to teach you:

Import our dataset with simulated geocoded addresses and mortality data from an ovarian cancer cohort
Import a dataset with walkability data at the Census tract level
Compare projections of datasets and re-project if needed
Make maps
Spatially join the two datasets
Run a quick statistical analysis on the two datasets combined

Let’s do this!!!

First, let’s install our packages.

library(sf)

## Linking to GEOS 3.13.0, GDAL 3.8.5, PROJ 9.5.1; sf_use_s2() is TRUE

library(MapGAM)

## Loading required package: sp

## Loading required package: gam

## Loading required package: splines

## Loading required package: foreach

## Loaded gam 1.22-5

## Loading required package: survival

library(tidyverse)

## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.5
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ ggplot2   3.5.2     ✔ tibble    3.2.1
## ✔ lubridate 1.9.4     ✔ tidyr     1.3.1
## ✔ purrr     1.0.4

## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ purrr::accumulate() masks foreach::accumulate()
## ✖ dplyr::filter()     masks stats::filter()
## ✖ dplyr::lag()        masks stats::lag()
## ✖ purrr::when()       masks foreach::when()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors

library(flextable)

## 
## Attaching package: 'flextable'
## 
## The following object is masked from 'package:purrr':
## 
##     compose

library(RColorBrewer)
library(tmap)
#library(gtools)
#library(gmodels)

Spatial Data Processing with Vector Data in R

In this exercise, we will learn about geospatial analysis with vector data.

We will be using data included in the MapGAM() package. As a reminder: While they are based on real patterns expected in observational epidemiologic studies, these data have been simulated and are for teaching purposes only. The data contain 5000 simulated ovarian cancer cases. While this is a cohort with time to mortality, for the purposes of our class, we will conduct simple tabular analyses looking at associations between different spatial exposures with mortality at end of follow-up.

As another reminder, the CAdata dataset contains the following variables:

time (follow-up time)
event (1=dead, 0=censored)
X (Latitude)
Y (Longitude)
AGE (age in years)
INS (insurance status, categorical)

We will also read in a dataset with walkability index data from California. This dataset includes administrative boundaries for United States Census tract polygons, along with values for a walkability index for each tract derived from z-scores for population density, business density, and street connectivity.

Read in Vector Datasets and Check Projections

Read in Cancer Dataset

Next, we want to read in all of our spatial data. First, we read in the CAdata dataset from the MapGAM package, and then convert it to a spatial dataset.

data(CAdata)
ca_pts <- CAdata
ca_proj <- "+proj=lcc +lat_1=40 +lat_2=41.66666666666666 
             +lat_0=39.33333333333334 +lon_0=-122 +x_0=2000000 
             +y_0=500000.0000000002 +ellps=GRS80 
             +datum=NAD83 +units=m +no_defs"

ca_pts <- st_as_sf(CAdata, coords=c("X","Y"), crs=ca_proj)

Read in Walkability Index Dataset at the Census Tract level

We then read in the administrative boundaries dataset with the walkability index values for the San Francisco Bay Area. Finally, we check the file to make sure it was read correctly. Does it have a coordinate reference system?

## Reading in the walkability index dataset
url <- "https://github.com/pjames-ucdavis/SPH215/raw/main/BayArea_Walkability_Data.rds"
download.file(url, destfile = "BayArea_Walkability_Data.rds", mode = "wb")
walkability_tracts = readRDS("BayArea_Walkability_Data.rds")

## Is walkability_tracts spatial?
head(walkability_tracts)

## Simple feature collection with 6 features and 31 fields
## Geometry type: MULTIPOLYGON
## Dimension:     XY
## Bounding box:  xmin: -122.2695 ymin: 37.83454 xmax: -122.2124 ymax: 37.88544
## Geodetic CRS:  WGS 84
##         GEOID FID_1        GISJOIN STATEFP COUNTYFP TRACTCE NAME.x
## 1 06001400100     0 G0600010400100      06      001  400100   4001
## 2 06001400200     1 G0600010400200      06      001  400200   4002
## 3 06001400300     2 G0600010400300      06      001  400300   4003
## 4 06001400400     3 G0600010400400      06      001  400400   4004
## 5 06001400500     4 G0600010400500      06      001  400500   4005
## 6 06001400600     5 G0600010400600      06      001  400600   4006
##            NAMELSAD MTFCC FUNCSTAT   ALAND AWATER    INTPTLAT     INTPTLON
## 1 Census Tract 4001 G5020        S 6894340      0 +37.8676275 -122.2319460
## 2 Census Tract 4002 G5020        S  586561      0 +37.8481378 -122.2495916
## 3 Census Tract 4003 G5020        S 1105851      0 +37.8405970 -122.2544404
## 4 Census Tract 4004 G5020        S  715616      0 +37.8482808 -122.2574478
## 5 Census Tract 4005 G5020        S  590307      0 +37.8485412 -122.2647277
## 6 Census Tract 4006 G5020        S  297856      0 +37.8419909 -122.2648882
##   Shape_Leng Shape_Area Count_ Avg_CBSA Var_CBSA Avg_CBSA_E Var_CBSA_E
## 1  14302.721  6894336.0     12    41860        0    1953826          0
## 2   3990.700   586561.4      8    41860        0    1953826          0
## 3   5379.766  1105847.8     11    41860        0    1953826          0
## 4   3811.589   715617.2      8    41860        0    1953826          0
## 5   3285.980   590304.7     10    41860        0    1953826          0
## 6   2414.036   297856.4      6    41860        0    1953826          0
##   Avg_CBSA_P Var_CBSA_P Avg_CBSA_W Var_CBSA_W Avg_walkin Var_walkin
## 1    4335391          0    1852676          0   0.522475  4.1277735
## 2    4335391          0    1852676          0   1.811125  0.8386494
## 3    4335391          0    1852676          0   1.554891  1.2472868
## 4    4335391          0    1852676          0   2.942137  0.7530686
## 5    4335391          0    1852676          0   2.790860  2.5111812
## 6    4335391          0    1852676          0   2.055317  2.5502804
##                                          NAME.y   variable estimate   moe
## 1 Census Tract 4001, Alameda County, California B19013_001   220921 25969
## 2 Census Tract 4002, Alameda County, California B19013_001   200192 23361
## 3 Census Tract 4003, Alameda County, California B19013_001   118695 23530
## 4 Census Tract 4004, Alameda County, California B19013_001   137067  5162
## 5 Census Tract 4005, Alameda County, California B19013_001   110052 29999
## 6 Census Tract 4006, Alameda County, California B19013_001   135682 21626
##                         geometry
## 1 MULTIPOLYGON (((-122.2132 3...
## 2 MULTIPOLYGON (((-122.2419 3...
## 3 MULTIPOLYGON (((-122.2508 3...
## 4 MULTIPOLYGON (((-122.2525 3...
## 5 MULTIPOLYGON (((-122.2618 3...
## 6 MULTIPOLYGON (((-122.2613 3...

Check Projections for all Spatial Data

Finally, we check the projections. This is the most important step and is guaranteed to make life easier with your geospatial analysis! When you have files in different projections, this can be a major problem because when we try to overlay the two files they may not overlap. First we check the coordinate reference systems for each dataset using st_crs(). We then use the st_transform() function to convert the projection for our point data to match that of our polygon data. When we are done, do the projections of the two datasets match?

## Look at the coordinate reference system for the cancer data, and for walkability data
st_crs(ca_pts)

## Coordinate Reference System:
##   User input: +proj=lcc +lat_1=40 +lat_2=41.66666666666666 
##              +lat_0=39.33333333333334 +lon_0=-122 +x_0=2000000 
##              +y_0=500000.0000000002 +ellps=GRS80 
##              +datum=NAD83 +units=m +no_defs 
##   wkt:
## PROJCRS["unknown",
##     BASEGEOGCRS["unknown",
##         DATUM["North American Datum 1983",
##             ELLIPSOID["GRS 1980",6378137,298.257222101,
##                 LENGTHUNIT["metre",1]],
##             ID["EPSG",6269]],
##         PRIMEM["Greenwich",0,
##             ANGLEUNIT["degree",0.0174532925199433],
##             ID["EPSG",8901]]],
##     CONVERSION["unknown",
##         METHOD["Lambert Conic Conformal (2SP)",
##             ID["EPSG",9802]],
##         PARAMETER["Latitude of false origin",39.3333333333333,
##             ANGLEUNIT["degree",0.0174532925199433],
##             ID["EPSG",8821]],
##         PARAMETER["Longitude of false origin",-122,
##             ANGLEUNIT["degree",0.0174532925199433],
##             ID["EPSG",8822]],
##         PARAMETER["Latitude of 1st standard parallel",40,
##             ANGLEUNIT["degree",0.0174532925199433],
##             ID["EPSG",8823]],
##         PARAMETER["Latitude of 2nd standard parallel",41.6666666666667,
##             ANGLEUNIT["degree",0.0174532925199433],
##             ID["EPSG",8824]],
##         PARAMETER["Easting at false origin",2000000,
##             LENGTHUNIT["metre",1],
##             ID["EPSG",8826]],
##         PARAMETER["Northing at false origin",500000,
##             LENGTHUNIT["metre",1],
##             ID["EPSG",8827]]],
##     CS[Cartesian,2],
##         AXIS["(E)",east,
##             ORDER[1],
##             LENGTHUNIT["metre",1,
##                 ID["EPSG",9001]]],
##         AXIS["(N)",north,
##             ORDER[2],
##             LENGTHUNIT["metre",1,
##                 ID["EPSG",9001]]]]

st_crs(walkability_tracts)

## Coordinate Reference System:
##   User input: EPSG:4326 
##   wkt:
## GEOGCRS["WGS 84",
##     DATUM["World Geodetic System 1984",
##         ELLIPSOID["WGS 84",6378137,298.257223563,
##             LENGTHUNIT["metre",1]]],
##     PRIMEM["Greenwich",0,
##         ANGLEUNIT["degree",0.0174532925199433]],
##     CS[ellipsoidal,2],
##         AXIS["geodetic latitude (Lat)",north,
##             ORDER[1],
##             ANGLEUNIT["degree",0.0174532925199433]],
##         AXIS["geodetic longitude (Lon)",east,
##             ORDER[2],
##             ANGLEUNIT["degree",0.0174532925199433]],
##     USAGE[
##         SCOPE["Horizontal component of 3D system."],
##         AREA["World."],
##         BBOX[-90,-180,90,180]],
##     ID["EPSG",4326]]

## Transform the coordinate reference system of the walkability tract data to match that 
## of the cancer data
ca_transformed <-st_transform(ca_pts, st_crs(walkability_tracts))  

## Check projection of walkability_transformed
st_crs(walkability_tracts)==st_crs(ca_transformed)

## [1] TRUE

Map The Data

Now, we will visualize our spatial data using tmap. We will overlay the walkability maps with the ovarian cancer data, and then make a choropleth map of walkability indices. Do any patterns jump out, or are there any outliers?

## Make a choropleth map of polygons colored by levels of walkability
tmap_mode("plot")

## ℹ tmap modes "plot" - "view"
## ℹ toggle with `tmap::ttm()`

walkability_map <- tm_shape(walkability_tracts) +
  tm_polygons(
    col = "Avg_walkin",
    style = "cont",
    title = "Walkability Index",
    lwd = 0,
    alpha=.95
  )

## 
## ── tmap v3 code detected ───────────────────────────────────────────────────────
## [v3->v4] `tm_polygons()`: instead of `style = "cont"`, use fill.scale =
## `tm_scale_continuous()`.[v3->v4] `tm_polygons()`: use 'fill' for the fill color of polygons/symbols
## (instead of 'col'), and 'col' for the outlines (instead of 'border.col').[v3->v4] `tm_polygons()`: use `fill_alpha` instead of `alpha`.[v3->v4] `tm_polygons()`: migrate the argument(s) related to the legend of the
## visual variable `fill` namely 'title' to 'fill.legend = tm_legend(<HERE>)'

## Make another map adding points for the cancer data to map of polygons
walkability_cancer_map = walkability_map + 
  tm_shape(ca_transformed) + 
  tm_dots(size=0.25, alpha=0.8, col="blue")

## [v3->v4] `tm_dots()`: use `fill_alpha` instead of `alpha`.

## Plot both maps side by side
tmap_arrange(walkability_map, walkability_cancer_map)

## Variable(s) "fill" contains positive and negative values, so midpoint is set to 0. Set midpoint = NA to show the full range of visual values.
## [plot mode] fit legend/component: Some legend items or map compoments do not
## fit well, and are therefore rescaled.
## ℹ Set the tmap option `component.autoscale = FALSE` to disable rescaling.Variable(s) "fill" contains positive and negative values, so midpoint is set to 0. Set midpoint = NA to show the full range of visual values.
## [plot mode] fit legend/component: Some legend items or map compoments do not
## fit well, and are therefore rescaled.
## ℹ Set the tmap option `component.autoscale = FALSE` to disable rescaling.

We find that the most highly walkable areas are in the city of San Francisco, which makes sense. Our cancer cohort data overlaps with the SF Bay Area walkability map, which is reassuring.

Spatial Join

Now that we have visualized our data, let’s see if there is an association between the walkability index and mortality among ovarian cancer cases. We will first spatially join the two datasets (merge the two datasets based on location of cases and the walkability index of the census tract that contains them) using st_join(). Then we will check the distribution of walkability index. We will use a two-sided chi-squared test to test our hypothesis of the association between residential walkability index value and mortality among ovarian cancer cases. What do we find?

## Spatially join the cancer point data to the walkability polygon data
walkability_cancer = st_join(ca_transformed, walkability_tracts[c("Avg_walkin", "GEOID")]) 

## Take a look at a summary of the values
summary(walkability_cancer$Avg_walkin)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##  -1.699   0.041   0.729   0.841   1.359   8.196    4026

Looks like we have lots of NA values. That is because some of our participants live outside of the area of our walkability data. Let’s drop those missing values.

walkability_cancer_nomiss <- walkability_cancer %>%
    subset(!is.na(Avg_walkin))
summary(walkability_cancer_nomiss$Avg_walkin)

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -1.69880  0.04108  0.72932  0.84103  1.35942  8.19633

glimpse(walkability_cancer_nomiss)

## Rows: 974
## Columns: 7
## $ time       <dbl> 1.2759763, 3.5099074, 10.2977017, 7.0125318, 3.3891999, 6.1…
## $ event      <dbl> 1, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 1, 0, 1, 1, 1, 1, 0,…
## $ AGE        <int> 67, 69, 75, 46, 70, 59, 69, 79, 79, 45, 78, 78, 43, 72, 65,…
## $ INS        <fct> Mcr, Mcr, Mng, Mcr, Mcr, Unk, Unk, Mcr, Mcr, Mcd, Mcr, Mcr,…
## $ Avg_walkin <dbl> -0.2994200, 0.2815286, 0.8322375, -1.3289667, 0.2963222, 1.…
## $ GEOID      <chr> "06055201101", "06013346203", "06055200601", "06095250502",…
## $ geometry   <POINT [°]> POINT (-122.3492 38.3025), POINT (-121.9832 37.82052)…

Analyze our Joined Dataset

OK, we have a dataset with no missingness. Can we look at the distribution of our walkability index among participants?

## Check distribution of walkability index
hist(walkability_cancer_nomiss$Avg_walkin)

For the purposes of our analysis, let’s divide up our walkability data into quartiles. We will do this using the mutate() function combined with the ntile() function. Then we will take a glimpse at our new dataset.

walkability_cancer_nomiss <- walkability_cancer_nomiss %>%
  mutate(walk_quartile = ntile(Avg_walkin, 4))

glimpse(walkability_cancer_nomiss)

## Rows: 974
## Columns: 8
## $ time          <dbl> 1.2759763, 3.5099074, 10.2977017, 7.0125318, 3.3891999, …
## $ event         <dbl> 1, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 1, 0, 1, 1, 1, 1,…
## $ AGE           <int> 67, 69, 75, 46, 70, 59, 69, 79, 79, 45, 78, 78, 43, 72, …
## $ INS           <fct> Mcr, Mcr, Mng, Mcr, Mcr, Unk, Unk, Mcr, Mcr, Mcd, Mcr, M…
## $ Avg_walkin    <dbl> -0.2994200, 0.2815286, 0.8322375, -1.3289667, 0.2963222,…
## $ GEOID         <chr> "06055201101", "06013346203", "06055200601", "0609525050…
## $ geometry      <POINT [°]> POINT (-122.3492 38.3025), POINT (-121.9832 37.820…
## $ walk_quartile <int> 1, 2, 3, 1, 2, 3, 4, 2, 4, 3, 4, 4, 3, 4, 4, 4, 4, 4, 2,…

OK that looks good. We have created a new variable walk_quartile that tells us what quartile of walkability a participant lives in. Let’s do a two by two table of walkability quartiles by event, which is whether a participant died over followup.

## Create a contingency table of event by walk_quartile
tab <- table(walkability_cancer_nomiss$walk_quartile, walkability_cancer_nomiss$event)
tab

##    
##       0   1
##   1 100 144
##   2 107 137
##   3 104 139
##   4 113 130

Hmmm, that’s interesting, but let’s look at this by percentages instead.

## Convert to percentages by column
tab_col_perc <- prop.table(tab, margin = 2) * 100
round(tab_col_perc, 1)

##    
##        0    1
##   1 23.6 26.2
##   2 25.2 24.9
##   3 24.5 25.3
##   4 26.7 23.6

Do you think the percentages are different by quartile of the walkability index? We can run a chi-squared test to be sure. This is a statistical test to see whether there is a difference in the probability of event, or whether a participant died over follow-up, by the quartiles of the walkability index. We do this with the chisq.test() function.

## Chi-squared test
chisq.test(tab)

## 
##  Pearson's Chi-squared test
## 
## data:  tab
## X-squared = 1.5801, df = 3, p-value = 0.6639

OK, how do we interpret this? Our null hypothesis is that there is no association between mortality at end of follow-up and increasing quartile of walkability index. Our alternative hypothesis is that there is an association between mortality at end of follow-up and increasing quartile of walkability index. We use a two-sided chi-squared test with alpha=0.05. Assuming no sources of bias and that the null hypothesis is true, the probability of observing increases in mortality at end of follow-up with increasing quartiles of walkability as or more extreme as those produced in these data is 0.66. Since p>0.05, we fail to reject the null hypothesis and conclude that walkability is not associated with mortality at end of follow-up (under the assumptions stated above). In other words, we don’t see a relationship between walkability exposure and our outcome (dying over followup).

LS0tCnRpdGxlOiAiTGFiIDQ6IFNwYXRpYWwgRGF0YSBQcm9jZXNzaW5nIHdpdGggVmVjdG9yIERhdGEiCi0tLQoKSW4gdGhpcyBsYWIsIHdlIGFyZSBnb2luZyB0byB3b3JrIG1vcmUgd2l0aCB2ZWN0b3IgZGF0YSwgc3BhdGlhbGx5IGpvaW5pbmcgdHdvIHZlY3RvciBkYXRhc2V0cy4gCgpUaGUgb2JqZWN0aXZlcyBvZiB0aGlzIGd1aWRlIGFyZSB0byB0ZWFjaCB5b3U6CgogICAxLiBJbXBvcnQgb3VyIGRhdGFzZXQgd2l0aCBzaW11bGF0ZWQgZ2VvY29kZWQgYWRkcmVzc2VzIGFuZCBtb3J0YWxpdHkgZGF0YSBmcm9tIGFuIG92YXJpYW4gY2FuY2VyIGNvaG9ydAogICAyLiBJbXBvcnQgYSBkYXRhc2V0IHdpdGggd2Fsa2FiaWxpdHkgZGF0YSBhdCB0aGUgQ2Vuc3VzIHRyYWN0IGxldmVsCiAgIDMuIENvbXBhcmUgcHJvamVjdGlvbnMgb2YgZGF0YXNldHMgYW5kIHJlLXByb2plY3QgaWYgbmVlZGVkCiAgIDQuIE1ha2UgbWFwcwogICA1LiBTcGF0aWFsbHkgam9pbiB0aGUgdHdvIGRhdGFzZXRzCiAgIDYuIFJ1biBhIHF1aWNrIHN0YXRpc3RpY2FsIGFuYWx5c2lzIG9uIHRoZSB0d28gZGF0YXNldHMgY29tYmluZWQKCkxldCdzIGRvIHRoaXMhISEKClwKCkZpcnN0LCBsZXQncyBpbnN0YWxsIG91ciBwYWNrYWdlcy4KYGBge3J9CmxpYnJhcnkoc2YpCmxpYnJhcnkoTWFwR0FNKQpsaWJyYXJ5KHRpZHl2ZXJzZSkKbGlicmFyeShmbGV4dGFibGUpCmxpYnJhcnkoUkNvbG9yQnJld2VyKQpsaWJyYXJ5KHRtYXApCiNsaWJyYXJ5KGd0b29scykKI2xpYnJhcnkoZ21vZGVscykKCmBgYAoKXAoKCiMgU3BhdGlhbCBEYXRhIFByb2Nlc3Npbmcgd2l0aCBWZWN0b3IgRGF0YSBpbiBSCgpJbiB0aGlzIGV4ZXJjaXNlLCB3ZSB3aWxsIGxlYXJuIGFib3V0IGdlb3NwYXRpYWwgYW5hbHlzaXMgd2l0aCB2ZWN0b3IgZGF0YS4gCgpXZSB3aWxsIGJlIHVzaW5nIGRhdGEgaW5jbHVkZWQgaW4gdGhlICoqTWFwR0FNKCkqKiBbcGFja2FnZV0oaHR0cHM6Ly9jcmFuLnItcHJvamVjdC5vcmcvd2ViL3BhY2thZ2VzL01hcEdBTS9NYXBHQU0ucGRmKS4gQXMgYSByZW1pbmRlcjogV2hpbGUgdGhleSBhcmUgYmFzZWQgb24gcmVhbCBwYXR0ZXJucyBleHBlY3RlZCBpbiBvYnNlcnZhdGlvbmFsIGVwaWRlbWlvbG9naWMgc3R1ZGllcywgdGhlc2UgZGF0YSBoYXZlIGJlZW4gc2ltdWxhdGVkIGFuZCBhcmUgZm9yIHRlYWNoaW5nIHB1cnBvc2VzIG9ubHkuIFRoZSBkYXRhIGNvbnRhaW4gNTAwMCBzaW11bGF0ZWQgb3ZhcmlhbiBjYW5jZXIgY2FzZXMuIFdoaWxlIHRoaXMgaXMgYSBjb2hvcnQgd2l0aCB0aW1lIHRvIG1vcnRhbGl0eSwgZm9yIHRoZSBwdXJwb3NlcyBvZiBvdXIgY2xhc3MsIHdlIHdpbGwgY29uZHVjdCBzaW1wbGUgdGFidWxhciBhbmFseXNlcyBsb29raW5nIGF0IGFzc29jaWF0aW9ucyBiZXR3ZWVuIGRpZmZlcmVudCBzcGF0aWFsIGV4cG9zdXJlcyB3aXRoIG1vcnRhbGl0eSBhdCBlbmQgb2YgZm9sbG93LXVwLiAKCkFzIGFub3RoZXIgcmVtaW5kZXIsIHRoZSAqQ0FkYXRhKiBkYXRhc2V0IGNvbnRhaW5zIHRoZSBmb2xsb3dpbmcgdmFyaWFibGVzOgoKKiB0aW1lIChmb2xsb3ctdXAgdGltZSkKKiBldmVudCAoMT1kZWFkLCAwPWNlbnNvcmVkKQoqIFggKExhdGl0dWRlKQoqIFkgKExvbmdpdHVkZSkKKiBBR0UgKGFnZSBpbiB5ZWFycykKKiBJTlMgKGluc3VyYW5jZSBzdGF0dXMsIGNhdGVnb3JpY2FsKQoKV2Ugd2lsbCBhbHNvIHJlYWQgaW4gYSBkYXRhc2V0IHdpdGggd2Fsa2FiaWxpdHkgaW5kZXggZGF0YSBmcm9tIENhbGlmb3JuaWEuIFRoaXMgZGF0YXNldCBpbmNsdWRlcyBhZG1pbmlzdHJhdGl2ZSBib3VuZGFyaWVzIGZvciBVbml0ZWQgU3RhdGVzIENlbnN1cyB0cmFjdCBwb2x5Z29ucywgYWxvbmcgd2l0aCB2YWx1ZXMgZm9yIGEgd2Fsa2FiaWxpdHkgaW5kZXggZm9yIGVhY2ggdHJhY3QgZGVyaXZlZCBmcm9tIHotc2NvcmVzIGZvciBwb3B1bGF0aW9uIGRlbnNpdHksIGJ1c2luZXNzIGRlbnNpdHksIGFuZCBzdHJlZXQgY29ubmVjdGl2aXR5LgoKXAoKIyBSZWFkIGluIFZlY3RvciBEYXRhc2V0cyBhbmQgQ2hlY2sgUHJvamVjdGlvbnMKCiMjIFJlYWQgaW4gQ2FuY2VyIERhdGFzZXQKCk5leHQsIHdlIHdhbnQgdG8gcmVhZCBpbiBhbGwgb2Ygb3VyIHNwYXRpYWwgZGF0YS4gRmlyc3QsIHdlIHJlYWQgaW4gdGhlICpDQWRhdGEqIGRhdGFzZXQgZnJvbSB0aGUgKipNYXBHQU0qKiBwYWNrYWdlLCBhbmQgdGhlbiBjb252ZXJ0IGl0IHRvIGEgc3BhdGlhbCBkYXRhc2V0LiAKCmBgYHtyfQpkYXRhKENBZGF0YSkKY2FfcHRzIDwtIENBZGF0YQpjYV9wcm9qIDwtICIrcHJvaj1sY2MgK2xhdF8xPTQwICtsYXRfMj00MS42NjY2NjY2NjY2NjY2NiAKICAgICAgICAgICAgICtsYXRfMD0zOS4zMzMzMzMzMzMzMzMzNCArbG9uXzA9LTEyMiAreF8wPTIwMDAwMDAgCiAgICAgICAgICAgICAreV8wPTUwMDAwMC4wMDAwMDAwMDAyICtlbGxwcz1HUlM4MCAKICAgICAgICAgICAgICtkYXR1bT1OQUQ4MyArdW5pdHM9bSArbm9fZGVmcyIKCmNhX3B0cyA8LSBzdF9hc19zZihDQWRhdGEsIGNvb3Jkcz1jKCJYIiwiWSIpLCBjcnM9Y2FfcHJvaikKYGBgCgpcCgojIyBSZWFkIGluIFdhbGthYmlsaXR5IEluZGV4IERhdGFzZXQgYXQgdGhlIENlbnN1cyBUcmFjdCBsZXZlbAoKV2UgdGhlbiByZWFkIGluIHRoZSBhZG1pbmlzdHJhdGl2ZSBib3VuZGFyaWVzIGRhdGFzZXQgd2l0aCB0aGUgd2Fsa2FiaWxpdHkgaW5kZXggdmFsdWVzIGZvciB0aGUgU2FuIEZyYW5jaXNjbyBCYXkgQXJlYS4gRmluYWxseSwgd2UgY2hlY2sgdGhlIGZpbGUgdG8gbWFrZSBzdXJlIGl0IHdhcyByZWFkIGNvcnJlY3RseS4gRG9lcyBpdCBoYXZlIGEgY29vcmRpbmF0ZSByZWZlcmVuY2Ugc3lzdGVtPwoKCmBgYHtyfQojIyBSZWFkaW5nIGluIHRoZSB3YWxrYWJpbGl0eSBpbmRleCBkYXRhc2V0CnVybCA8LSAiaHR0cHM6Ly9naXRodWIuY29tL3BqYW1lcy11Y2RhdmlzL1NQSDIxNS9yYXcvbWFpbi9CYXlBcmVhX1dhbGthYmlsaXR5X0RhdGEucmRzIgpkb3dubG9hZC5maWxlKHVybCwgZGVzdGZpbGUgPSAiQmF5QXJlYV9XYWxrYWJpbGl0eV9EYXRhLnJkcyIsIG1vZGUgPSAid2IiKQp3YWxrYWJpbGl0eV90cmFjdHMgPSByZWFkUkRTKCJCYXlBcmVhX1dhbGthYmlsaXR5X0RhdGEucmRzIikKCiMjIElzIHdhbGthYmlsaXR5X3RyYWN0cyBzcGF0aWFsPwpoZWFkKHdhbGthYmlsaXR5X3RyYWN0cykKYGBgCgpcCgojIENoZWNrIFByb2plY3Rpb25zIGZvciBhbGwgU3BhdGlhbCBEYXRhCgpGaW5hbGx5LCB3ZSBjaGVjayB0aGUgcHJvamVjdGlvbnMuICoqVGhpcyBpcyB0aGUgbW9zdCBpbXBvcnRhbnQgc3RlcCBhbmQgaXMgZ3VhcmFudGVlZCB0byBtYWtlIGxpZmUgZWFzaWVyIHdpdGggeW91ciBnZW9zcGF0aWFsIGFuYWx5c2lzISoqIFdoZW4geW91IGhhdmUgZmlsZXMgaW4gZGlmZmVyZW50IHByb2plY3Rpb25zLCB0aGlzIGNhbiBiZSBhIG1ham9yIHByb2JsZW0gYmVjYXVzZSB3aGVuIHdlIHRyeSB0byBvdmVybGF5IHRoZSB0d28gZmlsZXMgdGhleSBtYXkgbm90IG92ZXJsYXAuIEZpcnN0IHdlIGNoZWNrIHRoZSBjb29yZGluYXRlIHJlZmVyZW5jZSBzeXN0ZW1zIGZvciBlYWNoIGRhdGFzZXQgdXNpbmcgYHN0X2NycygpYC4gV2UgdGhlbiB1c2UgdGhlIGBzdF90cmFuc2Zvcm0oKWAgZnVuY3Rpb24gdG8gY29udmVydCB0aGUgcHJvamVjdGlvbiBmb3Igb3VyIHBvaW50IGRhdGEgdG8gbWF0Y2ggdGhhdCBvZiBvdXIgcG9seWdvbiBkYXRhLiBXaGVuIHdlIGFyZSBkb25lLCBkbyB0aGUgcHJvamVjdGlvbnMgb2YgdGhlIHR3byBkYXRhc2V0cyBtYXRjaD8KCgpgYGB7cn0KIyMgTG9vayBhdCB0aGUgY29vcmRpbmF0ZSByZWZlcmVuY2Ugc3lzdGVtIGZvciB0aGUgY2FuY2VyIGRhdGEsIGFuZCBmb3Igd2Fsa2FiaWxpdHkgZGF0YQpzdF9jcnMoY2FfcHRzKQpzdF9jcnMod2Fsa2FiaWxpdHlfdHJhY3RzKQoKIyMgVHJhbnNmb3JtIHRoZSBjb29yZGluYXRlIHJlZmVyZW5jZSBzeXN0ZW0gb2YgdGhlIHdhbGthYmlsaXR5IHRyYWN0IGRhdGEgdG8gbWF0Y2ggdGhhdCAKIyMgb2YgdGhlIGNhbmNlciBkYXRhCmNhX3RyYW5zZm9ybWVkIDwtc3RfdHJhbnNmb3JtKGNhX3B0cywgc3RfY3JzKHdhbGthYmlsaXR5X3RyYWN0cykpICAKCiMjIENoZWNrIHByb2plY3Rpb24gb2Ygd2Fsa2FiaWxpdHlfdHJhbnNmb3JtZWQKc3RfY3JzKHdhbGthYmlsaXR5X3RyYWN0cyk9PXN0X2NycyhjYV90cmFuc2Zvcm1lZCkKYGBgCgpcCgojIE1hcCBUaGUgRGF0YQoKTm93LCB3ZSB3aWxsIHZpc3VhbGl6ZSBvdXIgc3BhdGlhbCBkYXRhIHVzaW5nICoqdG1hcCoqLiBXZSB3aWxsIG92ZXJsYXkgdGhlIHdhbGthYmlsaXR5IG1hcHMgd2l0aCB0aGUgb3ZhcmlhbiBjYW5jZXIgZGF0YSwgYW5kIHRoZW4gbWFrZSBhIGNob3JvcGxldGggbWFwIG9mIHdhbGthYmlsaXR5IGluZGljZXMuIERvIGFueSBwYXR0ZXJucyBqdW1wIG91dCwgb3IgYXJlIHRoZXJlIGFueSBvdXRsaWVycz8KCmBgYHtyfQojIyBNYWtlIGEgY2hvcm9wbGV0aCBtYXAgb2YgcG9seWdvbnMgY29sb3JlZCBieSBsZXZlbHMgb2Ygd2Fsa2FiaWxpdHkKdG1hcF9tb2RlKCJwbG90IikKd2Fsa2FiaWxpdHlfbWFwIDwtIHRtX3NoYXBlKHdhbGthYmlsaXR5X3RyYWN0cykgKwogIHRtX3BvbHlnb25zKAogICAgY29sID0gIkF2Z193YWxraW4iLAogICAgc3R5bGUgPSAiY29udCIsCiAgICB0aXRsZSA9ICJXYWxrYWJpbGl0eSBJbmRleCIsCiAgICBsd2QgPSAwLAogICAgYWxwaGE9Ljk1CiAgKQoKIyMgTWFrZSBhbm90aGVyIG1hcCBhZGRpbmcgcG9pbnRzIGZvciB0aGUgY2FuY2VyIGRhdGEgdG8gbWFwIG9mIHBvbHlnb25zCndhbGthYmlsaXR5X2NhbmNlcl9tYXAgPSB3YWxrYWJpbGl0eV9tYXAgKyAKICB0bV9zaGFwZShjYV90cmFuc2Zvcm1lZCkgKyAKICB0bV9kb3RzKHNpemU9MC4yNSwgYWxwaGE9MC44LCBjb2w9ImJsdWUiKQoKIyMgUGxvdCBib3RoIG1hcHMgc2lkZSBieSBzaWRlCnRtYXBfYXJyYW5nZSh3YWxrYWJpbGl0eV9tYXAsIHdhbGthYmlsaXR5X2NhbmNlcl9tYXApCmBgYAoKXAoKV2UgZmluZCB0aGF0IHRoZSBtb3N0IGhpZ2hseSB3YWxrYWJsZSBhcmVhcyBhcmUgaW4gdGhlIGNpdHkgb2YgU2FuIEZyYW5jaXNjbywgd2hpY2ggbWFrZXMgc2Vuc2UuIE91ciBjYW5jZXIgY29ob3J0IGRhdGEgb3ZlcmxhcHMgd2l0aCB0aGUgU0YgQmF5IEFyZWEgd2Fsa2FiaWxpdHkgbWFwLCB3aGljaCBpcyByZWFzc3VyaW5nLiAKClwKCiMgU3BhdGlhbCBKb2luIAoKTm93IHRoYXQgd2UgaGF2ZSB2aXN1YWxpemVkIG91ciBkYXRhLCBsZXQncyBzZWUgaWYgdGhlcmUgaXMgYW4gYXNzb2NpYXRpb24gYmV0d2VlbiB0aGUgd2Fsa2FiaWxpdHkgaW5kZXggYW5kIG1vcnRhbGl0eSBhbW9uZyBvdmFyaWFuIGNhbmNlciBjYXNlcy4gV2Ugd2lsbCBmaXJzdCBzcGF0aWFsbHkgam9pbiB0aGUgdHdvIGRhdGFzZXRzIChtZXJnZSB0aGUgdHdvIGRhdGFzZXRzIGJhc2VkIG9uIGxvY2F0aW9uIG9mIGNhc2VzIGFuZCB0aGUgd2Fsa2FiaWxpdHkgaW5kZXggb2YgdGhlIGNlbnN1cyB0cmFjdCB0aGF0IGNvbnRhaW5zIHRoZW0pIHVzaW5nIGBzdF9qb2luKClgLiBUaGVuIHdlIHdpbGwgY2hlY2sgdGhlIGRpc3RyaWJ1dGlvbiBvZiB3YWxrYWJpbGl0eSBpbmRleC4gV2Ugd2lsbCB1c2UgYSB0d28tc2lkZWQgY2hpLXNxdWFyZWQgdGVzdCB0byB0ZXN0IG91ciBoeXBvdGhlc2lzIG9mIHRoZSBhc3NvY2lhdGlvbiBiZXR3ZWVuIHJlc2lkZW50aWFsIHdhbGthYmlsaXR5IGluZGV4IHZhbHVlIGFuZCBtb3J0YWxpdHkgYW1vbmcgb3ZhcmlhbiBjYW5jZXIgY2FzZXMuIFdoYXQgZG8gd2UgZmluZD8KCmBgYHtyLCBldmFsPVRSVUUsIHdhcm5pbmc9RkFMU0UsIG1lc3NhZ2U9RkFMU0V9CiMjIFNwYXRpYWxseSBqb2luIHRoZSBjYW5jZXIgcG9pbnQgZGF0YSB0byB0aGUgd2Fsa2FiaWxpdHkgcG9seWdvbiBkYXRhCndhbGthYmlsaXR5X2NhbmNlciA9IHN0X2pvaW4oY2FfdHJhbnNmb3JtZWQsIHdhbGthYmlsaXR5X3RyYWN0c1tjKCJBdmdfd2Fsa2luIiwgIkdFT0lEIildKSAKCiMjIFRha2UgYSBsb29rIGF0IGEgc3VtbWFyeSBvZiB0aGUgdmFsdWVzCnN1bW1hcnkod2Fsa2FiaWxpdHlfY2FuY2VyJEF2Z193YWxraW4pCmBgYAoKXAoKTG9va3MgbGlrZSB3ZSBoYXZlIGxvdHMgb2YgTkEgdmFsdWVzLiBUaGF0IGlzIGJlY2F1c2Ugc29tZSBvZiBvdXIgcGFydGljaXBhbnRzIGxpdmUgb3V0c2lkZSBvZiB0aGUgYXJlYSBvZiBvdXIgd2Fsa2FiaWxpdHkgZGF0YS4gTGV0J3MgZHJvcCB0aG9zZSBtaXNzaW5nIHZhbHVlcy4KYGBge3J9CndhbGthYmlsaXR5X2NhbmNlcl9ub21pc3MgPC0gd2Fsa2FiaWxpdHlfY2FuY2VyICU+JQogICAgc3Vic2V0KCFpcy5uYShBdmdfd2Fsa2luKSkKc3VtbWFyeSh3YWxrYWJpbGl0eV9jYW5jZXJfbm9taXNzJEF2Z193YWxraW4pCmdsaW1wc2Uod2Fsa2FiaWxpdHlfY2FuY2VyX25vbWlzcykKYGBgCgpcCgojIEFuYWx5emUgb3VyIEpvaW5lZCBEYXRhc2V0Ck9LLCB3ZSBoYXZlIGEgZGF0YXNldCB3aXRoIG5vIG1pc3NpbmduZXNzLiBDYW4gd2UgbG9vayBhdCB0aGUgZGlzdHJpYnV0aW9uIG9mIG91ciB3YWxrYWJpbGl0eSBpbmRleCBhbW9uZyBwYXJ0aWNpcGFudHM/CmBgYHtyfQojIyBDaGVjayBkaXN0cmlidXRpb24gb2Ygd2Fsa2FiaWxpdHkgaW5kZXgKaGlzdCh3YWxrYWJpbGl0eV9jYW5jZXJfbm9taXNzJEF2Z193YWxraW4pIApgYGAKClwKCkZvciB0aGUgcHVycG9zZXMgb2Ygb3VyIGFuYWx5c2lzLCBsZXQncyBkaXZpZGUgdXAgb3VyIHdhbGthYmlsaXR5IGRhdGEgaW50byBxdWFydGlsZXMuIFdlIHdpbGwgZG8gdGhpcyB1c2luZyB0aGUgYG11dGF0ZSgpYCBmdW5jdGlvbiBjb21iaW5lZCB3aXRoIHRoZSBgbnRpbGUoKWAgZnVuY3Rpb24uIFRoZW4gd2Ugd2lsbCB0YWtlIGEgZ2xpbXBzZSBhdCBvdXIgbmV3IGRhdGFzZXQuCgpgYGB7cn0Kd2Fsa2FiaWxpdHlfY2FuY2VyX25vbWlzcyA8LSB3YWxrYWJpbGl0eV9jYW5jZXJfbm9taXNzICU+JQogIG11dGF0ZSh3YWxrX3F1YXJ0aWxlID0gbnRpbGUoQXZnX3dhbGtpbiwgNCkpCgpnbGltcHNlKHdhbGthYmlsaXR5X2NhbmNlcl9ub21pc3MpCmBgYAoKXAoKT0sgdGhhdCBsb29rcyBnb29kLiBXZSBoYXZlIGNyZWF0ZWQgYSBuZXcgdmFyaWFibGUgKndhbGtfcXVhcnRpbGUqIHRoYXQgdGVsbHMgdXMgd2hhdCBxdWFydGlsZSBvZiB3YWxrYWJpbGl0eSBhIHBhcnRpY2lwYW50IGxpdmVzIGluLiBMZXQncyBkbyBhIHR3byBieSB0d28gdGFibGUgb2Ygd2Fsa2FiaWxpdHkgcXVhcnRpbGVzIGJ5ICpldmVudCosIHdoaWNoIGlzIHdoZXRoZXIgYSBwYXJ0aWNpcGFudCBkaWVkIG92ZXIgZm9sbG93dXAuCmBgYHtyfQojIyBDcmVhdGUgYSBjb250aW5nZW5jeSB0YWJsZSBvZiBldmVudCBieSB3YWxrX3F1YXJ0aWxlCnRhYiA8LSB0YWJsZSh3YWxrYWJpbGl0eV9jYW5jZXJfbm9taXNzJHdhbGtfcXVhcnRpbGUsIHdhbGthYmlsaXR5X2NhbmNlcl9ub21pc3MkZXZlbnQpCnRhYgpgYGAKClwKCkhtbW0sIHRoYXQncyBpbnRlcmVzdGluZywgYnV0IGxldCdzIGxvb2sgYXQgdGhpcyBieSBwZXJjZW50YWdlcyBpbnN0ZWFkLgpgYGB7cn0KIyMgQ29udmVydCB0byBwZXJjZW50YWdlcyBieSBjb2x1bW4KdGFiX2NvbF9wZXJjIDwtIHByb3AudGFibGUodGFiLCBtYXJnaW4gPSAyKSAqIDEwMApyb3VuZCh0YWJfY29sX3BlcmMsIDEpCmBgYAoKXAoKRG8geW91IHRoaW5rIHRoZSBwZXJjZW50YWdlcyBhcmUgZGlmZmVyZW50IGJ5IHF1YXJ0aWxlIG9mIHRoZSB3YWxrYWJpbGl0eSBpbmRleD8gV2UgY2FuIHJ1biBhIGNoaS1zcXVhcmVkIHRlc3QgdG8gYmUgc3VyZS4gVGhpcyBpcyBhIHN0YXRpc3RpY2FsIHRlc3QgdG8gc2VlIHdoZXRoZXIgdGhlcmUgaXMgYSBkaWZmZXJlbmNlIGluIHRoZSBwcm9iYWJpbGl0eSBvZiAqZXZlbnQqLCBvciB3aGV0aGVyIGEgcGFydGljaXBhbnQgZGllZCBvdmVyIGZvbGxvdy11cCwgYnkgdGhlIHF1YXJ0aWxlcyBvZiB0aGUgd2Fsa2FiaWxpdHkgaW5kZXguIFdlIGRvIHRoaXMgd2l0aCB0aGUgYGNoaXNxLnRlc3QoKWAgZnVuY3Rpb24uCmBgYHtyfQojIyBDaGktc3F1YXJlZCB0ZXN0CmNoaXNxLnRlc3QodGFiKQpgYGAKClwKCk9LLCBob3cgZG8gd2UgaW50ZXJwcmV0IHRoaXM/IE91ciBudWxsIGh5cG90aGVzaXMgaXMgdGhhdCB0aGVyZSBpcyBubyBhc3NvY2lhdGlvbiBiZXR3ZWVuIG1vcnRhbGl0eSBhdCBlbmQgb2YgZm9sbG93LXVwIGFuZCBpbmNyZWFzaW5nIHF1YXJ0aWxlIG9mIHdhbGthYmlsaXR5IGluZGV4LiBPdXIgYWx0ZXJuYXRpdmUgaHlwb3RoZXNpcyBpcyB0aGF0IHRoZXJlIGlzIGFuIGFzc29jaWF0aW9uIGJldHdlZW4gbW9ydGFsaXR5IGF0IGVuZCBvZiBmb2xsb3ctdXAgYW5kIGluY3JlYXNpbmcgcXVhcnRpbGUgb2Ygd2Fsa2FiaWxpdHkgaW5kZXguIFdlIHVzZSBhIHR3by1zaWRlZCBjaGktc3F1YXJlZCB0ZXN0IHdpdGggYWxwaGE9MC4wNS4gQXNzdW1pbmcgbm8gc291cmNlcyBvZiBiaWFzIGFuZCB0aGF0IHRoZSBudWxsIGh5cG90aGVzaXMgaXMgdHJ1ZSwgdGhlIHByb2JhYmlsaXR5IG9mIG9ic2VydmluZyBpbmNyZWFzZXMgaW4gbW9ydGFsaXR5IGF0IGVuZCBvZiBmb2xsb3ctdXAgd2l0aCBpbmNyZWFzaW5nIHF1YXJ0aWxlcyBvZiB3YWxrYWJpbGl0eSBhcyBvciBtb3JlIGV4dHJlbWUgYXMgdGhvc2UgcHJvZHVjZWQgaW4gdGhlc2UgZGF0YSBpcyAwLjY2LiBTaW5jZSBwPjAuMDUsIHdlIGZhaWwgdG8gcmVqZWN0IHRoZSBudWxsIGh5cG90aGVzaXMgYW5kIGNvbmNsdWRlIHRoYXQgd2Fsa2FiaWxpdHkgaXMgbm90IGFzc29jaWF0ZWQgd2l0aCBtb3J0YWxpdHkgYXQgZW5kIG9mIGZvbGxvdy11cCAodW5kZXIgdGhlIGFzc3VtcHRpb25zIHN0YXRlZCBhYm92ZSkuIEluIG90aGVyIHdvcmRzLCB3ZSBkb24ndCBzZWUgYSByZWxhdGlvbnNoaXAgYmV0d2VlbiB3YWxrYWJpbGl0eSBleHBvc3VyZSBhbmQgb3VyIG91dGNvbWUgKGR5aW5nIG92ZXIgZm9sbG93dXApLgoK

Lab 4: Spatial Data Processing with Vector Data