srcorsi-USGS
diff --git a/‎R/analyze/create_tox_file.R
+14-3 b/‎R/analyze/create_tox_file.R
+14-3
diff --git a/‎R/analyze/data_reader.R
+47-18 b/‎R/analyze/data_reader.R
+47-18
diff --git a/‎R/analyze/get_chem_info.R
+2-2 b/‎R/analyze/get_chem_info.R
+2-2
diff --git a/‎R/analyze/get_sites_ready.R
+2-9 b/‎R/analyze/get_sites_ready.R
+2-9
diff --git a/‎R/report/stack_plots.R
+101 b/‎R/report/stack_plots.R
+101
diff --git a/‎R/setup/file_config.R
+3 b/‎R/setup/file_config.R
+3
diff --git a/‎create_triple_fig.R
+21-4 b/‎create_triple_fig.R
+21-4
diff --git a/‎explore_detection_limits.R
+2 b/‎explore_detection_limits.R
+2
@@ -5,12 +5,23 @@ create_tox_object <- function(all_data, chem_info, sites, exclude){
            !(chnm == "Chlorpyrifos" & generic_class == "WW"),
            !(chnm == "Caffeine" & generic_class == "WW"),
            !(chnm == "Cotinine" & generic_class == "WW")) %>%
-    select(SiteID, `Sample Date`, CAS, Value, comment) %>%
-    filter(SiteID %in% sites$SiteID)
+    select(SiteID, `Sample Date`, CAS, Value, comment) 
+  
+  sites_ordered <- sites %>% 
+    filter(SiteID %in% chem_data$SiteID)
 
+  sites_ordered$map_nm <- substr(gsub("Lake ", "", sites_ordered$site_grouping),1,1)
+  
+  sites_ordered$map_nm <- paste0(sites_ordered$map_nm, 
+                                 c(1:sum(sites_ordered$map_nm == "S"),
+                                   1:sum(sites_ordered$map_nm == "M"),
+                                   1:sum(sites_ordered$map_nm == "H"),
+                                   1:sum(sites_ordered$map_nm == "E"),
+                                   1:sum(sites_ordered$map_nm == "O")))
+  
   tox_list <- list("Data" = chem_data, 
                            "Chemicals" = chem_info,
-                           "Sites" = sites,
+                           "Sites" = sites_ordered,
                            "Exclude" = exclude)
   return(tox_list)
 }
@@ -61,7 +61,8 @@ generic_file_opener <- function(file_name, cas_df, n_max, sheet, site_sheet,
       sheet <- "pharms"
     }
   }
-  data_long <- na.omit(data_long)
+  data_long <- dplyr::filter(data_long, !is.na(Value))
+  data_long <- dplyr::filter(data_long, !is.na(chnm))
   data_long$comment <- ""
   data_long$comment[grep("<",data_long$Value)] <- "<"
   data_long$comment[grep("DNQ",data_long$Value)] <- "DNQ"
@@ -74,18 +75,22 @@ generic_file_opener <- function(file_name, cas_df, n_max, sheet, site_sheet,
   data_long <- data_long[data_long$Value != "lostinfield",]
   data_long <- data_long[data_long$Value != "-----",]
   data_long <- data_long[data_long$Value != "'-----",]
+  data_long <- data_long[data_long$Value != "nosmple",]
   data_long$comment[which(data_long$Value == "ND")] <- "<"
   data_long$Value[which(data_long$Value == "ND")] <- data_long$MDL[which(data_long$Value == "ND")]
-  data_long <- data_long[data_long$Value != "NA",]
+  data_long <- filter(data_long, Value != "NA")
 
   data_long$Value <- as.numeric(data_long$Value) 
   data_long$Value <- data_long$Value/convert
   data_long$generic_class <- sheet
   data_long$`Sample Date` <- year
   data_long$SiteID <- gsub("site ","",data_long$SiteID, ignore.case = TRUE)
 
-  data_long <- filter(data_long, 
+  # Premature taking out censored values?
+  data_long <- filter(data_long,
                       !(is.na(Value) & comment == ""))
+  # data_long <- filter(data_long,
+  #                     !(is.na(Value)))
 
   data_long <- data_long %>%
     mutate(chnm = tolower(chnm)) %>%
@@ -110,10 +115,18 @@ generic_file_opener <- function(file_name, cas_df, n_max, sheet, site_sheet,
   data_long$CAS[data_long$chnm == "Nadolol"] <- "42200-33-9"
   data_long$chnm[data_long$chnm == "Tris(1,3-Dichloro-2-Propyl)Phosphate (t"] <- "Tris(1,3-dichloro-2-propyl)phosphate (TDCPP)"
   data_long$CAS[data_long$chnm == "Tris(1,3-dichloro-2-propyl)phosphate (TDCPP)"] <- "13674-87-8"
+  data_long$CAS[data_long$CAS == "26248-87-3"] <- "13674-84-5" #2 versions of TDCPP
+  data_long$CAS[data_long$chnm == "TCEP"] <- "115-96-8"
+  data_long$CAS[data_long$chnm == "Tri(2-chloroethyl) phosphate (TCEP)"] <- "115-96-8"
+  # data_long$CAS[data_long$CAS == "51805-45-9"] <- "115-96-8"
+  data_long$chnm[data_long$CAS == "101-20-2"] <- "3,4,4'-Trichlorocarbanilide"
+  data_long$chnm[data_long$CAS == "115-96-8"] <- "Tri(2-chloroethyl) phosphate (TCEP)"
 
   data_long <- data_long[!(data_long$chnm %in% c("Tcpp_isomer","Tcpp Isomer")),]
 
   data_long$CAS[data_long$chnm == "Omeprazole + Esomprazole"] <- "73590-58-6"
+  data_long$chnm[data_long$CAS == "73590-58-6"] <- "Omeprazole + Esomprazole"
+  
 
   if(any(is.na(data_long$CAS))){
     message("Some CAS didn't match up")
@@ -157,28 +170,44 @@ clean_cas <- function(cas_df){
     filter(!duplicated(CAS)) %>%
     mutate(chnm = tools::toTitleCase(chnm))
 
-  cas_final$chnm[cas_final$chnm == "Deet"] <- "DEET"
-  cas_final$chnm[cas_final$chnm == "Tcep"] <- "TCEP"
-  cas_final$chnm[cas_final$chnm == "Tcpp"] <- "TCPP"
-  cas_final$chnm[cas_final$chnm == "Tbep"] <- "TBEP"
-  cas_final$chnm[cas_final$chnm == "Tdcpp"] <- "TDCPP"
-  cas_final$chnm[cas_final$chnm == "Total Pcbs"] <- "Total PCBS"
+  cas_final$chnm[cas_final$chnm == "Deet"] <- "N,N-diethyltoluamide (DEET)"
+  cas_final$chnm[cas_final$chnm == "Tcep"] <- "Tri(2-chloroethyl) phosphate (TCEP)"
+  # cas_final$CAS[cas_final$chnm == "Tri(2-chloroethyl) phosphate (TCEP)"] <- "115-96-8"
+  cas_final$chnm[cas_final$chnm == "Tcpp"] <- "Tris(1-chloro-2-propyl)phosphate (TCPP)"
+  cas_final$chnm[cas_final$chnm == "Tbep"] <- "Tri(2-chloroethyl) phosphate (TCEP)"
+  cas_final$chnm[cas_final$chnm == "Tdcpp"] <- "Tris(1,3-dichloro-2-propyl) phosphate (TDCPP)"
+  cas_final$chnm[cas_final$chnm == "Total Pcbs"] <- "Total PCBs"
   cas_final$chnm[cas_final$chnm == "O,p'-Ddd"] <- "o,p'-DDD"
   cas_final$chnm[cas_final$chnm == "P,p'-Ddd"] <- "p,p'-DDD"
-  cas_final$chnm[cas_final$chnm == "Pentachloroanisole (Pca)"] <- "PCA"
-  cas_final$chnm[cas_final$chnm == "Tributyl Phosphate (Tbp)"] <- "TBP"
-  cas_final$chnm[cas_final$chnm == "Hydrochlorothiazide (Hctz)"] <- "HCTZ"
-  cas_final$chnm[cas_final$chnm == "Tris(2−Chloroethyl)Phosphate (Tcep)"] <- "TCEP"
+  cas_final$chnm[cas_final$chnm == "Pentachloroanisole (Pca)"] <- "Pentachloroanisole"
+  cas_final$chnm[cas_final$chnm == "Tributyl Phosphate (Tbp)"] <- "Tributyl phosphate (TBP)"
+  cas_final$chnm[cas_final$chnm == "Hydrochlorothiazide (Hctz)"] <- "Hydrochlorothiazide"
   cas_final$chnm[cas_final$chnm == "O,p'-Ddt"] <- "o,p'-DDT"
   cas_final$chnm[cas_final$chnm == "O,p'-Ddt"] <- "o,p'-DDT"
   cas_final$chnm[cas_final$chnm == "P,p'-Dde"] <- "p,p'-DDE"
   cas_final$chnm[cas_final$chnm == "P,p'-Ddt"] <- "p,p'-DDT"
   cas_final$chnm[cas_final$chnm == "O,p'-Dde"] <- "o,p'-DDE"
+  cas_final$chnm[cas_final$chnm == "Indeno[1,2,3-Cd]pyrene"] <- "Indeno[1,2,3-cd]pyrene"
+  cas_final$chnm[cas_final$chnm == "Benzo(a)Pyrene"] <- "Benzo(a)pyrene"
+  cas_final$chnm[cas_final$chnm == "beta-Bhc"] <- "beta-Hexachlorocyclohexane"
+  cas_final$chnm[cas_final$chnm == "P,p'-Methoxychlor"] <- "p,p'-Methoxychlor"
+  cas_final$chnm[cas_final$chnm == "alpha-Bhc"] <- "alpha-Hexachlorocyclohexane"
+  cas_final$chnm[cas_final$chnm == "Benzo[b]naphtho[2,1-D]thiophene"] <- "Benzo[b]naphtho[2,1-d]thiophene"
+  cas_final$chnm[cas_final$chnm == "Dibenzo[a,h]anthracene"] <- "Dibenz[a,h]anthracene"
+  cas_final$chnm[cas_final$chnm == "p-Tert-Octylphenol"] <- "p-tert-octylphenol"
   cas_final$chnm[cas_final$CAS =="26248-87-3"] <- "Tri(chloropropyl) phosphate"
-  # cas_final$chnm[cas_final$chnm == "Tris(1-Chloro-2-Propyl)Phosphate (Tcpp)"] <- "TCPP"
-  cas_final$chnm[cas_final$chnm == "Hexachlorobenzene (Hcb)"] <- "HCB"
+  cas_final$chnm[cas_final$chnm == "Hexachlorobenzene (Hcb)"] <- "Hexachlorobenzene"
   cas_final$chnm[cas_final$CAS == "77-93-0"] <- "Triethyl Citrate "
   cas_final$chnm[cas_final$CAS == "30306-93-5"] <- "Ethyl Citrate"
+  cas_final$chnm[cas_final$CAS == "101-20-2"] <- "3,4,4'-Trichlorocarbanilide"
+  cas_final$chnm[cas_final$CAS == "73590-58-6"] <- "Omeprazole + Esomprazole"
+  cas_final$chnm[grep("Cis-", cas_final$chnm)] <- gsub(pattern = "Cis-",
+                                                        replacement = "cis-",
+                                                        cas_final$chnm[grep("Cis-", cas_final$chnm)])
+  cas_final$chnm[grep("Trans-", cas_final$chnm)] <- gsub(pattern = "Trans-",
+                                                       replacement = "trans-",
+                                                       cas_final$chnm[grep("Trans-", cas_final$chnm)])
+  
   cas_final$chnm[grep("Pbde-", cas_final$chnm)] <- gsub(pattern = "Pbde-",
                                                         replacement = "PBDE-",
                                                         cas_final$chnm[grep("Pbde-", cas_final$chnm)])
@@ -187,9 +216,9 @@ clean_cas <- function(cas_df){
                                            stringsAsFactors = FALSE))
   cas_final$chnm[cas_final$CAS == "34911-55-2"] <- "Bupropion hydrochloride"
 
-  cas_final$chnm[grep(pattern = "Delta-Benzenehexachloride",cas_final$chnm)] <- "delta-Bhc"
-  cas_final$chnm[grep(pattern = "Beta-Benzenehexachloride",cas_final$chnm)] <- "beta-Bhc"
-  cas_final$chnm[grep(pattern = "Alpha-Benzenehexachloride", cas_final$chnm)] <- "alpha-Bhc"
+  cas_final$chnm[grep(pattern = "Delta-Benzenehexachloride",cas_final$chnm)] <- "Delta-Benzenehexachloride"
+  cas_final$chnm[grep(pattern = "Beta-Benzenehexachloride",cas_final$chnm)] <- "Beta-Benzenehexachloride"
+  cas_final$chnm[grep(pattern = "Alpha-Benzenehexachloride", cas_final$chnm)] <- "Alpha-Benzenehexachloride"
 
   return(cas_final)
 }
@@ -9,9 +9,9 @@ get_chem_info <- function(all_data, chem_info_old){
   chem_data <-  all_data %>%
     select(SiteID, Date=`Sample Date`, CAS, Value, comment)
 
-  chem_info <- select(all_data, CAS, generic_class) %>%
+  chem_info <- select(all_data, CAS, generic_class, chnm) %>%
     distinct() %>%
-    left_join(select(chem_info_old, CAS, Class, chnm), by="CAS") %>%
+    left_join(distinct(select(chem_info_old, CAS, Class)), by="CAS") %>%
     filter(!is.na(CAS)) %>%
     distinct(CAS, .keep_all = TRUE) 
 
 
@@ -53,12 +53,14 @@ get_sites_ready <- function(file_2014_download, file_2010_download, sites_OWC){
   sites_orig_2014$SiteID[sites_orig_2014$SiteID == "40851385"] <- "040851385"
 
   sites_orig <- bind_rows(sites_orig_2014, sites_OWC)
+
   sites_orig <- sites_orig[sites_orig$SiteID != "000-----",]
 
   sites_orig_2010 <- readxl::read_excel(file_2010_download,
                                 sheet = "site info",
                                 skip = 2) %>%
     select(SiteID = `USGS Station ID`) %>%
+    mutate(SiteID = dataRetrieval::zeroPad(SiteID, 8)) %>%
     filter(!(SiteID %in% sites_orig$SiteID),
            !is.na(SiteID))
 
@@ -81,15 +83,6 @@ get_sites_ready <- function(file_2014_download, file_2010_download, sites_OWC){
   sites_ordered <- sites_ordered %>%
     arrange(site_grouping, `Short Name`)
 
-  sites_ordered$map_nm <- substr(gsub("Lake ", "", sites_ordered$site_grouping),1,1)
-  
-  sites_ordered$map_nm <- paste0(sites_ordered$map_nm, 
-                                 c(1:sum(sites_ordered$map_nm == "S"),
-                                   1:sum(sites_ordered$map_nm == "M"),
-                                   1:sum(sites_ordered$map_nm == "H"),
-                                   1:sum(sites_ordered$map_nm == "E"),
-                                   1:sum(sites_ordered$map_nm == "O")))
-  
   return(sites_ordered)
 
 }
@@ -187,3 +187,104 @@ whole_stack <- function(chemicalSummary,
   return(list(chem_count=chem_count_graph,no_axis=no_axis_plot_back))
 }
 
+
+plot_tox_stacks_manuscript2 <- function(chemical_summary, 
+                                       chem_site,cbValues,
+                                       category = "Biological",
+                                       mean_logic = FALSE,
+                                       sum_logic = TRUE,
+                                       manual_remove = NULL,
+                                       include_legend = TRUE, 
+                                       font_size = NA,
+                                       title = NA){
+  
+  match.arg(category, c("Biological","Chemical Class","Chemical"))
+  
+  site <- EAR <- sumEAR <- meanEAR <- groupCol <- nonZero <- maxEAR <- ".dplyr"
+  SiteID <- site_grouping <- n <- index <- `Short Name` <- count <- x <- y <- label <- ".dplyr"
+  
+  if(!("site_grouping" %in% names(chem_site))){
+    chem_site$site_grouping <- ""
+  }
+  
+  if(category == "Chemical"){
+    graphData <- graph_chem_data(chemical_summary = chemical_summary,
+                                 manual_remove = manual_remove,
+                                 mean_logic = mean_logic,
+                                 sum_logic = sum_logic)   
+    names(graphData)[names(graphData) == "maxEAR"] <- "meanEAR"
+    names(graphData)[names(graphData) == "chnm"] <- "category"
+  } else {
+    graphData <- tox_boxplot_data(chemical_summary = chemical_summary,
+                                  category = category,
+                                  manual_remove = manual_remove,
+                                  mean_logic = mean_logic,
+                                  sum_logic = sum_logic) 
+    if(category == "Chemical"){
+      graphData$category <- graphData$chnm
+    } 
+  }
+  
+  graphData <- graphData %>%
+    dplyr::full_join(chem_site[, c("SiteID", "site_grouping", "Short Name")],
+                     by=c("site"="SiteID"))
+  
+  graphData$`Short Name` <- factor(graphData$`Short Name`, levels = rev(levels(graphData$`Short Name`)))
+  
+  if(is.na(title)){
+    graphData$count_title <- ""
+  } else {
+    graphData$count_title <- title
+  }
+  
+  counts_df <- chem_counts(chemical_summary, chem_site)
+  
+  counts_df <- counts_df %>% 
+    right_join(select(chem_site, `Short Name`, map_nm), by="Short Name")
+  
+  counts_df <- counts_df[!duplicated(counts_df$`Short Name`),]
+  
+  labels_df <- data.frame(y = c(-0.05,-0.01),
+                          x = c(Inf,Inf),
+                          label = c("Map Name","Chemicals"),
+                          site_grouping = c("Lake Superior","Lake Superior"))
+  
+  upperPlot <- ggplot() +
+    geom_col(data = graphData, 
+             aes(x=`Short Name`, y=meanEAR, fill = category))  +
+    theme_minimal() +
+    ylab("Sum of Maximum EAR Values") +
+    geom_text(data = counts_df, 
+              aes(x=`Short Name`, label = count, y=-0.01), 
+              hjust = 0.5, vjust = 0.35, size = font_size/2.5) +
+    geom_text(data = counts_df, 
+              aes(x=`Short Name`, label = map_nm, y=-0.05), 
+              hjust = 0.5, vjust = 0.35, size = font_size/2.5) +
+    geom_text(data = labels_df,
+              aes(y = y, x = x, label = label), 
+              vjust = -0.5, size = font_size/3) +
+    facet_grid(site_grouping ~ ., scales="free", space="free") +
+    coord_flip(clip = "off") + 
+    scale_y_continuous(breaks = scales::pretty_breaks(n = 2)) +
+    scale_fill_manual(name = category,
+                      values = cbValues, drop=TRUE) +
+    theme(strip.background = element_blank(),
+          strip.text.x = element_text(size = 5),
+          strip.text.y = element_text(size = font_size),
+          axis.title.y = element_blank(),
+          legend.position="bottom",
+          panel.grid.minor = element_blank(),
+          panel.grid.major = element_line(size = 0.1),
+          legend.justification = "left",
+          legend.background = element_rect(fill = "transparent", colour = "transparent"),
+          legend.title=element_blank(),
+          legend.text = element_text(size=5),
+          legend.key.height = unit(0.5,"line"),
+          legend.key.width = unit(0.5, "line"),
+          axis.text = element_text(size = font_size, vjust = 0.35),
+          axis.title =   element_text(size= font_size))
+  upperPlot
+  return(upperPlot)
+}
+
+
@@ -28,4 +28,7 @@ last_modified_exclude_id <- drive_get_datetime_modified(exclude_id)
 cas_change_id <- as_id("1NcsZ3sfB8SEGLO0dS3oCTRDPRUbHtWXJ")
 last_modified_cas_change_id <- drive_get_datetime_modified(cas_change_id)
 
+chem_name_id <- as_id("15Ph4jPBuLndJbUInLDu_FO8SrhnTpB0d7UDvOHouliY")
+last_modified_chem_name_id <- drive_get_datetime_modified(chem_name_id)
+
 
@@ -19,7 +19,7 @@ chemicalSummary_conc_no_match = chemicalSummary_conc %>%
 
 graphData_conc_no_match = graph_chem_data_CAS(chemicalSummary_conc_no_match) %>%
   mutate(guide_side = "Concentration [\U003BCg/L]") %>%
-  left_join(cas_final, by="CAS")
+  left_join(select(cas_final, CAS, chnm), by="CAS")
 
 full_classes <- c(levels(graphData_tox_det$Class),
                   levels(graphData_conc_no_match$Class)[!(levels(graphData_conc_no_match$Class) %in% levels(graphData_tox_det$Class))])
@@ -56,7 +56,7 @@ site_counts_df_no_match <- site_counts(tox_list$chem_data, no_axis_no_match$data
 site_graph_no_match <- site_count_plot(site_counts_df_no_match,
                                        axis_size = axis_num)
 
-pdf("plots/triple_graph_full_page.pdf", width = 9, height = 11, onefile=FALSE)
+pdf("plots/triple_graph_full_page_v3.pdf", width = 9, height = 11, onefile=FALSE)
 ggarrange(
 
   matches$site_graph,
@@ -79,7 +79,7 @@ library(cowplot)
 
 l2 <- get_legend(toxPlot_no_match)
 
-pdf("plots/triple_graph_cow.pdf", width = 9, height = 11, onefile=FALSE)
+pdf("plots/triple_graph_v3_new_names.pdf", width = 9, height = 11, onefile=FALSE)
 plot_grid(
   matches$site_graph,
   matches$no_axis,
@@ -94,7 +94,24 @@ plot_grid(
     nrow = 2, ncol = 1,
     rel_heights = c(n_chems_no_match,n_chems_matches-n_chems_no_match)
   ),
-  rel_widths = c(2,4,4),
+  rel_widths = c(2.5,4,4),
   nrow=1,ncol=3
 )
 dev.off()
+
+loadd(chemicalSummary)
+
+pdf("plots/top_eps.pdf")
+for(i in rev(levels(chemicalSummary$chnm))[1:10]){
+  # add threshold!!!
+  ep_plot <- plot_tox_endpoints(chemicalSummary, 
+                                category = 'Chemical',
+                                mean_logic = FALSE,
+                                hit_threshold = NA,
+                                title = i,
+                                top_num = 10,
+                                filterBy = i)  
+  print(ep_plot)
+
+}
+dev.off()
@@ -185,3 +185,5 @@ plot_DL <- plot_chemical_boxplots_mod(cs_det_level,
 ggsave(plot_DL, filename = "plots/detection_level_EARs.pdf", 
        width = 9, height = 11)
 
+graphDataDL <- graph_chem_data(cs_det_level) %>% 
+  arrange(desc(meanEAR))