network study code

vojtechhuser · vojtechhuser · commit 1bd330bd6210 · 2020-02-11T09:52:43.000-05:00
diff --git a/.Rhistory b/.Rhistory
@@ -1,137 +1,3 @@
-return(result)
-}
-#' more details
-#' @export
-.createConnectionDetails2<-function (cdmDatabaseSchema) {
-result <- list()
-for (name in names(formals(createConnectionDetails))) {
-result[[name]] <- get(name)
-}
-values <- lapply(as.list(match.call())[-1], function(x) eval(x,
-envir = sys.frame(-3)))
-for (name in names(values)) {
-if (name %in% names(result))
-result[[name]] <- values[[name]]
-}
-class(result) <- "connectionDetails2"
-return(result)
-}
-cd2<-.createConnectionDetails2(cdmDatabaseSchema = cdmDatabaseSchema)
-#' more details
-#' @export
-.createConnectionDetails2<-function (cdmDatabaseSchema) {
-result <- list()
-for (name in names(formals(createConnectionDetails2))) {
-result[[name]] <- get(name)
-}
-values <- lapply(as.list(match.call())[-1], function(x) eval(x,
-envir = sys.frame(-3)))
-for (name in names(values)) {
-if (name %in% names(result))
-result[[name]] <- values[[name]]
-}
-class(result) <- "connectionDetails2"
-return(result)
-}
-cd2<-.createConnectionDetails2(cdmDatabaseSchema = cdmDatabaseSchema)
-#' more details
-#' @export
-.createConnectionDetails2<-function (cdmDatabaseSchema) {
-result <- list()
-for (name in names(formals(.createConnectionDetails2))) {
-result[[name]] <- get(name)
-}
-values <- lapply(as.list(match.call())[-1], function(x) eval(x,
-envir = sys.frame(-3)))
-for (name in names(values)) {
-if (name %in% names(result))
-result[[name]] <- values[[name]]
-}
-class(result) <- "connectionDetails2"
-return(result)
-}
-cd2<-.createConnectionDetails2(cdmDatabaseSchema = cdmDatabaseSchema)
-cd2
-#' more details
-#' @export
-.createConnectionDetails2<-function (cdmDatabaseSchema,resultsDatabaseSchema=NULL,cdmVersion=NULL,cohortTable='cohort') {
-result <- list()
-for (name in names(formals(.createConnectionDetails2))) {
-result[[name]] <- get(name)
-}
-values <- lapply(as.list(match.call())[-1], function(x) eval(x,
-envir = sys.frame(-3)))
-for (name in names(values)) {
-if (name %in% names(result))
-result[[name]] <- values[[name]]
-}
-class(result) <- "connectionDetails2"
-return(result)
-}
-connectionDetails2<-.createConnectionDetails2(cdmDatabaseSchema = cdmDatabaseSchema,resultsDatabaseSchema = resultsDatabaseSchema)
-connectionDetails<-Eunomia::getEunomiaConnectionDetails()
-connectionDetails2<-.createConnectionDetails2(cdmDatabaseSchema = cdmDatabaseSchema,resultsDatabaseSchema = resultsDatabaseSchema)
-#' more details
-#' @export
-.createConnectionDetails2<-function (cdmDatabaseSchema,resultsDatabaseSchema=NULL,cdmVersion=NULL
-,cohortTable='cohort'
-,workFolder='c:/temp') {
-result <- list()
-for (name in names(formals(.createConnectionDetails2))) {
-result[[name]] <- get(name)
-}
-values <- lapply(as.list(match.call())[-1], function(x) eval(x,
-envir = sys.frame(-3)))
-for (name in names(values)) {
-if (name %in% names(result))
-result[[name]] <- values[[name]]
-}
-class(result) <- "connectionDetails2"
-return(result)
-}
-library(DataQuality)
-library(Eunomia)
-connectionDetails<-Eunomia::getEunomiaConnectionDetails()
-cdmDatabaseSchema <-'main'
-resultsDatabaseSchema <-'main' #at most sites this likely will not be the same as cdmDatabaseSchema
-workFolder <- 'c:/temp/dqd'   #this folder must exist (use forward slashes)
-connectionDetails2<-.createConnectionDetails2(cdmDatabaseSchema = cdmDatabaseSchema
-,resultsDatabaseSchema = resultsDatabaseSchema)
-DataQuality::dashboardLabThresholds(connectionDetails = connectionDetails
-,connectionDetails2 = connectionDetails2)
-Achilles::achilles(connectionDetails = connectionDetails
-,cdmDatabaseSchema = connectionDetails2$cdmDatabaseSchema
-,resultsDatabaseSchema = connectionDetails2$resultsDatabaseSchema
-,analysisIds = c(1807))
-Achilles::achilles(connectionDetails = connectionDetails
-,cdmDatabaseSchema = connectionDetails2$cdmDatabaseSchema
-,resultsDatabaseSchema = connectionDetails2$resultsDatabaseSchema
-,analysisIds = c(1807)
-,runHeel = FALSE
-,createIndices = FALSE)
-units<-Achilles::fetchAchillesAnalysisResults(connectionDetails = connectionDetails,resultsDatabaseSchema = connectionDetails2$resultsDatabaseSchema
-,analysisId = 1807)
-units
-#tbd
-library(devtools)
-devtools::use_package('dplyr')
-#tbd
-library(devtools)
-devtools::use_package('dplyr')
-use_package('dplyr')
-names(units)
-names(units)
-units
-,analysisId = 1807)$analysisResults
-,analysisId = 1807)$analysisResults
-units<-units$analysisResults
-names(units)
-units2<-units$analysisResults
-units2<-units$analysisResults
-names(units2)
-names(units2) <- tolower(names(units2))
-units2<-units$analysisResults
-names(units2) <- tolower(names(units2))
 names(units2)
 units2<-units$analysisResults
 names(units2) <- tolower(names(units2))
@@ -510,3 +376,137 @@ d4 %>% write_csv('extras/DqdResults/thresholds-list-A.csv')
 d4<-d3 %>% select(-count_value,-median_value,-stdev_value,-avg_value,-site)
 d4 %>% write_csv('extras/DqdResults/thresholds-list-A.csv')
 nrow(d4)
+#read DD checks
+url='https://raw.githubusercontent.com/OHDSI/DataQualityDashboard/master/inst/csv/OMOP_CDMv5.3.1_Concept_Level.csv'
+dqd<-read_csv(url)
+#read DD checks
+library(tidyverse)
+#read DD checks
+library(stats);library(tidyverse);library(magrittr)
+message("\n*** Successfully loaded .Rprofile ***\n")
+url='https://raw.githubusercontent.com/OHDSI/DataQualityDashboard/master/inst/csv/OMOP_CDMv5.3.1_Concept_Level.csv'
+dqd<-read_csv(url)
+str(dqd)
+View(dqd)
+View(dqd)
+str(dqd)
+names(dqd)
+dqd %>% filter(cdmTableName=='MEASUREMENT')
+names(dqd)
+dqd %>% filter(cdmTableName=='MEASUREMENT' & cmdFieldName=='MEASUREMENT_CONCEPT_ID' )
+names(dqd)
+dqd %>% filter(cdmTableName=='MEASUREMENT' & cmdFieldName=='MEASUREMENT_CONCEPT_ID' )
+dqd %>% filter(cdmTableName=='MEASUREMENT' && cmdFieldName=='MEASUREMENT_CONCEPT_ID' )
+names(dqd)
+dqd %>% filter(cdmTableName=='MEASUREMENT' & cmdFieldName=='MEASUREMENT_CONCEPT_ID' )
+dqd %>% dplyr::filter(cdmTableName=='MEASUREMENT' & cmdFieldName=='MEASUREMENT_CONCEPT_ID' )
+dqd %>% dplyr::filter(cdmFieldName=='MEASUREMENT_CONCEPT_ID' )
+dqd %>% dplyr::filter(cdmFieldName=='MEASUREMENT_CONCEPT_ID' ) %>% nrow()
+dqd %>% count(cdmTableName)
+dqd %>% count(cdmTableName,cdmFieldName)
+#reading a single site data (for now)
+f<-'d:/OneDrive - National Institutes of Health/temp/dqd/export/'
+sfiles<-c(file.path(f,'1ThresholdsA.csv'))
+ll<-map(sfiles,read_csv)
+#reading a single site data (for now)
+f<-'d:/OneDrive - National Institutes of Health/temp/dqd/export'
+sfiles<-c(file.path(f,'1ThresholdsA.csv'))
+ll<-map(sfiles,read_csv)
+sfiles<-c(file.path(f,'1ThresholdsA.csv'))
+ll<-map(sfiles,read_csv)
+ll
+sfiles<-c(file.path(f,'1ThresholdsA.csv'),file.path(f,'ThresholdsA.csv'))
+ll<-map(sfiles,read_csv)
+ll
+#ll<-map(p$pid,doProperty())
+ll2<-map2(ll,sfiles,~mutate(.x,site=.y))
+d<-bind_rows(ll2)
+#compare data driven and expert drive sets
+d
+#compare data driven and expert drive sets
+d$STRATUM_1 %<>% as.integer()
+dqd$unitConceptId
+dqd$unitConceptId %<>% as.integer()
+expert <-dqd %>% dplyr::filter(cdmFieldName=='MEASUREMENT_CONCEPT_ID' )
+expert
+names(expert)
+ddriven<-d %>% rename(unitConceptId=STRATUM_2)
+exprt %>% inner_join(ddriven)
+expert %>% inner_join(ddriven)
+names(expert)
+ddriven<-d %>% rename(conceptId=STRATUM_1,unitConceptId=STRATUM_2)
+ddriven<-d %>% rename(conceptId=STRATUM_1,unitConceptId=STRATUM_2)  %>% select(conceptId,unitConceptId) %>% distint()
+expert %>% inner_join(ddriven)
+expert %>% anti_join(ddriven)
+expert %>% inner_join(ddriven)
+over=expert %>% inner_join(ddriven) #58 overlapping
+View(over)
+over=expert %>% inner_join(ddriven) #58 overlapping
+ddriven<-d %>% rename(conceptId=STRATUM_1,unitConceptId=STRATUM_2)  %>% select(conceptId,unitConceptId) %>% unique()
+over=expert %>% inner_join(ddriven) #58 overlapping
+View(over)
+sfiles<-c(file.path(f,'1ThresholdsA.csv'))
+ll<-map(sfiles,read_csv)
+ll
+#ll<-map(p$pid,doProperty())
+ll2<-map2(ll,sfiles,~mutate(.x,site=.y))
+d<-bind_rows(ll2)
+#compare data driven and expert drive sets
+d$STRATUM_1 %<>% as.integer()
+dqd$unitConceptId %<>% as.integer()
+expert <-dqd %>% dplyr::filter(cdmFieldName=='MEASUREMENT_CONCEPT_ID' )
+names(expert)
+ddriven<-d %>% rename(conceptId=STRATUM_1,unitConceptId=STRATUM_2)
+over=expert %>% inner_join(ddriven) #58 overlapping
+View(over)
+ddriven %>% anti_join(expert) #827 not in data
+not1<-ddriven %>% anti_join(expert) #49 not in expert
+View(not1)
+#remove no units rows and expand the CIDs
+d2<-d %>% filter(stratum_1 != 0) %>% filter(stratum_2 != 0) %>% left_join(sconcept,by=c('stratum_1'='concept_id')) %>%
+left_join(sconcept,by=c('stratum_2'='concept_id'))
+d<-bind_rows(ll2)
+#add terminology concepts
+sconcept<-concept %>% select(concept_id,concept_name)
+load('o:/athena/concept.rda')
+#add terminology concepts
+sconcept<-concept %>% select(concept_id,concept_name)
+names(d) <- tolower(names(d))
+names(d)
+#remove no units rows and expand the CIDs
+d2<-d %>% filter(stratum_1 != 0) %>% filter(stratum_2 != 0) %>% left_join(sconcept,by=c('stratum_1'='concept_id')) %>%
+left_join(sconcept,by=c('stratum_2'='concept_id'))
+names(d2)
+names(d2)
+ddriven %<>% filter(conceptId!=0)
+ddriven %<>% filter(unitConceptId!=0)
+ddriven<-d %>% rename(conceptId=STRATUM_1,unitConceptId=STRATUM_2)
+sfiles<-c(file.path(f,'1ThresholdsA.csv'))
+ll<-map(sfiles,read_csv)
+ll
+#ll<-map(p$pid,doProperty())
+ll2<-map2(ll,sfiles,~mutate(.x,site=.y))
+d<-bind_rows(ll2)
+names(d) <- tolower(names(d))
+#remove no units rows and expand the CIDs
+d2<-d %>% filter(stratum_1 != 0) %>% filter(stratum_2 != 0) %>% left_join(sconcept,by=c('stratum_1'='concept_id')) %>%
+left_join(sconcept,by=c('stratum_2'='concept_id'))
+names(d2)
+ddriven<-d2 %>% rename(conceptId=stratum_1,unitConceptId=stratum_2)
+not1<-ddriven %>% anti_join(expert) #49 not in expert
+View(not1)
+over=expert %>% inner_join(ddriven) #58 overlapping
+View(over)
+#compare the trehsholds
+names(over)
+over %>% select(conceptName,plausibleValueLow,min_value)
+over %>% select(conceptName,plausibleValueHigh,max_value)
+over %>% select(conceptName,unitConceptName,plausibleValueLow,min_value)
+over %>% select(conceptName,unitConceptName,plausibleValueLow,min_value)
+over %>% select(conceptName,unitConceptName,plausibleValueHigh,max_value)
+over %>% select(conceptName,unitConceptName,plausibleValueHigh,max_value) %>% kable()
+over %>% select(conceptName,unitConceptName,plausibleValueHigh,max_value) %>% knittr::kable()
+over %>% select(conceptName,unitConceptName,plausibleValueHigh,max_value) %>% knitr::kable()
+View(expert)
+View(over)
+View(over)
diff --git a/extras/CentralProcessing.R b/extras/CentralProcessing.R
@@ -45,7 +45,10 @@ load('o:/athena/concept.rda')
 #lkup<-concept %>% filter(vocabulary_id %in% c('CPT4','ICD9Proc','CDT','HCPCS','ICD9CM','ICD10CM','ICD10PCS'))
 
 #reading a single site data (for now) 
-sfiles<-c('c:/temp/dqd/export/1ThresholdsA.csv','c:/temp/dqd/ThresholdsA.csv')
+f<-'d:/OneDrive - National Institutes of Health/temp/dqd/export'
+
+sfiles<-c(file.path(f,'1ThresholdsA.csv'))
+sfiles<-c(file.path(f,'1ThresholdsA.csv'),file.path(f,'ThresholdsA.csv'))
 ll<-map(sfiles,read_csv)
 ll
 
@@ -61,6 +64,7 @@ names(d)
 d2<-d %>% filter(stratum_1 != 0) %>% filter(stratum_2 != 0) %>% left_join(sconcept,by=c('stratum_1'='concept_id')) %>%
   left_join(sconcept,by=c('stratum_2'='concept_id')) 
 names(d2)
+
 #remove columns that are not needed
 d3<-d2 %>% select(-stratum_3,-stratum_4,-stratum_5,-p25_value,-p75_value) %>% 
   filter(count_value >=100 ) %>% arrange(stratum_1,desc(count_value) )
@@ -89,3 +93,52 @@ d4<-d3 %>% select(-count_value,-median_value,-stdev_value,-avg_value,-site)
 
 d4 %>% write_csv('extras/DqdResults/thresholds-list-A.csv')
 nrow(d4)
+
+
+#read DD checks
+library(stats);library(tidyverse);library(magrittr)
+#message("\n*** Successfully loaded .Rprofile ***\n")
+
+
+url='https://raw.githubusercontent.com/OHDSI/DataQualityDashboard/master/inst/csv/OMOP_CDMv5.3.1_Concept_Level.csv'
+dqd<-read_csv(url)
+str(dqd)
+names(dqd)
+dqd %>% dplyr::filter(cdmTableName=='MEASUREMENT' & cmdFieldName=='MEASUREMENT_CONCEPT_ID' ) 
+dqd %>% dplyr::filter(cdmFieldName=='MEASUREMENT_CONCEPT_ID' ) %>% nrow()
+dqd %>% count(cdmTableName,cdmFieldName)
+
+
+#compare data driven and expert drive sets
+d$STRATUM_1 %<>% as.integer()
+dqd$unitConceptId %<>% as.integer()
+expert <-dqd %>% dplyr::filter(cdmFieldName=='MEASUREMENT_CONCEPT_ID' )
+names(expert)
+ddriven<-d %>% rename(conceptId=STRATUM_1,unitConceptId=STRATUM_2)  %>% select(conceptId,unitConceptId) %>% unique()
+
+names(d2)
+ddriven<-d %>% rename(conceptId=STRATUM_1,unitConceptId=STRATUM_2) 
+ddriven<-d2 %>% rename(conceptId=stratum_1,unitConceptId=stratum_2) 
+#ddriven %<>% filter(conceptId!=0)
+#ddriven %<>% filter(unitConceptId!=0)
+
+over=expert %>% inner_join(ddriven) #58 overlapping
+View(over)
+expert %>% anti_join(ddriven) #827 are in expert but not in data
+
+not1<-ddriven %>% anti_join(expert) #14 are in data and not in expert
+
+
+#compare the trehsholds
+names(over)
+over %>% select(conceptName,unitConceptName,plausibleValueLow,min_value)
+over %>% select(conceptName,unitConceptName,plausibleValueHigh,max_value) 
+#%>% knitr::kable()
+
+
+#expert thresholds don't follow unit conversion logic (max and min is same even if units indicate order of magniture difference)
+#MEASUREMENT	MEASUREMENT_CONCEPT_ID	3013721	Aspartate aminotransferase [Enzymatic activity/volume] in Serum or Plasma	8713	gram per deciliter	5	5	2000	5	NA	NA	NA	NA	NA	NA	NA	NA
+#MEASUREMENT	MEASUREMENT_CONCEPT_ID	3013721	Aspartate aminotransferase [Enzymatic activity/volume] in Serum or Plasma	8840	milligram per deciliter	5	5	2000
+
+#5g/dL into  mg/dL  (is 5000 mg/dL)
+#in data is in fact unit/L