Error: C stack usage is too close to the limit——R语言

Error: C stack usage is too close to the limit——R语言

跑孟德尔随机化,第一次出现栈溢出是处理UKBB数据,5+G的数据,溢出了可以理解,这次才读入700M的暴露,就出现报错

Error: C stack usage is too close to the limit

这必须是哪里了问题。脚本之前用来读1+G的暴露都没有压力的。

网上原文教程:

帖子1:C Stack Usage is close to the limit and how to solve it
帖子2:Error: C stack usage is too close to the limit
帖子3:Error: C stack usage is too close to the limit at R startup——2022-3-28

翻译过来,出现这样的问题有以下已知的几种可能,以及其他无限可能


1.代码问题:递归函数太深,这意味着超过算力

刚学编程的时候,老师说写个死循环,在临终的时候,问还有什么遗愿:我在服务器上的循环还没有执行完,还不能死。。。

例1:将一个巨大的数据表与另一个不存在的数据表合并

dt <- merge(dt, another_dt, by = 'ID', all.x = TRUE)

如果确实需要递归,可以在每个递归调用的函数中用“终止器”。终止器的作用是有条件地停止进一步地递归调用,最好地方法是计算在递归中地深度,一旦达到给定极限(在系统发生错误之前)就终止它。

需要注意一些不太明显的递归情况:

library(debug)
mtrace(lapply)

例2: 创建一个超长的字符串。应该使用col参数,而不是sep参数。(来源:Stackoverflow 14719349)

output_table_subset = mutate(big_data_frame,
     combined_table = paste0(first_part, second_part, col = "_"))

如果这么写就不会出现这样地问题

output_table_subset = mutate(big_data_frame,
     combined_table = paste0(first_part, second_part, sep = "_"))

例3: 两个函数无限期地相互调用。(来源:Stackoverflow 14719349)
换句话说就是:“你提醒我提醒你”
脚本1里有调用脚本2的命令,一旦执行,就会从脚本1执行脚本2,脚本2里又有执行脚本1的命令。于是又去执行脚本1→执行脚本2→执行脚本1→执行脚本2→执行脚本1。。。

change_to_factor <- function(x){
  x <- change_to_character(x)
  as.factor(x)
} 

change_to_character <- function(x){
  x <- change_to_factor(x)
  as.character(x)
}

change_to_character("1")

换句话说,检查是否有东西在无限期地运行。如果不是这样的话,可能是一个包的错误。例如,已知Google Sheets包在某些包的版本中会抛出这种错误。

例4:反复多次执行一个脚本。这种情况可能会发生在粘贴复制代码,不小心把source(“path/file/balabala.R”)这样的代码粘过来了。解决办法:删掉或注释掉,纯纯的物理阉割。

例5:使用函数 leaflet() 做映射时类别出错,该大佬试图映射一个数据框架,其中的日期列是POSIXlt类的。改回POSIXct解决了这个问题。另一位大佬的经验:如果你使用 plot_ly,请检查你传递的是哪些列。似乎对于 POSIXdt/ct 列,你必须在传递给 plotly 之前使用 as.character() ,否则你会得到这个异常!

例6:Caret包有一个名为createDataPartition的函数,当要分区的数据集超过100万行时,该函数总是出错。仅供您参考。


2.配置问题

堆栈大小是一个操作系统参数,可按进程调整。据我所知,你不能从R内部调整它,但你可以在启动R之前从shell中用ulimit命令调整它。也就是说进terminal去修改。同样地,修改完毕后需要重启电脑或R。

它的工作原理是这样的:

查看默认的ulimit -s值

$ ulimit -s # print default
8192
$ R --slave -e ‘Cstack_info()[“size”]’
size
8388608

8388608 = 1024 * 8192,单位是字节,而不是千字节

将堆栈限制扩大到16兆字节

$ ulimit -s 16384 # enlarge stack limit to 16 megs
$ R --slave -e ‘Cstack_info()[“size”]’
size
16777216


3.程序问题

有的是通过安装新版本R来解决问题的,出现这个报错的人比较少。建议谨慎选择。因为一旦重装,有的安装包也得重装,而且有的包特别难装。所以在做这个决定之前,可以先测试一下本地的Rstudio以及终端R能不能正常运行脚本。如果他们可以,证明R是没有问题的,Ubuntu和脚本也没有问题。问题仅仅在于Rstudio server。

例1,大佬有一个定义的函数,是基础函数的升级版:

saveRDS()
但是,不小心,这个定义的函数被称为saveRDS()而不是safe_saveRDS()。
因此,过了这个定义,当代码到了实际使用saveRDS(…)的那一行(调用原始的基础版本,而不是升级后的版本),它就出现了上述错误并崩溃了。
所以,如果你在调用一些保存函数时得到了这个错误,看看你是不是不小心碰到了它。

例2:你的 .Rprofile 文件由于某种原因正在递归地加载自己:

来源于帖子3,很有营养!

不过请注意,这个帖子解决的是desktop版本,以下是使用Mac的大佬讨论的内容。
这种情况长这样:
报错:

Error: C stack usage  7953936 is too close to the limit

按网上教程在终端修改 ulimit 命令,仍出现报错:

Isabels-MacBook-Pro ~ % ulimit -s
8176

Isabels-MacBook-Pro ~ % R --slave -e 'Cstack_info()["size"]'
Error: C stack usage  7954496 is too close to the limit
Execution halted

检查 ulimit

Isabels-MacBook-Pro ~ % ulimit
unlimited

将 ulimit 设置为无限,然后报错:

Isabels-MacBook-Pro ~ % ulimit -s unlimited
Isabels-MacBook-Pro ~ % R --slave -e 'Cstack_info()["size"]'
Error: evaluation nested too deeply: infinite recursion / options(expressions=)?
Execution halted

似乎,Cstack_info() 卡在了无限递归的那部分。
于是,这位大佬查看了自己的 session info

R version 4.1.3 (2022-03-10)
Platform: x86_64-apple-darwin17.0 (64-bit)
Running under: macOS Monterey 12.2.1

以及
contents of .Rprofile

# REMEMBER to restart R after you modify and save this file!

# First, execute the global .Rprofile if it exists. You may configure blogdown
# options there, too, so they apply to any blogdown projects. Feel free to
# ignore this part if it sounds too complicated to you.
if (file.exists("~/.Rprofile")) {
  base::sys.source("~/.Rprofile", envir = environment())
}

# Now set options to customize the behavior of blogdown for this project. Below
# are a few sample options; for more options, see
# https://bookdown.org/yihui/blogdown/global-options.html
options(
  # to automatically serve the site on RStudio startup, set this option to TRUE
  blogdown.serve_site.startup = FALSE,
  # to disable knitting Rmd files on save, set this option to FALSE
  blogdown.knit.on_save = TRUE,
  # build .Rmd to .html (via Pandoc); to build to Markdown, set this option to 'm$
  blogdown.method = 'html'
)

# fix Hugo version
options(blogdown.hugo.version = "0.82.0")

下面是来自/Library/Frameworks/R.framework/Resources/library/base/R/Profile的内容

### This is the system Rprofile file. It is always run on startup.
### Additional commands can be placed in site or user Rprofile files
### (see ?Rprofile).

### Copyright (C) 1995-2020 The R Core Team

### Notice that it is a bad idea to use this file as a template for
### personal startup files, since things will be executed twice and in
### the wrong environment (user profiles are run in .GlobalEnv).

.GlobalEnv <- globalenv()
attach(NULL, name = "Autoloads")
.AutoloadEnv <- as.environment(2)
assign(".Autoloaded", NULL, envir = .AutoloadEnv)
T <- TRUE
F <- FALSE
R.version <- structure(R.Version(), class = "simple.list")
version <- R.version            # for S compatibility

## for backwards compatibility only
R.version.string <- R.version$version.string

## NOTA BENE: options() for non-base package functionality are in places like
##            --------- ../utils/R/zzz.R

options(keep.source = interactive())
options(warn = 0)
# options(repos = c(CRAN="@CRAN@"))
# options(BIOC = "http://www.bioconductor.org")

## setting from an env variable added in 4.0.2
local({to <- as.integer(Sys.getenv("R_DEFAULT_INTERNET_TIMEOUT", 60))
    if (is.na(to) || to <= 0) to <- 60L
    options(timeout = to)
})
options(encoding = "native.enc")
options(show.error.messages = TRUE)
## keep in sync with PrintDefaults() in  ../../main/print.c :
options(show.error.messages = TRUE)
## keep in sync with PrintDefaults() in  ../../main/print.c :
options(scipen = 0)
options(max.print = 99999)# max. #{entries} in internal printMatrix()
options(add.smooth = TRUE)# currently only used in 'plot.lm'

if(isFALSE(as.logical(Sys.getenv("_R_OPTIONS_STRINGS_AS_FACTORS_",
                                 "FALSE")))) {
    options(stringsAsFactors = FALSE)
} else {
    options(stringsAsFactors = TRUE)
}

if(!interactive() && is.null(getOption("showErrorCalls")))
    options(showErrorCalls = TRUE)

local({dp <- Sys.getenv("R_DEFAULT_PACKAGES")
       if(identical(dp, "")) ## it fact methods is done first
           dp <- c("datasets", "utils", "grDevices", "graphics",
                   "stats", "methods")
       else if(identical(dp, "NULL")) dp <- character(0)
       else dp <- strsplit(dp, ",")[[1]]
       dp <- sub("[[:blank:]]*([[:alnum:]]+)", "\1", dp) # strip whitespace
       options(defaultPackages = dp)
    })

## Expand R_LIBS_* environment variables.
Sys.setenv(R_LIBS_SITE =
           .expand_R_libs_env_var(Sys.getenv("R_LIBS_SITE")))
Sys.setenv(R_LIBS_USER =
           .expand_R_libs_env_var(Sys.getenv("R_LIBS_USER")))

local({
    if(nzchar(tl <- Sys.getenv("R_SESSION_TIME_LIMIT_CPU")))
        setSessionTimeLimit(cpu = tl)
    if(nzchar(tl <- Sys.getenv("R_SESSION_TIME_LIMIT_ELAPSED")))
        setSessionTimeLimit(elapsed = tl)
})

        setSessionTimeLimit(elapsed = tl)
})

.First.sys <- function()
{
    for(pkg in getOption("defaultPackages")) {
        res <- require(pkg, quietly = TRUE, warn.conflicts = FALSE,
                       character.only = TRUE)
        if(!res)
            warning(gettextf('package %s in options("defaultPackages") was not found', sQuote(pkg)$
                    call. = FALSE, domain = NA)
    }
}

## called at C level in the startup process prior to .First.sys
.OptRequireMethods <- function()
{
    pkg <- "methods" # done this way to avoid R CMD check warning
    if(pkg %in% getOption("defaultPackages"))
        if(!require(pkg, quietly = TRUE, warn.conflicts = FALSE,
                    character.only = TRUE))
            warning('package "methods" in options("defaultPackages") was not found',
                    call. = FALSE)
}

if(nzchar(Sys.getenv("R_BATCH"))) {
    .Last.sys <- function()
    {
        cat("> proc.time()n")
        print(proc.time())
    }
    ## avoid passing on to spawned R processes
    ## A system has been reported without Sys.unsetenv, so try this
    try(Sys.setenv(R_BATCH=""))
}

local({
    if(nzchar(rv <- Sys.getenv("_R_RNG_VERSION_")))

local({
    if(nzchar(rv <- Sys.getenv("_R_RNG_VERSION_")))
        suppressWarnings(RNGversion(rv))
})

.sys.timezone <- NA_character_
.First <- NULL
.Last <- NULL
###-*- R -*- Unix Specific ----

.Library <- file.path(R.home(), "library")
.Library.site <- Sys.getenv("R_LIBS_SITE")
.Library.site <- if(!nzchar(.Library.site)) file.path(R.home(), "site-library") else unlist(strspl$
.Library.site <- .Library.site[file.exists(.Library.site)]

invisible(.libPaths(c(unlist(strsplit(Sys.getenv("R_LIBS"), ":")),
                      unlist(strsplit(Sys.getenv("R_LIBS_USER"), ":")
                      ))))
local({
    popath <- Sys.getenv("R_TRANSLATIONS", "")
    if(!nzchar(popath)) {
        paths <- file.path(.libPaths(), "translations", "DESCRIPTION")
        popath <- dirname(paths[file.exists(paths)][1])
    }
    bindtextdomain("R", popath)
    bindtextdomain("R-base", popath)
    assign(".popath", popath, .BaseNamespaceEnv)
})
local({
## we distinguish between R_PAPERSIZE as set by the user and by configure
papersize <- Sys.getenv("R_PAPERSIZE_USER")
if(!nchar(papersize)) {
    lcpaper <- Sys.getlocale("LC_PAPER") # might be null: OK as nchar is 0
    papersize <- if(nchar(lcpaper))
        if(length(grep("(_US|_CA)", lcpaper))) "letter" else "a4"
    else Sys.getenv("R_PAPERSIZE")
}
options(papersize = papersize,

}
options(papersize = papersize,
        printcmd = Sys.getenv("R_PRINTCMD"),
        dvipscmd = Sys.getenv("DVIPS", "dvips"),
        texi2dvi = Sys.getenv("R_TEXI2DVICMD"),
        browser = Sys.getenv("R_BROWSER"),
        pager = file.path(R.home(), "bin", "pager"),
        pdfviewer = Sys.getenv("R_PDFVIEWER"),
        useFancyQuotes = TRUE)
})

## non standard settings for the R.app GUI of the macOS port
if(.Platform$GUI == "AQUA") {
    ## this is set to let RAqua use both X11 device and X11/TclTk
    if (Sys.getenv("DISPLAY") == "")
        Sys.setenv("DISPLAY" = ":0")

    ## this is to allow gfortran compiler to work
    Sys.setenv("PATH" = paste(Sys.getenv("PATH"),":/usr/local/bin",sep = ""))
}## end "Aqua"

## de-dupe the environment on macOS (bug in Yosemite which affects things like PATH)
if (grepl("^darwin", R.version$os)) local({
    ## we have to de-dupe one at a time and re-check since the bug affects how
    ## environment modifications propagate
    while(length(dupes <- names(Sys.getenv())[table(names(Sys.getenv())) > 1])) {
        env <- dupes[1]
        value <- Sys.getenv(env)
        Sys.unsetenv(env)             ## removes the dupes, good
        .Internal(Sys.setenv(env, value)) ## wrapper requries named vector, a pain, hence internal
    }
})

local({
    tests_startup <- Sys.getenv("R_TESTS")
    if(nzchar(tests_startup)) source(tests_startup)
})

进一步的排查方向:

~/.Rprofile 有一些乱七八糟的代码。可以用R–vanilla启动R
如果R–vanilla可以工作,而且~/.Rprofile 看起来很好,也可以检查 /lib/R/etc/ 是否有符号链接,例如到存储用户设置的 /etc/R/。在重新安装R之前,试着删除或重命名/etc/R/目录,因为这些文件不会被覆盖

上述大佬提供的 ~/.Rprofile 某种原因正在递归地加载自己:

if (file.exists("~/.Rprofile")) {
  base::sys.source("~/.Rprofile", envir = environment())
}

从上述讨论来看,这些行在 ~/.Rprofile 里面(~ 扩展到用户的主目录)。

删除这些行(或注释它们),它们不属于这里。事实上,这个文件看起来是一个针对项目的.Rprofile配置的模板。它在项目目录中是有意义的,但不是作为整个配置文件的用户.Rprofile。

这些文件的逻辑如下:

如果在当前目录下有一个.Rprofile文件,R会尝试加载它。
否则,如果环境变量R_PROFILE_USER被设置为一个文件的路径,R会尝试加载这个文件。
否则,如果文件~/.Rprofile存在,R会尝试加载该文件。

现在,这意味着如果存在一个项目专用的(=在当前工作目录下).Rprofile,那么~/.Rprofile 不会被自动加载。这很不幸,因此许多项目在其项目专用的 .Rprofile 文件中添加了与上述类似的行,以使用户范围的 ~/.Rprofile 也被加载。然而,上述实现忽略了 R_PROFILE_USER 环境变量。

因此,一个更好的实现方式是如下:

rprofile = Sys.getenv('R_PROFILE_USER', '~/.Rprofile')
if (file.exists(rprofile)) {
  base::sys.source(rprofile, envir = environment())
}
rm(rprofile)

修改并保存这个文件后,请记得重启R!

最终大佬通过删除 /Library/Frameworks/R.framework/Resources/library/base/Rprofile并重新安装R和Rstudio 解决问题


另外就是有教程虽然不是一模一样的情况,但是可以借鉴。

ulimit调优|设置普通用户的ulimit值用root用户去修改普通用户的硬配置。

还是不能解决,也有可能是Rstudio server自己的问题了。只能等他修复这个问题。在这期间,可以有别的替代方法。比如,换一个读数据方式、换用本地Rstudio或者R,或者把Rstudio server安装到root用户下。

哎。。。好累