Linux下lsof命令详解

lsof命令的基本使用方法

lsof命令简介:

lsof(list open files)是一个列出当前系统打开文件的工具,lsof 意义LiSt Open Files用于找出哪些文件被哪个进程打开。众所周知Linux/Unix将所有内容都视为文件(pipes,sockets,directories,devices等等)。使用的原因之一lsof命令是当磁盘无法卸载时,因为它表示正在使用文件。借助此命令,我们可以轻松识别正在使用的文件。

lsof命令的使用

1.使用lsof命令可以查看全部文件(此处取前五行)
[root@web2 ~]# lsof | head -5
COMMAND      PID  TID    USER   FD      TYPE             DEVICE  SIZE/OFF       NODE NAME
systemd        1         root  cwd       DIR              253,0       247         64 /
systemd        1         root  rtd       DIR              253,0       247         64 /
systemd        1         root  txt       REG              253,0   1632776     353452 /usr/lib/systemd/systemd
systemd        1         root  mem       REG              253,0     20064     116104 /usr/lib64/libuuid.so.1.3.0
2.输出各列信息的意义如下:
  1. COMMAND: 进程的名称

  1. PID: 进程标识符

  1. USER: 进程所有者

  1. FD: 文件描述符,应用程序通过文件描述符识别该文件,如cwd、txt等

  1. TYPE: 文件类型,如DIR、REG等

  1. DEVICE: 指定磁盘的名称

  1. SIZE: 文件的大小

  1. NODE: 索引节点(文件在磁盘上的标识)

  1. NAME: 打开文件的确切名称

3.具体的使用方法和示例
# 列出用户特定打开的文件 (列出跟 ysy 用户有关的文件)
[root@web2 ~]# lsof -u ysy

# 列出在特定端口上运行的文件 ,要找出特定端口上所有正在运行的进程,只需使用以下带有选项的命令  -i.下面的例子将列出 22 端口的所有正在运行的进程
[root@web2 ~]# lsof -i TCP:22
COMMAND   PID USER   FD   TYPE  DEVICE SIZE/OFF NODE NAME
sshd     1086 root    3u  IPv4   19888      0t0  TCP *:ssh (LISTEN)
sshd     1086 root    4u  IPv6   19890      0t0  TCP *:ssh (LISTEN)

# 列出 IPV4 和 IPV6 打开的文件
[root@web2 ~]# lsof -i 4
COMMAND   PID   USER   FD   TYPE  DEVICE SIZE/OFF NODE NAME
chronyd   713 chrony    5u  IPv4   18662      0t0  UDP localhost:323
sshd     1086   root    3u  IPv4   19888      0t0  TCP *:ssh (LISTEN)


[root@web2 ~]# lsof -i 6
COMMAND  PID   USER   FD   TYPE DEVICE SIZE/OFF NODE NAME
chronyd  713 chrony    6u  IPv6  18663      0t0  UDP localhost:323
sshd    1086   root    4u  IPv6  19890      0t0  TCP *:ssh (LISTEN)
master  1323   root   14u  IPv6  21312      0t0  TCP localhost:smtp (LISTEN)

# 用  ^ 排除用户
# 列出不是 root 用户打开的文件
[root@web2 ~]# lsof -u ^root | head -3
COMMAND     PID TID    USER   FD      TYPE             DEVICE SIZE/OFF     NODE NAME
polkitd     704     polkitd  cwd       DIR              253,0      247       64 /
polkitd     704     polkitd  rtd       DIR              253,0      247       64 /

# 列出所有网络连接,带有选项的以下命令‘-i’显示所有网络连接的列表'LISTENING & ESTABLISHED’.
[root@web2 ~]# lsof -i
COMMAND   PID   USER   FD   TYPE  DEVICE SIZE/OFF NODE NAME
chronyd   713 chrony    5u  IPv4   18662      0t0  UDP localhost:323
chronyd   713 chrony    6u  IPv6   18663      0t0  UDP localhost:323
sshd     1086   root    3u  IPv4   19888      0t0  TCP *:ssh (LISTEN)
sshd     1086   root    4u  IPv6   19890      0t0  TCP *:ssh (LISTEN)
master   1323   root   13u  IPv4   21311      0t0  TCP localhost:smtp (LISTEN)
master   1323   root   14u  IPv6   21312      0t0  TCP localhost:smtp (LISTEN)
sshd    52786   root    3u  IPv4 1440411      0t0  TCP web2:ssh->192.168.88.1:50764 (ESTABLISHED)
sshd    52794   root    3u  IPv4 1442022      0t0  TCP web2:ssh->192.168.88.1:50766 (ESTABLISHED)
sshd    55495   root    3u  IPv4 1447243      0t0  TCP web2:ssh->192.168.88.1:54874 (ESTABLISHED)
sshd    55502   root    3u  IPv4 1446814      0t0  TCP web2:ssh->192.168.88.1:54876 (ESTABLISHED)

# 按 PID 进程号搜索,搜索进程号是 2 的进程的相关信息
[root@web2 ~]# lsof -p 2
COMMAND  PID USER   FD      TYPE DEVICE SIZE/OFF NODE NAME
kthreadd   2 root  cwd       DIR  253,0      247   64 /
kthreadd   2 root  rtd       DIR  253,0      247   64 /

# 根据文件描述符 FD 来查看文件,查看 FD 为 2 的文件信息
[root@web2 ~]# lsof -d 2
COMMAND      PID    USER   FD   TYPE             DEVICE SIZE/OFF    NODE NAME
systemd        1    root    2u   CHR                1,3      0t0    9218 /dev/null
polkitd      704 polkitd    2u   CHR                1,3      0t0    9218 /dev/null
dbus-daem    709    dbus    2u  unix 0xffff9660f60361c0      0t0   18649 socket
chronyd      713  chrony    2u   CHR                1,3      0t0    9218 /dev/null
agetty    126131    root    2u   CHR                4,1      0t0    9233 /dev/tty1


# 杀死特定用户的所有活动,有时你可能必须终止特定用户的所有进程。下面的命令将杀死所有进程 ysy 用户。
[root@web2 ~]# kill -9 ` lsof -t -u ysy `        # `号后有空格

其他使用场景举例

同事今天请假了,但负责的webserver服务出现了问题,老板让你看一下webserver服务的日志,但你不知道webserver服务的日志文件路径,配置文件太复杂你不太懂,这时你可以执行以下命令查看日志文件路径。
[root@web2 ~]$ lsof -c webserver | grep -e 'log$'
webserver  10124  devl  4u  REG 253,1  8814787  109523 /home/devl/application/webserver/log/webserver.00.log

新来的同事误删除了的webserver服务的日志文件,现在线上环境有一个问题,需要查看webserver日志,老板让紧急处理一下,这时你想到lsof命令。是的,你可以执行命令查看日志文件的文件句柄,根据句柄得到日志文件在webserver进程中的映射路径(/proc/进程ID/fd/句柄)。
[root@web2 ~]$ lsof -c webserver | grep -e 'log$'
webserver  10124  devl  4u  REG 253,1  8814787  109523 /home/devl/application/webserver/log/webserver.00.log
命令执行结果显示webserver服务的进程ID10124,日志文件句柄为4u(即4号句柄),所以/proc/10124/fd/4就是日志文件在webserver进程中的映射路径,这时你用tail命令就可查看日志文件了。
[root@web2 ~]$ tail -f /proc/10124/fd/4
[20190602 09:51:04|INF] start route ping process success
[20190602 09:51:04|INF] ping host[127.0.0.1:8888][3951] success
[20190602 09:51:09|INF] check session success
当进程打开了某个文件时,只要该进程保持打开该文件,即使将其删除,它依然存在于磁盘中。这意味着,进程并不知道文件已经被删除,它仍然可以向打开该文件时提供给它的文件描述符进行读取和写入。除了该进程之外,这个文件是不可见的,因为已经删除了其相应的目录索引节点。 在/proc 目录下,其中包含了反映内核和进程树的各种文件。/proc目录挂载的是在内存中所映射的一块区域,所以这些文件和目录并不存在于磁盘中,因此当我们对这些文件进行读取和写入时,实际上是在从内存中获取相关信息。大多数与 lsof相关的信息都存储于以进程的 PID 命名的目录中,即 /proc/1234中包含的是 PID1234的进程的信息。每个进程目录中存在着各种文件,它们可以使得应用程序简单地了解进程的内存空间、文件描述符列表、指向磁盘上的文件的符号链接和其他系统信息。lsof 程序使用该信息和其他关于内核内部状态的信息来产生其输出。所以lsof可以显示进程的文件描述符和相关的文件名等信息。也就是我们通过访问进程的文件描述符可以找到该文件的相关信息。 当系统中的某个文件被意外地删除了,只要这个时候系统中还有进程正在访问该文件,那么我们就可以通过lsof/proc目录下恢复该文件的内容。

Linux 磁盘空间释放问题

1.应用场景
IDC里的一台服务器的/分区使用率爆满了!已达到100%!经查看发现有个文件过大(80G),于是在跟有关同事确认后rm -f果断删除该文件。但是发现删除该文件后,/分区的磁盘空间压根没有释放出来,使用率还是100%!这是为什么呢?
[root@web2 ~]# df -h
文件系统                 容量  已用  可用 已用% 挂载点
devtmpfs                 898M  1.3M  897M    1% /dev
tmpfs                    910M     0  910M    0% /dev/shm
tmpfs                    910M   58M  853M    7% /run
tmpfs                    910M     0  910M    0% /sys/fs/cgroup
/dev/mapper/centos-root   17G  17G   0G    100% /
/dev/sr0                 9.5G  9.5G     0  100% /dvd
2.原因分析

Linux系统中,通过rm或者文件管理器删除文件,只是将它会从文件系统的目录结构上解除链接(unlink),也就是说只是删除了文件和系统目录结构的链接;

如果文件在删除时是被打开的(有一个进程正在使用该文件,文件被进程锁定或者有进程一直在向这个文件写数据等)状态,那么进程将仍然可以读取该文件,也就是说没有删除掉文件在读取的状态,所以磁盘空间也就会一直被占用。

一个文件在文件系统中的存放分为两个部分:数据部分指针部分,指针位于文件系统的meta-data中,数据被删除后,这个指针就从meta-data中清除了,文件数据部分占用的空间就可以被覆盖并写入新的内容,之所以出现删除文件后空间还没释放,就是因为有进程还在一直向这个文件写入内容,导致虽然删除了文件,但文件对应的指针部分由于进程锁定,并未从meta-data中清除,而由于指针并未被删除,那么系统内核就认为文件并未被删除,因此通过df命令查询空间并未释放也就不足为奇了。

3解决措施
1.通过 lsof | grep deleted 命令获取到已经被删除但是仍然被应用程序占用的文件列表,然后kill PID掉还在占用所删除文件的进程。需要注意的是:如果有很多进程都在使用所删除文件,那么采用这种方式kill进程就有点麻烦了,而且风险也比较大。
[root@web2 ~]# lsof | grep /root/rback  # 查看目录相关信息
vim        18542           root  cwd       DIR           7,0      1024          2 /root/rback
vim        18542           root    3u      REG           7,0     12288         12 /root/rback/.name.txt.swp
bash      126292           root  cwd       DIR           7,0      1024          2 /root/rback


[root@web2 ~]# rm -rf /root/rback/.name.txt.swp   # 删除文件

[root@web2 ~]# lsof | grep name.txt     # 文件被删除,但仍然被应用程序占用的文件,后面有 delete 标识
vim        18542           root    3u      REG          7,0     12288         12 /root/rback/.name.txt.swp (deleted)

[root@web2 ~]# lsof | grep delete # 查找被删除,但仍然被进程占用的文件
vim        18542           root    3u      REG                7,0     12288         12 /root/rback/.name.txt.swp (deleted)

[root@web2 ~]#kill -9  18542  # 杀死该进程,即可释放被删除的文件

2.对待这种进程不停对文件写日志的操作,要释放文件占用的磁盘空间,最好的方法是在线清空这个文件。通过这种方法,磁盘空间不但可以马上释放,也可保障进程继续向文件写入日志。

在线清空文件(比如/home/wangshibo.log)的方式:

a)# echo " " > /home/wangshibo.log
b)# cat /dev/null > /home/wangshibo.log
c)# > /home/wangshibo.log