Linux下lsof命令详解
lsof命令的基本使用方法
lsof命令简介:
lsof(list open files)是一个列出当前系统打开文件的工具,lsof 意义LiSt Open Files用于找出哪些文件被哪个进程打开。众所周知Linux/Unix将所有内容都视为文件(pipes,sockets,directories,devices等等)。使用的原因之一lsof命令是当磁盘无法卸载时,因为它表示正在使用文件。借助此命令,我们可以轻松识别正在使用的文件。
lsof命令的使用
1.使用lsof命令可以查看全部文件(此处取前五行)
[root@web2 ~]# lsof | head -5
COMMAND PID TID USER FD TYPE DEVICE SIZE/OFF NODE NAME
systemd 1 root cwd DIR 253,0 247 64 /
systemd 1 root rtd DIR 253,0 247 64 /
systemd 1 root txt REG 253,0 1632776 353452 /usr/lib/systemd/systemd
systemd 1 root mem REG 253,0 20064 116104 /usr/lib64/libuuid.so.1.3.0
2.输出各列信息的意义如下:
COMMAND: 进程的名称
PID: 进程标识符
USER: 进程所有者
FD: 文件描述符,应用程序通过文件描述符识别该文件,如cwd、txt等
TYPE: 文件类型,如DIR、REG等
DEVICE: 指定磁盘的名称
SIZE: 文件的大小
NODE: 索引节点(文件在磁盘上的标识)
NAME: 打开文件的确切名称
3.具体的使用方法和示例
# 列出用户特定打开的文件 (列出跟 ysy 用户有关的文件)
[root@web2 ~]# lsof -u ysy
# 列出在特定端口上运行的文件 ,要找出特定端口上所有正在运行的进程,只需使用以下带有选项的命令 -i.下面的例子将列出 22 端口的所有正在运行的进程
[root@web2 ~]# lsof -i TCP:22
COMMAND PID USER FD TYPE DEVICE SIZE/OFF NODE NAME
sshd 1086 root 3u IPv4 19888 0t0 TCP *:ssh (LISTEN)
sshd 1086 root 4u IPv6 19890 0t0 TCP *:ssh (LISTEN)
# 列出 IPV4 和 IPV6 打开的文件
[root@web2 ~]# lsof -i 4
COMMAND PID USER FD TYPE DEVICE SIZE/OFF NODE NAME
chronyd 713 chrony 5u IPv4 18662 0t0 UDP localhost:323
sshd 1086 root 3u IPv4 19888 0t0 TCP *:ssh (LISTEN)
[root@web2 ~]# lsof -i 6
COMMAND PID USER FD TYPE DEVICE SIZE/OFF NODE NAME
chronyd 713 chrony 6u IPv6 18663 0t0 UDP localhost:323
sshd 1086 root 4u IPv6 19890 0t0 TCP *:ssh (LISTEN)
master 1323 root 14u IPv6 21312 0t0 TCP localhost:smtp (LISTEN)
# 用 ^ 排除用户
# 列出不是 root 用户打开的文件
[root@web2 ~]# lsof -u ^root | head -3
COMMAND PID TID USER FD TYPE DEVICE SIZE/OFF NODE NAME
polkitd 704 polkitd cwd DIR 253,0 247 64 /
polkitd 704 polkitd rtd DIR 253,0 247 64 /
# 列出所有网络连接,带有选项的以下命令‘-i’显示所有网络连接的列表'LISTENING & ESTABLISHED’.
[root@web2 ~]# lsof -i
COMMAND PID USER FD TYPE DEVICE SIZE/OFF NODE NAME
chronyd 713 chrony 5u IPv4 18662 0t0 UDP localhost:323
chronyd 713 chrony 6u IPv6 18663 0t0 UDP localhost:323
sshd 1086 root 3u IPv4 19888 0t0 TCP *:ssh (LISTEN)
sshd 1086 root 4u IPv6 19890 0t0 TCP *:ssh (LISTEN)
master 1323 root 13u IPv4 21311 0t0 TCP localhost:smtp (LISTEN)
master 1323 root 14u IPv6 21312 0t0 TCP localhost:smtp (LISTEN)
sshd 52786 root 3u IPv4 1440411 0t0 TCP web2:ssh->192.168.88.1:50764 (ESTABLISHED)
sshd 52794 root 3u IPv4 1442022 0t0 TCP web2:ssh->192.168.88.1:50766 (ESTABLISHED)
sshd 55495 root 3u IPv4 1447243 0t0 TCP web2:ssh->192.168.88.1:54874 (ESTABLISHED)
sshd 55502 root 3u IPv4 1446814 0t0 TCP web2:ssh->192.168.88.1:54876 (ESTABLISHED)
# 按 PID 进程号搜索,搜索进程号是 2 的进程的相关信息
[root@web2 ~]# lsof -p 2
COMMAND PID USER FD TYPE DEVICE SIZE/OFF NODE NAME
kthreadd 2 root cwd DIR 253,0 247 64 /
kthreadd 2 root rtd DIR 253,0 247 64 /
# 根据文件描述符 FD 来查看文件,查看 FD 为 2 的文件信息
[root@web2 ~]# lsof -d 2
COMMAND PID USER FD TYPE DEVICE SIZE/OFF NODE NAME
systemd 1 root 2u CHR 1,3 0t0 9218 /dev/null
polkitd 704 polkitd 2u CHR 1,3 0t0 9218 /dev/null
dbus-daem 709 dbus 2u unix 0xffff9660f60361c0 0t0 18649 socket
chronyd 713 chrony 2u CHR 1,3 0t0 9218 /dev/null
agetty 126131 root 2u CHR 4,1 0t0 9233 /dev/tty1
# 杀死特定用户的所有活动,有时你可能必须终止特定用户的所有进程。下面的命令将杀死所有进程 ysy 用户。
[root@web2 ~]# kill -9 ` lsof -t -u ysy ` # `号后有空格
其他使用场景举例
同事今天请假了,但负责的webserver服务出现了问题,老板让你看一下webserver服务的日志,但你不知道webserver服务的日志文件路径,配置文件太复杂你不太懂,这时你可以执行以下命令查看日志文件路径。
[root@web2 ~]$ lsof -c webserver | grep -e 'log$'
webserver 10124 devl 4u REG 253,1 8814787 109523 /home/devl/application/webserver/log/webserver.00.log
新来的同事误删除了的webserver服务的日志文件,现在线上环境有一个问题,需要查看webserver日志,老板让紧急处理一下,这时你想到lsof命令。是的,你可以执行命令查看日志文件的文件句柄,根据句柄得到日志文件在webserver进程中的映射路径(/proc/进程ID/fd/句柄)。
[root@web2 ~]$ lsof -c webserver | grep -e 'log$'
webserver 10124 devl 4u REG 253,1 8814787 109523 /home/devl/application/webserver/log/webserver.00.log
命令执行结果显示webserver服务的进程ID为10124,日志文件句柄为4u(即4号句柄),所以/proc/10124/fd/4就是日志文件在webserver进程中的映射路径,这时你用tail命令就可查看日志文件了。
[root@web2 ~]$ tail -f /proc/10124/fd/4
[20190602 09:51:04|INF] start route ping process success
[20190602 09:51:04|INF] ping host[127.0.0.1:8888][3951] success
[20190602 09:51:09|INF] check session success
当进程打开了某个文件时,只要该进程保持打开该文件,即使将其删除,它依然存在于磁盘中。这意味着,进程并不知道文件已经被删除,它仍然可以向打开该文件时提供给它的文件描述符进行读取和写入。除了该进程之外,这个文件是不可见的,因为已经删除了其相应的目录索引节点。 在/proc 目录下,其中包含了反映内核和进程树的各种文件。/proc目录挂载的是在内存中所映射的一块区域,所以这些文件和目录并不存在于磁盘中,因此当我们对这些文件进行读取和写入时,实际上是在从内存中获取相关信息。大多数与 lsof相关的信息都存储于以进程的 PID 命名的目录中,即 /proc/1234中包含的是 PID为1234的进程的信息。每个进程目录中存在着各种文件,它们可以使得应用程序简单地了解进程的内存空间、文件描述符列表、指向磁盘上的文件的符号链接和其他系统信息。lsof 程序使用该信息和其他关于内核内部状态的信息来产生其输出。所以lsof可以显示进程的文件描述符和相关的文件名等信息。也就是我们通过访问进程的文件描述符可以找到该文件的相关信息。 当系统中的某个文件被意外地删除了,只要这个时候系统中还有进程正在访问该文件,那么我们就可以通过lsof从/proc目录下恢复该文件的内容。
Linux 磁盘空间释放问题
1.应用场景
IDC里的一台服务器的/分区使用率爆满了!已达到100%!经查看发现有个文件过大(80G),于是在跟有关同事确认后rm -f果断删除该文件。但是发现删除该文件后,/分区的磁盘空间压根没有释放出来,使用率还是100%!这是为什么呢?
[root@web2 ~]# df -h
文件系统 容量 已用 可用 已用% 挂载点
devtmpfs 898M 1.3M 897M 1% /dev
tmpfs 910M 0 910M 0% /dev/shm
tmpfs 910M 58M 853M 7% /run
tmpfs 910M 0 910M 0% /sys/fs/cgroup
/dev/mapper/centos-root 17G 17G 0G 100% /
/dev/sr0 9.5G 9.5G 0 100% /dvd
2.原因分析
在Linux系统中,通过rm或者文件管理器删除文件,只是将它会从文件系统的目录结构上解除链接(unlink),也就是说只是删除了文件和系统目录结构的链接;
如果文件在删除时是被打开的(有一个进程正在使用该文件,文件被进程锁定或者有进程一直在向这个文件写数据等)状态,那么进程将仍然可以读取该文件,也就是说没有删除掉文件在读取的状态,所以磁盘空间也就会一直被占用。
一个文件在文件系统中的存放分为两个部分:数据部分和指针部分,指针位于文件系统的meta-data中,数据被删除后,这个指针就从meta-data中清除了,文件数据部分占用的空间就可以被覆盖并写入新的内容,之所以出现删除文件后,空间还没释放,就是因为有进程还在一直向这个文件写入内容,导致虽然删除了文件,但文件对应的指针部分由于进程锁定,并未从meta-data中清除,而由于指针并未被删除,那么系统内核就认为文件并未被删除,因此通过df命令查询空间并未释放也就不足为奇了。
3解决措施
1.通过 lsof | grep deleted 命令获取到已经被删除但是仍然被应用程序占用的文件列表,然后kill PID掉还在占用所删除文件的进程。需要注意的是:如果有很多进程都在使用所删除文件,那么采用这种方式kill进程就有点麻烦了,而且风险也比较大。
[root@web2 ~]# lsof | grep /root/rback # 查看目录相关信息
vim 18542 root cwd DIR 7,0 1024 2 /root/rback
vim 18542 root 3u REG 7,0 12288 12 /root/rback/.name.txt.swp
bash 126292 root cwd DIR 7,0 1024 2 /root/rback
[root@web2 ~]# rm -rf /root/rback/.name.txt.swp # 删除文件
[root@web2 ~]# lsof | grep name.txt # 文件被删除,但仍然被应用程序占用的文件,后面有 delete 标识
vim 18542 root 3u REG 7,0 12288 12 /root/rback/.name.txt.swp (deleted)
[root@web2 ~]# lsof | grep delete # 查找被删除,但仍然被进程占用的文件
vim 18542 root 3u REG 7,0 12288 12 /root/rback/.name.txt.swp (deleted)
[root@web2 ~]#kill -9 18542 # 杀死该进程,即可释放被删除的文件
2.对待这种进程不停对文件写日志的操作,要释放文件占用的磁盘空间,最好的方法是在线清空这个文件。通过这种方法,磁盘空间不但可以马上释放,也可保障进程继续向文件写入日志。
在线清空文件(比如/home/wangshibo.log)的方式:
a)# echo " " > /home/wangshibo.log
b)# cat /dev/null > /home/wangshibo.log
c)# > /home/wangshibo.log