#! /usr/bin/perl -w
$path = '/root/Documents'; # 當(dāng)前工作目錄
$dir = "$path/images"; # 要遍歷的目錄
$log_file = "$path/access_201209.log"; # nginx日志0903~0907, filesize: 5.4G
$result_file = 'result.f'; # 放置結(jié)果的文件
if(!open $output, ">>$result_file") { # 以追加的形式打開文件
die " Open file failed: $!";
}
find_dir($dir);
sub find_dir() {
my $base_dir = $_[0]; # $_[0]表示子例程(函數(shù))的第一個(gè)參數(shù)
if( !opendir(DIR,"$base_dir") ) {
warn "open dir failed: $! \n";
}
my @father_dir = readdir(DIR); # 資源轉(zhuǎn)儲(chǔ)
closedir(DIR);
$base_dir =~ s/\/$//; # 刪除目錄最后面的 /
foreach $sub_dir (@father_dir) {
if($sub_dir =~ /^\./) { # 過濾掉 . 和 .. 以及 隱藏文件
next;
}
if(-d "$base_dir/$sub_dir") { # 如果是目錄則回調(diào)
find_dir("$base_dir/$sub_dir"); # 引用遞歸函數(shù),避免在內(nèi)存中開辟多個(gè)副本
}elsif (-f "$base_dir/$sub_dir") { # 如果是文件則....
# 文件前面保留一個(gè)空格,這樣才能保證不會(huì)搜索到 theme_skin/blue/images 這樣的目錄
my $this_file = " $base_dir/$sub_dir";
$this_file =~ s/$path//; # 刪除掉字符串 /root/Documents
# 使用Linux命令,在 [$log_file文件] 中查找 [$this_file字符串] 并統(tǒng)計(jì)字符串出現(xiàn)的次數(shù)
my $result = `grep -c "$this_file" $log_file`; # $this_file要用雙引號(hào)括起來(lái),防止圖片名稱中有空格造成程序錯(cuò)誤
chomp $result ; # 刪除Linux執(zhí)行命令后,返回值所帶有的換行符
print $output "$this_file : $result \n"; # 將處理結(jié)果寫入$output指定的文件
# 已經(jīng)記錄過的文件刪除掉,這樣每次終止腳本的時(shí)候,都能繼續(xù)之前的內(nèi)容進(jìn)行查找
unlink "$base_dir/$sub_dir";
}
}
}
print "\n Finished \n";
# 現(xiàn)在打開 result.f 文件,把 /images/ 替換成 images/ 這樣才能在當(dāng)前工作目錄中刪除文件
# Linux命令查找5天內(nèi)被訪問0次的記錄,并刪除
# 數(shù)字0 左右兩邊要有空格,防止找到文件名中含有0的記錄
# 方法 1 :
# gawk -F ':' '$2 ~ / 0 / {print $1}' result.f | xargs rm -rf
# 方法 2 : (完全等同 方法1)
# grep ' 0 ' result.f | gawk -F ':' '{print $1}' | xargs rm -rf