如何用awk取重复记录的第一条记录和最后一条记录

作者: 三木日期: 2016 年 09 月 23 日发表评论 (0) 查看评论

2011-10-25 8:41:20
2011-10-25 8:41:38
2011-10-25 18:10:09
2011-10-26 8:29:05
2011-10-26 18:07:27
2011-10-27 8:35:41
2011-10-27 18:51:18
2011-10-28 8:38:00
2011-10-28 18:08:01
2011-10-29 8:46:13
2011-10-29 18:08:00
2011-10-31 18:05:33
2011-11-1 8:33:16
2011-11-1 18:07:07
2011-11-2 8:29:46
2011-11-2 18:05:41
2011-11-3 8:29:17
2011-11-3 18:04:40
2011-11-4 8:34:29
2011-11-4 18:10:23

#取出每天的第一条记录
awk '!a[$1]++' file
!a[$1]++取第一次出现的

#统计相同的日期的个数
awk '{a[$1]++}END{for(i in a)print i,a[i]}' file
 
#加个($2==8)的限制条件
awk -F ' |:' '!a[$1]++&&($2==8)' file

#取每天的最后一条记录
awk '!a[$1]++&&i{print i}{i=$0}END{print i}' file
awk 'NR>1{if($1!=x)print y}{x=$1;y=$0}END{print $0}' file   
取最后一条只需取首次出现的上面那条即可,通过{i=$0}将$0赋给i,!a[$1]++限制首次出现,
首行i为空,会打印一个空行,加个&&i来保证不打印那个空行,最后必须要有END{print i},
最后一行要单独打印
{i=$0}保存上一行的记录是常规用法。
if($1!=x)print y}{x=$1;y=$0} 保存$1 $0
#加个($2==18)的条件
awk -F ' |:' '!a[$1]++&&i{print i}{if($2==18)i=$0}END{print i}' file

附录
1、awk ‘! a[$0]++’ 怎么理解？
这是一个非常经典的去重复项的awk语句，虽然短小，不过涉及到了不少知识点，下面一一解读：
<1> ：”!” 即非。
<2>：a[$0]，以$0为数据下标，建立数组a
<3>：a[$0]++，即给数组a赋值，a[$0]+=1
<4> ：那么组合起来，awk是怎么执行!a[$0]++的呢？

即： '!a[$0]++' 当$0的内容首次出现时，a[$0]将为空（相当于0），
此时将先求!a[$0]的值（也是整个式子的值，即为非空 true ,将影响后续动作，执行默认的print)
然后对a[$0]进行+1，a[$0] 加1后为1，当下次出现时a[$0]即不为空，表达式结果为非真 false，即不打印

2、怎么用awk取文本的最后一行？
awk 'END {print}'

扩展阅读：
awk初学之常见问题：http://bbs.chinaunix.net/thread-2309494-1-1.html
怎么用awk取文本的最后一行？：http://bbs.51cto.com/thread-961661-1.html
awk的程序指令模型：http://www.letuknowit.com/topics/20120319/awk-program-model.html/

参考资料：
awk之取每天的第一条记录和最后一条记录：http://blog.csdn.net/woshibianhe/article/details/7316029
awk去重复项：http://blog.chinaunix.net/uid-25508399-id-3230163.html
用awk数组去除重复域awk‘!a[$1]++’：http://www.jbxue.com/article/1560.html

commandawk

← TCP、UDP、HTTP、SOCKET之间的区别

学习PHP的好资料 →

发表评论？

0 条评论。

发表评论取消回复

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据。

三木的人生——3mu.me

求知若饥，虚心若愚！