您的位置:首页 > 运维架构 > Linux

sed解析url的域名

2016-12-19 18:40 465 查看
echo http://3g.163.com/touch/article.html?docid=C6SM5BG40005877U |
sed -n 's/^https\{0,1\}:\/\/\([^\/]*\)\/.*/\1/p'

-n 只输出匹配的行

/p 打印结果

mark:

用反斜杠转义的地方跟普通的正则是反过来的,即表示普通字符不加转义,正则的功能字符需转义;

?表示0或1个不生效。无奈只能用{0,1};

.*? 表示非贪婪模式不生效。例子中用了[^/] 代替

统计域名

cat url_file.txt | sed -n 's/^https\{0,1\}:\/\/\([^\/]*\)\/.*/\1/p' | sort | uniq -c | sort -n -r  | awk 'OFS="\t"{print $1,$2}' > domain_sort.txt 

后面加上  awk 'OFS="\t"{print $1,$2}' 是为了结果复制到 Excel 方便
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  linux 域名