一个进程运行了整整一天还没结束,本来应该只需要半天左右就可以全部build完成了,一步一步查原因,发现在uniq处理全角字符的问题上。
先看下面这个现象
[root@localhost build]$ cat text
12580
10086
20086
580
008
5
8
[root@localhost build]$ uniq text
12580
580
5
[root@localhost build]$
这个输出,明显不是想要的,这主要是全角字符所带来的问题
在很多数据处理时,可能数据都是来源于用户的输入,所以这时一些全角字符或者是大小写不一致的问题,就随处可见了,大小写的问题很容易想到要处理,全角字符也是需要处理或者设置处理环境的。
uniq命令在判断两个字符串是否相等的时候,和LC_ALL这个环境变量是有很大关系的,如果将其设置为UTF8,那么有可能一些不同的字符被判断为相同的。我们可以把这个环境变量的值设置为C,这样的话uniq就会一个一个字节的对两个字符串进行比较,这也是我们想要的结果和方式。
如下:
[root@localhost build]$ export LC_ALL=C
[root@localhost build]$ uniq text
12580
10086
20086
580
008
5
8
[root@localhost build]$
分享到:
相关推荐
uniq命令全称是“unique”,中文释义是“独特的,唯一的”。该命令的作用是用来去除文本文件中连续的重复行,中间不能夹杂其他文本行。去除了重复的,保留的都是唯一的,也就是独特的,唯一的了。 我们应当注意的是...
windows下的uniq,很好用的小东西,配合Gawk使用更佳。
linux下uniq和sort命令用法详解.docx
uniq :通常对重复字符进行处理 sort -n sort -r sort -u 去重,u: unique(独一无二的) sort -o 指定输出文件 sort -t 指定分隔符 sort -k 指定列排序(配合-t使用) 所有参数都不改变原文件,只是在终端输出 ...
数据文件处理命令小结(tr,sort,cut,paste,join,uniq,split),参数的使用说明和大量实例
在Mac或Windows PC上扩展Uniq,因此您可以跨合作伙伴平台等快速拨打电话号码。 无论您身在何处,在任何设备上,都与您的团队和整个世界保持不断的联系。 Uniq是公司的统一通信工具。 Uniq专为组织各种规模的公司中的...
JavaScript 数组的 uniq 方法
uniqtoosort | uniq -c版本sort | uniq -csort | uniq -c输出在解析每一行时实时更新。用法将一些基于行的东西输送到uniqtoo ,就像你在sort | uniq -csort | uniq -c 。这是一个计算此存储库中文件扩展名的示例,...
Uniq是一个 x86 架构的操作系统内核。 它不是基于Unix或Linux的,我们可以说它是一个类Unix操作系统内核,整个内核是从头开始编写的。 此外,内核将在很大程度上尝试支持POSIX标准。 ####内核信息#### . . 开发...
详细介绍linux下用于处理文本文件分类、合并、分割操作的工具 如:sort、uniq、join、cut、paste、split
的一个版本sort | uniq -c sort | uniq -c与输出,在实时更新的各行被解析。 用法 基于线进入管的东西uniqtoo一样的,你会进入sort | uniq -c sort | uniq -c 。 这是一个示例,该示例计算此存储库中文件的扩展名...
官方离线安装包,测试可用。使用rpm -ivh [rpm完整包名] 进行安装
linux下uniq和sort命令用法.docx
Javascript 更新 JavaScript 数组的 uniq 方法
js代码-uniq去重(二)
这个命令可以依据指定的关键字或指定的字符位置, 对文件行进行排序. 使用-m选项, 它将会合并预排序的输入文件. 想了解这个命令的全部参数请参考这个命令的info页. 二. tsort 拓扑排序, 读取以空格分隔的有序对, ...
常用的SED uniq的语法,比较实用的资源,对LINUX的自动化运维和快速故障排除很有帮助
要处理此示例项目,您首先需要安装 。 运行应用 设置并启动服务器,如下所示: $ cd example-projects/simple $ lein cljsbuild once $ lein ring server-headless 3000 现在,将您的Web浏览器指向...
js代码-uniq 函数,实现数组去重