您的位置：首页 > 其它

HDOJ 2030 汉字统计(借此题来谈谈ASCII码与汉字机内码)

2015-07-21 21:02 232 查看

ASCII码与汉字机内码：

在做HDOJ 2030 汉字统计一题中在讨论区看到有楼主发帖说汉字的ASCII码值为负数。但书中的ASCII码的范围又是0—255（其中0——127是国际通用标准码，128——255是拓展码）。

经过请教大牛与查阅资料得，汉字并没有ASCII码，汉字是又机内码表示的，即ansi编码，是系统根据当前地区然后确定的当地编码，例如大陆的ansi编码就代表
国标码GBK编码。各个地区之间的机内码是有差异的。

汉字机内码在计算机的表达方式的描述是，使用二个字节，每个字节最高位一位为1。计算机中，补码第一位是符号位，1
表示为负数，所以汉字机内码的每个字节表示的十进制数都是负数。所以统计输入字符串含有几个汉字，只只需求出字符串中小于0的字符有几个

注：

英文的一个字一个字节用了8位（1个字节）

汉字的一个字两个字节用了16位（2个字节）

下面是题目，很简单：

汉字统计

Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others)

Total Submission(s): 30201 Accepted Submission(s): 16568

Problem Description

统计给定文本文件中汉字的个数。

Input

输入文件首先包含一个整数n，表示测试实例的个数，然后是n段文本。

Output

对于每一段文本，输出其中的汉字的个数，每个测试实例的输出占一行。

[Hint:]从汉字机内码的特点考虑~

Sample Input

2
WaHaHa! WaHaHa! 今年过节不说话要说只说普通话WaHaHa! WaHaHa!
马上就要期末考试了Are you ready?

Sample Output

14
9

由上述可得，直接找到小于零的字符即为汉字。

具体代码如下：

#include<cstdio>
#include<cstring>
int main()
{
    int len,i,n;
    char str[1010];
    scanf("%d",&n);
    getchar();
    while(n--)
    {
        int count=0;
        gets(str);
        len=strlen(str);
        for(i=0;i<len;i++)
        {
            if(str[i]<0)
              count++;
        }
        printf("%d\n",count/2);
    }//因为汉字是由两个字节表示的，每次查找小于零的字符，一个汉字都会被记成两个，所以要除以二 
    return 0;
}

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航