一、UTF-8和GBK編碼方式
- 如果采用的是UTF-8的編碼方式,那么1個(gè)英文字母 占 1個(gè)字節(jié),1個(gè)中文占3個(gè)字節(jié)
- 如果采用GBK的編碼方式,那么1個(gè)英文字母 占 1個(gè)字節(jié),1個(gè)中文占2個(gè)字節(jié)
二、idea和eclipse的默認(rèn)編碼方式
其實(shí)idea和eclipse的默認(rèn)編碼方式是不一樣的哦。
idea默認(rèn)的編碼方式是:UTF-8
eclipse默認(rèn)采用的編碼方式是GBK
三、解碼和編碼方法
1、java中編碼的方法
- public byte[] getBytes() 使用默認(rèn)的編碼方式進(jìn)行編碼
- public byte[] getBytes(Charset charset) 使用指定方式進(jìn)行編碼
2、java中解碼的方法
- public String(byte bytes[]) 使用默認(rèn)的方式進(jìn)行解碼
- public String(byte bytes[], String charsetName) 使用指的方式進(jìn)行解碼
四、代碼實(shí)現(xiàn)
以下代碼demo均采用idea開發(fā)哦
編碼
1、使用默認(rèn)的編碼方式進(jìn)行編碼
看下面這段代碼,請(qǐng)猜一猜數(shù)組中的元素有幾個(gè)?
package com.heima.demo;
import java.util.Arrays;
public class TestDemo {
public static void main(String[] args) {
String str = "dk你好";
byte[] bytes = str.getBytes();
System.out.println(Arrays.toString(bytes));
}
}
你答對(duì)了嗎?數(shù)組中一共有8個(gè)元素,因?yàn)閕dea默認(rèn)采用的編碼方式是utf-8,如果采用的是UTF-8的編碼方式,那么1個(gè)英文字母 占 1個(gè)字節(jié),1個(gè)中文占3個(gè)字節(jié)。我們看一下運(yùn)行結(jié)果
[100, 107, -28, -67, -96, -27, -91, -67]
Process finished with exit code 0
如果使用指定的編碼方式GBK進(jìn)行編碼呢?我們看一下代碼
public class TestDemo {
public static void main(String[] args) throws UnsupportedEncodingException {
String str = "dk你好";
byte[] bytes = str.getBytes("gbk");
System.out.println(Arrays.toString(bytes));
}
}
答案是:數(shù)組元素一共有6個(gè),因?yàn)椴捎玫氖荊BK編碼方式,那么1個(gè)英文字母 占 1個(gè)字節(jié),1個(gè)中文占2個(gè)字節(jié)。
我們看一下運(yùn)行結(jié)果
[100, 107, -60, -29, -70, -61]
Process finished with exit code 0
解碼
1、使用默認(rèn)的方式進(jìn)行解碼
package com.heima.demo;
import java.io.UnsupportedEncodingException;
public class TestDemo {
public static void main(String[] args) throws UnsupportedEncodingException {
String str = "dk你好";
byte[] byte1 = str.getBytes();
String res1 = new String(byte1);
System.out.println(res1);
}
}
運(yùn)行結(jié)果如下:
dk你好
Process finished with exit code 0
如果給他加上指定編碼方式呢?
package com.heima.demo;
import java.io.UnsupportedEncodingException;
public class TestDemo {
public static void main(String[] args) throws UnsupportedEncodingException {
String str = "dk你好";
byte[] byte1 = str.getBytes();
String res1 = new String(byte1,"gbk");
System.out.println(res1);
}
}
運(yùn)行結(jié)果
dk浣犲ソ
Process finished with exit code 0
我們發(fā)現(xiàn)有亂碼產(chǎn)生。那為什么呢?因?yàn)榫幋a的時(shí)候,采用的是默認(rèn)的utf-8方式,所以解碼的時(shí)候,也需要使用utf-8進(jìn)行解碼,如果使用gbk就會(huì)產(chǎn)生亂碼。因?yàn)閡tf-8和gbk對(duì)中文所占的字節(jié)數(shù)是不一樣的。
- 如果采用的是UTF-8的編碼方式,那么1個(gè)英文字母 占 1個(gè)字節(jié),1個(gè)中文占3個(gè)字節(jié)
- 如果采用GBK的編碼方式,那么1個(gè)英文字母 占 1個(gè)字節(jié),1個(gè)中文占2個(gè)字節(jié)
五、額外知識(shí)擴(kuò)展
1、什么是字符集?
字符集顧名思義,就是用來裝多個(gè)字符的集合。不同的字符集中字符的個(gè)數(shù)是不同的,包含的字符也是不同的,甚至對(duì)于字符的編碼格式也是不同的。
2、什么是字符編碼?
計(jì)算機(jī)中存儲(chǔ)信息都是以二進(jìn)制數(shù)表示的,而我們?cè)陔娔X屏幕上看到的文字、數(shù)字、英文、標(biāo)點(diǎn)符號(hào)等都是將二進(jìn)制數(shù)轉(zhuǎn)換過后的結(jié)果,按照某種規(guī)則,將計(jì)算機(jī)中的二進(jìn)制數(shù)與某個(gè)抽象字符集合一一對(duì)應(yīng),這就是字符編碼。
3、ASCII字符集
ASCII 全稱 (American Standard Code for Information Interchange)美國信息交換標(biāo)準(zhǔn)代碼,它是基于拉丁字母的一套電腦編碼系統(tǒng),其最初在創(chuàng)建的時(shí)候主要是為了顯示英語以及一些西歐語言,是國際通用的信息交換使用標(biāo)準(zhǔn)碼。ASCII使用了7位二進(jìn)制來表示128個(gè)字符和符號(hào),目前已經(jīng)停止更新。
4、Unicode字符集
ASCII字符集只包含了128個(gè)字符,對(duì)于全世界的所有語言來說,并不能容納下世界上所有的語言。所以Unicode字符集出現(xiàn)了。
Unicode又被稱為統(tǒng)一碼、萬國碼,是國際組織制定的用來容納全世界字符的編碼方案。是的,確切的說Unicode是一種編碼方案,以實(shí)現(xiàn)跨語言、跨平臺(tái)的文本處理、轉(zhuǎn)換的要求。
但是Unicode只是一種字符與二進(jìn)制數(shù)之間的一種邏輯映射編碼,它并沒有指定在計(jì)算集中應(yīng)該如何的進(jìn)行存儲(chǔ)。所以此時(shí)就需要一種編碼格式用來指定Unicode字符集中的字符是如何進(jìn)行編碼的。
在Unicode官方資料中,Unicode編碼方式有三種:UTF-8、UTF-16、UTF-32,而其中UTF-8編碼成為了現(xiàn)今互聯(lián)網(wǎng)使用較多的編碼方式。文章來源:http://www.zghlxwxcb.cn/news/detail-713454.html
5、GB2312
GB2312編碼是第一個(gè)漢字編碼國家標(biāo)準(zhǔn),于1980年由中國國家標(biāo)準(zhǔn)總局發(fā)布。其中共收錄了漢字6763個(gè)。但是由于我國的漢字非常多,GB2312收錄的漢字不夠用了,所以GBK誕生了。GBK包含了GB2312的所有內(nèi)容的同時(shí)還新增了20000多新的漢字,對(duì)于一些日常需求已經(jīng)為完全夠用了。文章來源地址http://www.zghlxwxcb.cn/news/detail-713454.html
到了這里,關(guān)于IO流:java中解碼和編碼出現(xiàn)亂碼說明及代碼實(shí)現(xiàn)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!