본문 바로가기

java/자바

[Chap19] - 자바의 문자셋(Charset)

아스키로는 한국어, 일본어, 중국어 문자표현을 없다.

그래서 나라별로 문자 표현을 해야하는데

기본은 중복 된다.

 

유니코드는 전세계의 언어를 담았다.

 

euc-kr 웹페이지 작성시 사용한다.

표준이다.

영어 1바이트

한글 2바이트

 

ms949 마이크로 소프트에서 만들었음

민간 업체

완성된 글자에 2바이트를 할당함

---

 

getByte(자셋)

분해해라.

 

new String( 바이트[], 문자셋)

 

msm949 euc-kr보다  한글의 모양을 많이 가진다.

msm949 뷁을 만든다

 

utf-16 특징:  고정 길이

영어도 2바이트

한글도 2바이트

 

utf-8

3바이트

영어 2바이트

 

 

 

컴퓨터에 있는 default 문자셋을 리턴한다.

맥은 utf-8이다

 

영어로 텍스트 파일을 만드면 utf-8 생성된다.