문자열 인코딩 #1

currenjin · 2024-09-10T04:13:45Z

문자 인코딩

But, 나머지 언어는 커버가되지 않는다.

8비트(256)로도 커버가되지 않아서 탄생하는게 Unicode(16bit)

한글(AC00 - D7A3)

Multi Byte Character Set(여러 byte)
한글 - KS X 1001

URL Encoding은 Unicode를 16진수로 사용하고, %를 붙인다.

16진수를 2진수로 변환하고, 6비트 씩 끊어서 처리한다.
남는 자리수는 ==으로 처리함.

64 = 2의 6승

getBytes는 시스템의 인코딩 방식을 따름.

currenjin · 2024-09-10T04:35:22Z

UTF-8, UTF-16, UTF-32

각 인코딩 방식의 차이에서,
UTF-8은 8비트마다, UTF-16은 16비트마다, UTF-32는 32비트마다 앞에 1바이트의 구분자를 넣는다.

이 때문에, 문자가 사용하는 범위에 따라 인코딩 방식을 변경하는게 좋다.
ex) 한글은 UTF-8에서 3byte, UTF-16에서 2byte 이므로 한글이 주로 사용되면 UTF-16으로 인코딩하는게 용량적으로 이득이다.