SBCS (Singe Byte Character System = ASCII)
1바이트
DBCS (Double Byte Character System)
2바이트
MBCS (Multi Byte Character System)
ASCII에 해당하는 문자는 1바이트, 그 외 문자는 2바이트로 표현.
동시에 여러 코드페이지를 표현할 수 없는 한계를 지님. (예: CP949에서 해당 코드페이지에 정의되어 있지 않은 문자를 출력하면 깨짐)
WBCS (Wide Byte Character System)
유니코드. ISO 10646
UTF-8
유니코드를 표현하기 위한 방법중 하나.
문자의 종류에 따라 사용하는 바이트수는 가변적이다.
한 문자에 할당되는 바이트 수는 해당 문자 첫바이트의 상위 비트로 표현된다.
U+00000000 - U+0000007F 0xxxxxxx
U+00000080 - U+000007FF 110xxxxx 10xxxxxx
U+00000800 - U+0000FFFF 1110xxxx 10xxxxxx 10xxxxxx (한글이 속한 영역)
U+00010000 - U+001FFFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
U+00200000 - U+03FFFFFF 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
U+04000000 - U+7FFFFFFF 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
'컴퓨터관련 잡동사니' 카테고리의 다른 글
TIFF 파일 포맷 (6) | 2009.06.08 |
---|---|
팀 프로젝트 (0) | 2009.05.31 |
양아치 개발자를 알아보는 법 (0) | 2009.04.19 |
오픈 베타 전의 리스크 관리 법 - 프로그래머 편 (0) | 2009.04.19 |
정규표현식 체크 (0) | 2009.04.19 |