본문 바로가기

프로그래밍/폰트_문자열_인코딩10

헷갈리는 한글판단 in utf-8, unicode, euc-kr 문자열인 한글인지를 판단하기 위해서 wide character(wchar_t형, wcs)는 multibyte character (char형, mbs)로 변환을 해주어야 한다. (wcs는 한글/영문 판별이 안됨) => 프로그램을 wchar_t 로 작성했을 경우 wcstombs() 등의 함수를 사용하여 변환하는 과정이 포함되어야 한다는 뜻이다. 또, 시스템이 utf-8 인코딩인 경우(소스코드가 utf-8로 인코딩되어 저장됨) 한글은 2 바이트가 아닌 3바이트로 저장되기에 한글 판단을 위해서는 이를 2바이트 유니코드로 변경해야한다. => 시스템의 인코딩을 인지하여 3 바이트 한글을 2바이트 한글로 변환하는 과정이 필요하다. 한글 판단 if ( 0x80 & 문자 ) // 이면 일단 영문의 범위를 넘어간다 그중에.. 2014. 1. 21.
조합형 폰트 출력 * gxlib를 사용하려는데 폰트가 bdf 타입이라 좀 꺼림직해서 (크기가 3메가다 되기 때문에) 시작. * 조합형 한글의 경우 16비트 (2바이트)를 사용하여 한 글자를 나타내며 제일 상위 첫 비트는 한/영 구분, 그 뒤로 5개 비트씩 나누어 초/중/종성으로 사용됨 (상위 비트가 초성, 하위비트가 종성) 초성 (19개) - ㄱ ㄲ ㄴ ㄷ ㄸ ㄹ ㅁ ㅂ ㅃ ㅅ ㅆ ㅇ ㅈ ㅉ ㅊ ㅋ ㅌ ㅍ ㅎ 중성 (21개) - ㅏ ㅐ ㅑ ㅒ ㅓ ㅔ ㅕ ㅖ ㅗ ㅘ ㅙ ㅚ ㅛ ㅜ ㅝ ㅞ ㅟ ㅠ ㅡ ㅢ ㅣ 종성 (27개) - ㄱ ㄲ ㄳ ㄴ ㄵ ㄶ ㄷ ㄹ ㄺ ㄻ ㄼ ㄽ ㄾ ㄿ ㅀ ㅁ ㅂ ㅄ ㅅ ㅆ ㅇ ㅈ ㅊ ㅋ ㅌ ㅍ ㅎ 와 같이 구별할 수 있다. --------------------------------------------.. 2011. 4. 14.
유니코드 처리 유니코드에서 파일 읽기 http://blog.naver.com/insup20/40048367212 일부 비트 잘라오기 http://blog.naver.com/insup20/40048322332 간단한 iconv() http://blog.naver.com/insup20/40048221929 유니코드 파일 저장 http://blog.naver.com/insup20/40047945742 유니코드 기초 http://blog.naver.com/insup20/40047075507 유니코드 고급 http://blog.naver.com/insup20/40047110383 http://www.ibm.com/developerworks/kr/linux/library/l-linuni.html 2011. 4. 13.
unicode, encoding, utf-8, euck-kr, charmap, charset unicode 이전 시대 -------------------- * 조합형 * 완성형 ksc5631 or ksc5601 * ascii unicode 시대 ----------------------- unicode 에는 인코딩을 하게 되어 각 인코딩 방식별로 코드가 불리운다. * utf-8 * euc-kr * cp949 (euc-kr의 확장) charset, codeset : 인코딩 방식을 지칭하는 의미로 대부분 사용되는 듯 하다. charmap : 문자 인코딩을 정의하기 위한 문자 심볼 (man page의 설명인데 무슨 뜻이야?????) 2011. 4. 13.