본문 바로가기
카테고리 없음

컴퓨터에서의 문자표현방식을 알아보자! ■ASCII코드 ■EBCDIC코드 ■한글코드 ■유니코드

by 건티지 2023. 6. 7.
반응형

■ASCII코드

아스키 코드란 ANSI 에서 만든 ASCII 라는 표준 코드체계로 일반적으로 사용되고 있습니다. ASCII 는 각 문자를 7비트로 표현합니다. 따라서 2의 7제곱 그러니까 128 개의 문자를 표현할 수 있습니다. (ASCII로 표현할 수 있는 문자들 외에 추가적인 문자를 지원해야 할 필요성이 있어 기존 7비트에 1비트를 추가하여 8비트를 사용한 코드가 정의되었다. 이런 코드를 확장(extended) ASCII라 하는데, 256(= 28)개의 문자를 표현할 수 있다. 기존 7비트 ASCII 코드에는 가장 왼쪽에 0을 추가하여 8비트 형식이 되게 했다.)

아스키코드 (우측128번 부터는 확장아스키코드)

표를 보는 방법 해당 문자의 왼쪽에 있는 2진 코드가 ASCII 코드가 되는 것인데, 예로 문자 ‘A’의 왼쪽에 있는 1000001이 ‘A’의 ASCII 코드가 된다.

IBM 사가 개발한 코드. 8비트의 조합으로 1문자(character)를 표현하는 부호 체계이며, 이 8비트를 1바이트라 하고, 1바이트로는 영문자(a~z), 숫자(0~9), 특수 기호 등 256종의 문자를 표현할 수 있다. 8비트(또는 7비트)의 부호 체계의 세계 표준은 ISO 코드(ASCII 코드와 같다)이지만 EBCDIC은 이것과는 다르다. 그러나 범용 컴퓨터에서는 일종의 업계 표준으로서 널리 사용된다. 특히 숫자는 4비트를 사용하여 16진법으로 표현하고 있다. 2진화 10진 코드란 말은 10 진수의 0~9의 숫자를 2진수로 나타낸 것으로서 이 4비트에서 다시 4비트를 추가(즉, 확장)한 데서 생겨났다.

■한글코드

완성형 한글 코드란 한글 1음절에 하나의 코드값을 부여하는 방식의 코드를 말합니다. 1바이트로 처리될 수 있는 영문자와는 달리 한글음절은 글자의 특성상 2바이트 이상의 부호 체계로 구성되어야 하는데, 이를 국가 표준화한 것이 KSC 5601입니다. 국제표준화기구의 정보 교환용 부호 체계인 ISO 2022에 맞추어 1987년에 처음 제정된 이 표준은 '완성형 한글 코드'라고 불리며, 사용 빈도가 높은 한글 2,350자와 한자 4,888자 그리고 특수 문자 986자로 구성되어 있습니다. 이 체계는 제정 이후 행정 전산망 등에서 사용되었고, <윈도95> 등 개인용 컴퓨터 운영 체계의 코드로 사용될 정도로 힘을 가지게 되었습니다

조합형한글코드표

조합형 한글 코드란 한글 1음절을 초성, 중성, 종성으로 구분하여 각 자모에 독립된 코드값을 부여하는 방식의 코드입니다. 완성형 한글은 모든 한글 글자를 다 지원하지 못하며, 그 구성 방법도 한글 음절의 조합 원리에 맞지 않았습니다. 그래서 민간에서 사용되던 코드 체계를 발전시켜 '조합형 한글 코드'를 만들고 1992년에 완성형 코드와 함께 복수 표준화하였습니다KS C5601-1992. 조합형은 초성, 중성, 종성 글자들에 일정한 값5비트로 정해짐을 정해 두고, 여기에 한글 구분 비트를 보태어, 그 값들을 조합한 2바이트 값을 코드값으로 가집니다. 이 부호계는 일부 문서 처리기워드 프로세서에서 내부적인 정보 처리 부호계로 사용되고 있습니다.

(한글코드 변천 역사)

한글코드의 변천사

현재는 KSC 5601-1987과 KSC 5601-1992가 공동 표준으로 사용되고 있다. KSC 5700은 KS X 1005-1로 최종 개정된 것인데, ISO 10646-1로서 국제표준기구에 정식으로 등록된 한글 코드를 그대로 표준 코드로 정한 것입니다

 

 

■유니코드

각 나라별 언어를 모두 표현하기 위해 나온 코드 체계가 유니코드(unicode)다. 유니코드는 사용중인 운영체제, 프로그램, 언어에 관계없이 문자마다 고유한 코드 값을 제공하는 새로운 개념의 코드다. 언어와 상관없이 모든 문자를 16비트로 표현하므로 최대 65,536자를 표현할 수 있다.

 

유니코드 표준은 애플(Apple), HP, IBM, 썬(Sun), MS, 오라클(Oracle)과 같은 업계에서 채택되었으며, XML, 자바, ECMAScript, LDAP, CORBA 등의 표준에서 사용되고 있다

유니코드표일부
통합형한글유니코드표

조합형 코드는 현대 한글의 처리에는 별 문제가 없지만, 옛한글의 자소를 조합형 코드 체계 내에 다 수용할 수 없어서 옛한글 처리에 어려움이 많았습니다. 한자 역시 충분한 영역을 확보할 수 없으므로, 이상적인 한글 부호계 혹은 학술용 부호계로 사용되기에는 부족하였습니다. 따라서 이 문제의 해결책을 찾기 위해서 국내에서도 나름대로 노력을 하였으며, 또 국제적인 표준 활동에도 참여하여 유니코드Unicode를 제정하는 데 우리 문자의 특수성을 반영하였습니다. 그 결과로 만들어진 코드 체계를 통합형이라고 합니다. 통합형이라는 것은 조합형과 완성형을 포괄하는 것입니다.

 

세계 각국의 모든 문자를 한 체계 안에 포섭시키기 위한 연구가 계속되어 ISO 10646-1이라는 국제 표준 부호계가 마련되었고, 우리나라에서도 1995년에 이를 국내 표준KS C 5700으로 받아들였습니다. 이후에 KS X 1005-1로 재규격화되었습니다. 이 부호계에서 한글 음절 11,172자는 완성형으로 처리되고, 한글 옛글자를 포함한 자소는 조합형으로 처리되어 거의 모든 한글 음절자를 구현할 수 있습니다.

 

(네이버지식백과,구글이미지,유니코드홈페이지,우리말지기홈페이지 참고) 

반응형