질문:외국어사이트의 utf-8코딩

국내에 웹 사이트들이 웹 표준을 지키고 OS나 브라우저와 관계 없이 접근성을 향상 시키기 위한 사이트 버그 신고 및 문제 해결을 위한 게시판입니다.
댓글 게시
이원문

질문:외국어사이트의 utf-8코딩

게시물 작성자 이원문 » 2009 01 05 19:25 03

안녕하세요.

저는 충청북도 충주시의 "(주)중원넷"이라는 회사에 근무하는 이원문이라고 합니다.

현재 제작하는 홈페이지 들을 표준에 맞추기 위해 노력을 하고 있는 중입니다.
아래에 현재 약간 문제시가 되는 내용을 적습니다.
글솜씨가 없는관계로 이해가 잘 안되시더라도 도움 부탁드립니다.

다름이 아니라 외국어 사이트의 표준에 맞추기 위해 utf-8코딩을 하고 있습니다.
근데 여러 문제들이 발생을 하고 있네요.
이해를 시키려고 해도 잘 안되는 그런경우입니다.

저희가 작업하고 있는 사이트는 충주시 외국어 홈페이지 영문,중문,일문입니다.
작업서버 주소는 아래와 같습니다.
http://cj100.jwnwork.net/english
http://cj100.jwnwork.net/japanese
http://cj100.jwnwork.net/chinese
아직 저희 직원(페이지 코더)들이 웹표준에 대해 100% 이해를 한상태가 아니라서 나름 노력을해서 작업을 하였습니다.
내용 부분이 미숙하더라도 이해를 바랍니다.

사설이 길었네요.
문제가 되는 부분에 대해 말씀 드리겠습니다.
대표적으로 os는 윈도우로 말씀드리겠습니다.
한글판( 지역이 korea설정) 윈도우에서 일본어 및 중국어가 원래대로 표기가 안된다고 지금 얘기를 하고 있습니다.
발주처에서도 번역회사에서도 왜 번역된 내용이랑 다르냐고 얘기가 나오고 있습니다.

그러나 지역코드를 일본, 중국으로 변경해서 보면 변역된 형태대로 보입니다.

해당 국가의 폰트는 스타일 시트에서 sans-serif 로 설정되어 있습니다.

이런 표시상의 문제를 확인해 보기 위해 우리나라의 대표 공공기관의 외국어 사이트를 확인해 보았습니다.
근데 표준으로 제작이 안되어 있고 심지어 utf-8로 인코딩되어 있는데 메타테그의 content-type의 charset은 euc-kr인곳도 있더라구요.

일단 제 생각으론 제가 제작을 한게 맞다고 생각하고 있습니다.

이곳 커뮤니티에서 많은걸을 보고 배우기위해 글만보았지만(일면 눈팅) 이런 문제로 글을 작성하리라곤 생각을 못했네요.

만약 제가 제작한 방법이 맞다면, 해당 담당자와 번역회사에 어떤식으로 납득을 시켜야 할까요?

조언 부탁드립니다.

끝으로..
몇일이 지났지만 새해 복 많이 받으시기 바랍니다.

유저 아바타
흑마법사
해커
해커
게시물: 463
참여됨: 2006 10 17 19:13 11
연락:

Re: 질문:외국어사이트의 utf-8코딩

게시물 작성자 흑마법사 » 2009 01 05 21:36 42

이원문 씀:한글판( 지역이 korea설정) 윈도우에서 일본어 및 중국어가 원래대로 표기가 안된다고 지금 얘기를 하고 있습니다.
발주처에서도 번역회사에서도 왜 번역된 내용이랑 다르냐고 얘기가 나오고 있습니다.
구체적으로 어떻게 표기가 안 되고 있으며, 원본이랑 어떻게 다른 건지 말씀을 해 주셔야 다른 분들이 대답하시기 쉬울 거 같습니다. 적어도 제 환경에선 위 페이지들은 대놓고 깨지고 있지는 않으니, 중국어나 일본어를 정확하게 알고 있지 않으면 잘 표시되고 있는걸로 밖에 안 보이거든요.

일반적으로 일어나는 문제라면 한자 표기에서 중국이나 일본에서 쓰이는 글자 대신 한국에서 쓰이는 글자가 쓰인다던가 하는 경우입니다만... 애석하게도 전 중국어는 까막눈이라 도움이 안되고, 일본어는 대충 살펴본 바로는 이런 부분이 보이질 않는데, 말씀하신 "표기상의 문제"가 뭔지 설명을 좀 부탁드립니다. 윈도우즈라도 어떤 버전에서, 어떤 브라우저의 어떤 버전에서 문제가 일어나며, 가능하다면 스크린샷을 첨부해 주신다거나 하시는 것도 큰 도움이 될 것 같습니다.

참고로 전 위 사이트를 XP Professional에선 IE 6.0과 Firefox 3.0.4, 그리고 Chrome 1.0.154.36으로, Ubuntu 8.04 에선 Firefox 3.0.4로 들어가 보았습니다.
마지막 때에 짐승은 무너지고 불신자들은 기뻐하리라. 그러나 모두 소멸되지 않으리니 거대한 새의 재로부터 살아나 불신자들을 잡아 불과 번개로 그들을 덮으리라. 짐승이 다시 살아나 새 힘을 얻으리니 맘몬의 추종자들은 공포에 떨리라.

--모질라서 7장 15절

knhead
게시물: 1
참여됨: 2008 12 02 17:59 57
연락:

Re: 질문:외국어사이트의 utf-8코딩

게시물 작성자 knhead » 2009 01 06 00:41 13

아~
잘못 표시되는 부분에 대한 언급이 없었네요.
간단한게 한가지를 예를 들자면
잘못 표시되는 부분이 충주시 시장님 성함인 김호복"金浩福" 입니다.

해당 페이지 링크는 아래와 같습니다.
http://cj100.jwnwork.net/japanese/sub01/?menucode=01_01

다른 글자의 확인은 좌측 시장님 사진하단에 포토샾으로 작성한 성함이 있습니다.
"福" 를 자세히 보시면 우리가 쓰는 복자와 약간 다릅니다.
좌수변(?)이 형태가 다르죠.

이런 현상들이 있습니다.

제 생각(유추)으로는 우리가 쓰는 윈도우내의 글꼴(기본 글꼴인 돋움 등)에서 표기가능한 한자(히라가나, 가타가나 제외)는 우리가 쓰는 한자로 표기가 되는데
표시할수 없는 일부 약어 한자 학(한자:學, 일본어:学)의 경우는 해당 약어 한자로 표기가 되는 것들이죠.

근데 제어판의 지역을 "일본"으로 변경을 하면 일본 폰트가 우선시되는지 일본에서 쓰는 한자등으로 정상적으로 표기가 되는걸 확인 했습니다.

사이트를 "euc-jp", "jis", "shift_jis" 등으로 인코딩을 하지 않고 "uft-8"로 하는게 개인적으론 좋지만..
외부적으로는(발주처 등) 안좋게 보고 있네요.

언제쯤 이런 표준에 대한 개념이 잡힐지 갑갑합니다.

표준으로 제작을 하면서 더 많은 수고스러움(작업)을 하면 디자인도 좋게 나오지만..
이전의 막코딩(비표준)보다는 보기가 약간이나마 않좋으니(잘하시는 분은 두마리 토끼를 다 잡으시겠지만.) 발주처는 표준인데 왜 이러냐??
뭐 이러기도 하고, 고생해서 표준으로 제작을 해서 나름 생색이라도 내려고 하면 대수 아닌것 처럼 생각하니...
개발자이자 작업자로서는 흥이 안나네요..

추가 사항을 적으려나 푸념만 잔뜩 풀고 가네요.

제 생각으로는 개발자들은 표준에 대한걸 받아 들이고 실천을 하려고 하지만.. 윗분(회사 상사나 사장님)이나 발주처나 담당자(깊히 아는거 보다는 어설프게 아는 분들이 더 무섭더군요.)들이 해당 작업을 대수롭지 않고 중요도에대한걸 모르니 답답할 다릅니다.

아무튼 현재 내부적으로 결정을 내린 바로는..
표준을 지키고 현재 상황을 이해(맞는건데 왜 이러는지 모르겠네요)시키자 입니다.

새해 복 많이 받으세요~

유저 아바타
흑마법사
해커
해커
게시물: 463
참여됨: 2006 10 17 19:13 11
연락:

Re: 질문:외국어사이트의 utf-8코딩

게시물 작성자 흑마법사 » 2009 01 06 01:56 20

아, 분명 예전에는 學/学 이라던가 國/国같은 한자들이 언어 설정따라 엉뚱하게 뜬 걸로 기억하고 있었는데... 기억이 어긋났었나 봅니다. 저런 것만 보고 그냥 뜨고 있길래 맞게 뜨고 있다고 생각해 버렸군요.

각설하고, 지금 쓰고 계신 CSS에서는 지금 상황이 당연한걸로 압니다. 폰트를 구체적으로 정해주신 것 없이 Sans-serif로만 하셨으니, 당연 해당 환경설정을 따라서 지정된 폰트로 렌더링 해 버리는 거죠. 이건 시스템의 언어 설정까지 바꿔줄 것도 없이 강제로 브라우저의 기본 폰트 설정만 바꾸셔도 제대로 뜨는 것을 확인 하실 수 있습니다.

파폭: Tools>Options>Content>Fonts & Colors> Default Font
익스: 도구>인터넷 옵션>일반>글꼴>

이렇게 되는 이유는 유니코드는 각각의 문자에 대해 유일한 코드를 부여하는 역할만 하고, 그 글자를 표현하는 방식은 각각의 프로그램에게 맡겨 버리기 때문입니다. 이것 자체는 상당히 합리적인 구조지만 공요롭게도 한/중/일의 경우, 한자들이 상당부분 겹쳐 버리지요. 만약 유니코드 문자셋이 그 많은 한자들을 한/중/일 버전을 다 따로 가지고 있다면 중복되는 데이터가 3세트씩 있게 되고, 이건 엄청난 낭비므로 같은 글자라고 판단되는 것들은 하나로 묶여 있습니다 (간혹 이러다가 엄한 글자를 하나로 묶어 버리는 경우가 있긴 합니다. -_- 그리고 위에 제가 예로 든 것들도 하나로 묶여 있다고 알고 있었는데... 제가 생각한것보다 기준이 더 복잡한 모양이군요). 이런 글자들은 유저가 쓰고 있는 폰트의 글자로 대치되는 거죠.

좀 삽질스럽지만 제가 알기론 이 상황을 극복하려면 각 언어별 CSS에서 폰트를 강제지정해 주셔야 한다고 알고 있습니다 하지만 윈도우즈만 있는건 아니니, MS말고도 맥킨토시나 리눅스에서 기본으로 쓰이는 글씨체 이름을 알아 내셔서 함께 지정해 주시는게 좋을겁니다.

첨언을 하자면... 개인적으로는 반드시 모든 상황에서 유니코드가 좋은건 아니라고 생각합니다. 유니코드의 장점은 한 환경에서 복수의 언어를 표현 할 수 있다는 겁니다. 해서, 컴퓨터 OS환경이나 위키 같이 무슨 언어가 필요해질지 모르는 상황에서는 굉장한 유연성을 가지게 되지만 지금 같은 상황은 언어가 섞여서 표현될 가능성이 0%니 그 장점보단 단점이 두드러져 버렸군요.
마지막 때에 짐승은 무너지고 불신자들은 기뻐하리라. 그러나 모두 소멸되지 않으리니 거대한 새의 재로부터 살아나 불신자들을 잡아 불과 번개로 그들을 덮으리라. 짐승이 다시 살아나 새 힘을 얻으리니 맘몬의 추종자들은 공포에 떨리라.

--모질라서 7장 15절

댓글 게시

누군가 접속

유저들이 이 포럼을 탐색중: 가입된 유저 없음 그리고 2 손님들