검색막대에 검색 엔진 추가하기

빛알갱이 · Post by **빛알갱이** » 2005 02 03 01:54 25

http://www.unicode.org/faq/utf_bom.html
여기에 UTF-*에 대한 아주 좋은 설명이 있는데, 괜히 길게 썼군요...

생명나무1 · Post by **생명나무1** » 2005 02 03 04:33 54

빛알갱이 wrote:http://www.unicode.org/faq/utf_bom.html
여기에 UTF-*에 대한 아주 좋은 설명

빛알갱이님. 영문 홈페이지이네요. 한글 홈페이지인데 잘 설명된
홈페이지가 있으면 부탁드려요. 영어는 정말 모르거든요...

빛알갱이 · Post by **빛알갱이** » 2005 02 03 14:03 01

생명나무1 wrote:
빛알갱이 wrote:http://www.unicode.org/faq/utf_bom.html
여기에 UTF-*에 대한 아주 좋은 설명
빛알갱이님. 영문 홈페이지이네요. 한글 홈페이지인데 잘 설명된
홈페이지가 있으면 부탁드려요. 영어는 정말 모르거든요...

죄송합니다만, 잘 모르겠습니다. 찾아 보면 어딘가 있을지도.. 그런데, 자세히 모르셔도 되는데.... (좀 오래되어서 유니코드에 대한 설명이 정확할지 잘 모르겠지만, '이상로 한글 코드'로 해서 검색 엔진으로 찾아 보세요. 또, '정주원 ISO 10646'으로 검색 엔진에서 찾아 보시고요. 구글 뉴스 그룹 검색에서 han newsgroup (han.comp.*)에 지난 세기 말에 올린 제 글도 찾아 보세요. 어떻게 찾냐고요? 재주껏...

)

0. 유니코드/ISO 10646 이전에는 각국 혹은 각 지역에서 주로 사용하는 언어의 표기에 쓰이는 글자(100여자에서 많아야 1-2만자)들만을 모아서 서로 호환성이 없고, '충돌'하는 문자 인코딩 방법을 사용했다. 이에 따라 정보 교환 등에 문제가 많았고, 영어와 러시아어, 불어와 그리스어를 한 문서에 (인터넷 상의 메일과 같은) 같이 포함하기가 불가능하거나 힘들었다. 한국, 중국, 일본, 대만에서 쓰던/쓰는 문자 집합은 그 크기가 커서 그리스 글자, 키릴 글자 등을 상당수 포함하고 있기는 하지만, 유니코드에 비할 바는 아니다.

1.
유니코드/ ISO 10646은 전 세계의 현존하는 또 존재했던 모든 글자를 컴퓨터 상에서 표현하기 위한 단일한 표준이다.

2. 그렇게 하기 위해서 우선 글자의 집합 (수학적 의미의 집합)을 결정한다. 어떤 것이 글자이므로 넣어야 되고, 어떤 것은 글자가 아니고 도형이나 다른 것이므로 글자가 아니라고 간주해서 넣지 않을 것인지 정한다. {A, B, C, 가, 각, 一}

3. 그 집합에 속하는 각 글자에 대해 고유한 정수값을 부여한다. 이렇게 글자와 정수를 1:1로 대응시킨 쌍의 집합을 'Coded Character Set'이라고 한다. 한글 음절 '가'에는 0xAC00이란 정수를 대응시켜 놓았고, 라틴 글자 'A'에는 0x0041을 대응시켜 놓았다. { (A, 0x0041), (B, 0x0042), (C, 0x0043), (가, 0xAC00), (각, 0xAC01), (一, 0x4E00) }

4. 그 정수값만 주면 글자를 식별할 수 있지만, 그 정수를 컴퓨터 내부에서 어떤 식으로 저장하고 처리하느냐에 따라 UTF-8, UTF-16, UTF-32 등의 방법이 있다. 8, 16, 32는 각각의 방법에서 기본 단위(code unit)가 몇 비트인가를 나타낸다. UTF-8은 바이트(=8비트)가 기본 단위이므로 8, UTF-16은 half-word(=16 비트 = 2 바이트)가 기본 단위이므로 16과 같은 식이다. UTF-32에서는 기본 단위가 32 비트(=4 바이트)이다.

5. 컴퓨터와 컴퓨터 사이에 데이터를 주고 받을 때 편리한 단위가 바이트이다. 기본 단위가 바이트가 아닌 UTF-16과 UTF-32는 이를 위해 바이트의 열로 변환할 때 높은 자리의 바이트를 앞에서부터 두느냐 혹은 뒤에서부터 두느냐에 따라 Big Endian(d인텔 및 호환 프로세서를 제외한 모든 프로세서에서 쓰는 방식:IBM, Sun, SGI, Digital, ARM 등)과 Little Endian(인텔 및 그 호환 프로세서에서 쓰는 방식) 두 가지 표현 방법으로 나뉜다..
(UTF-8은 원래부터 바이트가 기본 단위이므로 endian을 따질 필요가 없다. )

6. 예) UTF-8에서는 'A가'란 문자열은 '0x41 | 0xEA 0xB0 0x80'의 4바이트로 나타내어진다.
( UTF-8에 대한 자세한 내용은 앞 글에서 언급한 RFC 참고)
UTF-16BE : 0x00 0x41 | 0xAC 0x00
UTF-16LE : 0x41 0x00 | 0x00 0xAC
UTF-32BE : 0x00 0x00 0x00 0x41 | 0x00 0x00 0xAC 0x00
UTF-32LE : 0x41 0x00 0x00 0x00 | 0x00 0xAC 0x00 0x00,

EUC-KR에서는 '0x41 | 0xB0 0xA1' ('A'를 표현하는 방법이 UTF-8과 EUC-KR에서 같음에 유의)

위의 모든 보기에서 '|'는 글자와 글자 사이 경계를 나타내기 위해 넣은 것임.

영어를 몰라도 제가 여기서 언급한 유니코드 4.0 표준의 2장에 있는 그림만 보아도 이해하기 훨씬 쉬울 것입니다. (제가 설명한 5단계에 해당하는 그림이 아마 거기에 있을 것입니다.) 제가 자세하게 설명하자면 끝도 없고, 그렇다고 아주 간단하게 하면 그 과정에서 잘못된 인상을 줄 수도 있고... 양 극단 가운데 어느 쪽도 고를 수가 없어서 어중간하게 설명하고 있습니다. 그러다 보니, 이도 저도 아닌 이상한 설명이 되고 있군요.

생명나무 · Post by **생명나무** » 2005 02 04 05:12 20

네이버로 검색해서 보았습니다. 아직 조금 밖에 못 봤지만,
세계의 문자를 컴퓨터로 표현하는 것이 어려운 것이라는 것을
되새겨 봅니다. 그냥 한글을 사용하는 것이 당연하다고만 생각하고
이었는데, 다양한 원칙들에 의해서 구현된다는 것을 알게 되었습니다.

후니미닉 · Post by **후니미닉** » 2005 03 26 14:47 03

곰 wrote: <input name="sourceid" value="Mozilla-search">
input 태그는 name에 변수명을 입력하고 value에 값을 입력합니다. sourceid 변수는 검색 엔진에 어떤 브라우저를 사용하고 있는지를 알리기 위해 사용합니다. 모질라 제품을 사용하고 있음을 알리기 위해 이 태그는 반드시 사용합시다.

한국모질라업데이트의 검색엔진을 추가하려고 합니다.
근대 저코드를 넣으니 검색이 안되는군요

무슨문젠지?
빼도 상관없는 코든가요?

후니미닉 · Post by **후니미닉** » 2005 03 26 14:55 13

프랙탈 wrote:
곰 wrote: <input name="sourceid" value="Mozilla-search">
input 태그는 name에 변수명을 입력하고 value에 값을 입력합니다. sourceid 변수는 검색 엔진에 어떤 브라우저를 사용하고 있는지를 알리기 위해 사용합니다. 모질라 제품을 사용하고 있음을 알리기 위해 이 태그는 반드시 사용합시다.
한국모질라업데이트의 검색엔진을 추가하려고 합니다.
근대 저코드를 넣으니 검색이 안되는군요
무슨문젠지?
빼도 상관없는 코든가요?

살펴보니 이 코드문제가 아니라 문자인코딩설정 때문이었습니다.

mithrandir · Post by **mithrandir** » 2005 07 13 15:21 43

1. 한동안 방치해놓고 있다가 불여우를 1.0.4로 업데이트한 김에, 그동안 쓰던 src 파일들을 정리했습니다. 이 쓰레드의 도움을 많이 받았네요.

일본 dvd를 찾아볼 일이 종종 있어서 아마존 재팬과 cdjapan.co.jp를 만들어보았구요. 이전에 다른 분이 만들어주셨다가 동작이 되지 않아 쓰지 못하고 있던, 한국영상자료원 db와 네이버영화 db 파일도 수정했습니다.
한국영상자료원이나 cdjapan이나, 일부러 인명이나 제목이 아닌 all로 검색되도록 해두었습니다. 이쪽이 훨씬 편리하더군요. 구태여 검색 파일을 두 개 이상 따로 만들 필요도 없구.

아마존jp의 아이콘은 그냥 아마존 아이콘 그대로 쓰고 있고, 네이버 film 아이콘은... 그냥 모자 달린 날개로 쓰고 있습니다. 한국영상자료원은 따로 아이콘을 만들어봤는데 그런대로 깨끗합니다.

http://www.mithrandir.co.kr/firefox/amazoncojp.png
http://www.mithrandir.co.kr/firefox/amazoncojp.src
http://www.mithrandir.co.kr/firefox/cdjapan.src
http://www.mithrandir.co.kr/firefox/kor ... rchive.png
http://www.mithrandir.co.kr/firefox/kor ... rchive.src
http://www.mithrandir.co.kr/firefox/naver_films.png
http://www.mithrandir.co.kr/firefox/naver_films.src

대부분 http://mycroft.mozdev.org/ 에서 가져온 src 파일이나 이전에 다른 분이 만들어주셨던 파일들을 수정한 것이기 때문에, 파일 안을 들여다보면 쓸데없는 군더더기나 잘못된 부분이 있을 수도 있습니다. (검색에 별 무리가 없는 걸로 보아 이상이 없는 것 같기도 합니다만.) 혹시 여유가 되시는 분들은 지적해주셔서 완벽한(!) 파일들로 업그레이드시켜주셔도 감사하겠습니다.

2. 사실 가장 필요한 것은 알라딘 검색인데, 이건 어떻게 만들어야 할지 모르겠네요. 주소창에도 안뜨고 위의 곰님이 알려주신 창고닷컴 관련 팁처럼 프레임으로 볼 수도 없군요.

이즌해 · Post by **이즌해** » 2005 07 16 00:18 00

# Aladdin Book Search

<search
version = "0.5"
name="Aladdin"
description="Aladdin Book Search"
searchForm="http://www.aladdin.co.kr"
method="GET"
action="http://www.aladdin.co.kr/search/wsearchresult.aspx"
queryEncoding="EUC-KR"
queryCharset="EUC-KR"
>

<input name="SearchTarget" value="Book">
<input name="KeyWord" user>
<input name="sourceid" value="mozilla-search">

</search>

요렇게하세요~
인코딩이 저게 맞을까 모르겠네요.
저희 집은 됐는데.

알라딘 음반,dvd,화장품으로 검색하시려면
<input name="SearchTarget" value="Book"> 대신에

음반인 경우
<input name="SearchTarget" value="Music">

dvd인 경우
<input name="SearchTarget" value="DVD">

화장품인 경우
<input name="SearchTarget" value="Beauty">

로 바꾸시면 됩니다.

근데 도서로 기본 검색을 해도 탭으로 클릭한번에 다른 분야로 가니
그다지 불편함은 없을듯 싶습니다.

빛알갱이 · Post by **빛알갱이** » 2005 07 16 02:26 42

queryEncoding은 필요 없습니다. 넣지 마세요. 바로 이 글타래에서 제가 이미 그렇다고 썼답니다

mithrandir · Post by **mithrandir** » 2005 07 25 01:46 54

답글이 너무 늦었지만 위 답변에 감사드립니다. 유용하게 잘 쓰고 있어요.
아이콘을 대충이나마 만들어봤는데 영 어색하네요.

http://www.mithrandir.co.kr/firefox/aladdin.gif

free69 · Post by **free69** » 2005 09 24 08:54 39

안녕들 하세요.
다음은 원래 EUC-KR환경에서 잘 작동이 되던 영한/한영사전 검색소스인데요,
페이지를 UTF-8로 바꾸니 한글검색어가 깨져서 입력되어 버립니다.
입력된 그대로 나타나게 하려면 어떻게 해야 하나요?

<form method=\"GET\" action=\"http://kr.engdic.yahoo.com/result.html\" target=\"_blank\">
<input type=\"text\" name=\"p\" size=\"12\">
<input type=\"image\" src=\"button.gif\" alt=\"\" size=\"18\" align=\"absmiddle\">
<input type=\"hidden\" name=\"yid\" value=\"guest\" size=\"1\"></form>

* 두번째 줄 name=\"p\"에서 P가 검색어이고, 도움을 검색하면 검색 페이지에서는 다음과 같이 나타납니다.
http://kr.dic.yahoo.com/search/eng/sear ... t&x=32&y=8
즉, 25EB%258F%2584%25EC%259B%2580 ==>> "도움" 이라고 표시되어야 합니다.

빛알갱이 · Post by **빛알갱이** » 2005 09 24 10:25 57

free69 wrote:안녕들 하세요.
다음은 원래 EUC-KR환경에서 잘 작동이 되던 영한/한영사전 검색소스인데요,
페이지를 UTF-8로 바꾸니 한글검색어가 깨져서 입력되어 버립니다.
입력된 그대로 나타나게 하려면 어떻게 해야 하나요?

이 글타래는 님의 질문과 관련이 없습니다. 어쨌든, 아래처럼 'accept-charset="euc-kr"'을 더해 보세요.

Code: Select all

<form method="GET" action="http://kr.engdic.yahoo.com/result.html"
accept-charset="euc-kr">
<input type="text" name="p" size="12">
...................
</form>

accept-charset을 지정하지 않으면 대부분의 브라우저는 현재 문서의 인코딩을 써서 form 입력값을 인코드한 후 써버에 제출합니다. 따라서, 이런 경우 현재 문서의 인코딩(UTF-8)과 써버쪽에서 기대하는 인코딩(EUC-KR)이 다르면 문제가 생깁니다. 이처럼 두 인코딩이 다르다면, form에서 accept_charset을 써서 써버쪽이 기대하는 인코딩을 써 주어야 합니다. 여기에 쉼표로 분리해서 여러 개를 지정할 수도 있는데, 이 경우 클라이언트는 자신이 지원하는 인코딩을 골라 씁니다.

http://www.w3.org/TR/html4/interact/forms.html

를 참고하세요.

free69 · Post by **free69** » 2005 09 24 11:43 14

글타래... 처음 듣는 말입니다. THREAD라는 뜻 같은데 아뭏든 신기한 말이군요.

그런데, accept-charset=\"euc-kr\" 를 첨가해 보아도 한글이 찢어지는군요.
저의 pws는 http://fax.w3ip.co.kr/index.php 입니다.
툴바의 상단 우측에 검색소스가 있습니다.

빛알갱이 · Post by **빛알갱이** » 2005 09 24 16:36 12

free69 wrote:글타래... 처음 듣는 말입니다. THREAD라는 뜻 같은데 아뭏든 신기한 말이군요.

한국어가 모국어가 아니신가 보지요?

그런데, accept-charset="euc-kr" 를 첨가해 보아도 한글이 찢어지는군요.
저의 pws는 http://fax.w3ip.co.kr/index.php 입니다.
툴바의 상단 우측에 검색소스가 있습니다.

저는 잘 되는데요. action에 쓴 url로 .....result.html을 쓰지 마시고 (어째서 그것을 쓰실 생각을 하셨는지 알 수 없군요. 그것을 썼기 때문에 '%xx'가 다시 %-encoding이 되어서 '%25....'와 같은 식으로 된 것입니다.) 야후 사전에서 쓰는 url을 써 보세요.

Code: Select all

 <form method="get" 
            accept-charset="euc-kr"
            action="http://kr.dic.yahoo.com/search/eng/search.html">
            <input type="text" name="p" size="12"> 
            <input type="submit">
 </form>

free69 · Post by **free69** » 2005 09 24 19:42 23

음, 오늘 하루 종일 매달려서 씩씩거렸지만 안되는군요.
물론, 빛알갱이님의 두번째 소스로도 저에게는 마찬가지입니다.

그런데 참 이상한 것은 구글검색은 원래의 소스 그대로 검색이 됩니다.
즉, ... name=\"ie\" value=\"UTF-8\"... 으로 SUBMIT을 하게 되면
...search?ie=UTF-8&q=%ED%8C%8C%EC% 으로 검색이 진행되는거죠.

역시 구글은 좀 다르다는 것을 느낍니다.

빛알갱이 · Post by **빛알갱이** » 2005 09 25 00:29 31

free69 wrote:음, 오늘 하루 종일 매달려서 씩씩거렸지만 안되는군요.
물론, 빛알갱이님의 두번째 소스로도 저에게는 마찬가지입니다.

그 페이지의 내용을 바꾸고 시험을 해 보신 것 맞나요? 지금도 result.html을 쓰고 있고, accept-charset도 지정되어 있지 않은데요.

그런데 참 이상한 것은 구글검색은 원래의 소스 그대로 검색이 됩니다.
즉, ... name="ie" value="UTF-8"... 으로 SUBMIT을 하게 되면
...search?ie=UTF-8&q=%ED%8C%8C%EC% 으로 검색이 진행되는거죠.

역시 구글은 좀 다르다는 것을 느낍니다.

이상할 것 없답니다. ie를 UTF-8로 하면 google은 클라이언트가 보내는 값을 UTF-8로 해석하니까, UTF-8 page에서 굳이 accept-charset을 지정하지 않아도 잘 되는 게 당연합니다.

free69 · Post by **free69** » 2005 09 25 11:41 44

안녕하세요.
현재의 홈 페이지에는 어떻게 되어 있든지 빛알갱이님이 알려 주신 방법, 기타 encodingcharset='euc-kr' 또는 다른 여러 가지 코드로 도 시도해 봤지만 안되더군요.
$a=urldecode(p) 로 해 봐도 안되네요.
그리고, eng/search.html 이나 /result.html이나 바꿔서 해봤지만 마찬가지인데 역시 야후의 내부코드가 같으니 달라질 것 없다는 생각이 듭니다.

그런데, 빛알갱이님은 잘 된다니 참 의아합니다.
저는 아시는 바와 같이, 페이지 top에 @mysql_query("set names utf8"); 이 있고 디비는 mysql 4.1.11로 utf8, collation utf8_general_ci, 등인데요.

그래도 요즘 홈에서 한글이 깨진다고 하소연 하는 분들이 많아 팁도 만들어 뿌렸답니다.
http://phpschool.com/bbs2/inc_view.html ... id=&s_que=

123 · Post by **123** » 2006 11 23 16:26 58

첸.. wrote:훨씬 편리하네요~

감사~

Mozilla 한국 커뮤니티

검색막대에 검색 엔진 추가하기

UTF-8, UTF-16, UTF-32,

Re: UTF-8, UTF-16, UTF-32

Re: UTF-8, UTF-16, UTF-32

답글 감사합니다.

Re: 검색막대에 검색 엔진 추가하기

Re: 검색막대에 검색 엔진 추가하기

몇가지 검색엔진, 그리고 알라딘은 어떻게?

알라딘 검색은.

검색소스 질문

Re: 검색소스 질문

Re: 좋은 정보 감사합니다~