텍스트 브라우징과 정보의 소통

2009.02.26 글쓴이 youknowit

인터넷이 세상에 등장할 무렵인 1992년에 개발된 lynx 라는 텍스트 기반 웹브라우저가 있습니다.

요즘 세상에 텍스트 기반 웹브라우저를 누가 쓴다고 이런 이야기를 하느냐? 고 생각하실지 모르겠습니다. 그러나, 인터넷 이용자들은 이제 텍스트 기반 웹브라우저를 거의 사용하지 않더라도, 웹페이지는 여전히 텍스트 브라우징이 반드시 가능하도록 설계되어야 할 중요한 두가지 이유가 있습니다.

첫째는 시각 장애인들의 정보 접근에 결정적으로 중요합니다. 시각장애인은 텍스트 말고는 의지할 수단이 없습니다(텍스트를 음성으로 자동변환하여 읽어주는 소프트웨어를 시각장애인들은 사용하고 있습니다).

둘째, 검색엔진이 사용하는 검색 로보트는 텍스트로 된 정보만을 식별하므로, 텍스트 브라우징을 지원하지 않는 웹사이트에 담긴 정보는 아예 검색 대상이 되지를 못합니다. 엄청난 정보의 바다에서 검색엔진에 파악되지도 않는 정보라면, 그런 정보는 아무 쓸모없는 것이지요.

이 글은 이 두번째 이유에 관한 것입니다.

웹사이트가 검색 로보트에 의하여 어떻게 인식되는지를 테스트해 볼 수 있는 서비스가 있습니다. 여기에 가셔서, 테스트 하고자 하는 웹사이트 주소를 입력하고 OK를 누르면, 그 사이트의 어떤 정보가 검색엔진에 의하여 파악되는지를 알 수 있습니다.

먼저, 오픈웹 사이트가 어떻게 파악되는지를 한번 봅시다.
s-openweb
첫페이지 뿐 아니라, 거기 나타나는 링크를 클릭하면 해당 페이지들도 모두 정상적으로 나타나는 것을 알 수 있습니다. 검색 로보트는 이 페이지들을 따라가며 정보를 파악할 수 있게 됩니다.

대한민국 전자정부 포탈은 어떨까요?

s-korean-gov

아무 정보도 파악되지 않습니다.

우리 공공기관 웹사이트 대부분은 텍스트 웹브라우징을 지원하지 않습니다. 한 술 더 떠서, “별도의” 텍스트 전용 페이지를 만든 다음, 아무 소용도 없는 정보, 업데이트도 안되는 정보를 담은 페이지 하나 달랑 걸어두고 있습니다. 더욱 딱한 일은, “텍스트 전용”이라는 이런 페이지는 그래픽 전용 시작 페이지의 하위에 있으므로, 검색엔진(이나 시각 장애인)은 그런 페이지가 있다는 사실 조차 알지 못한다는 것입니다.

정부가 국민 모두에게 알리고자 하는 정보들은 무수히 많을 것입니다. 공공기관 마다 웹사이트를 걸어두는 이유도 “알리고 싶은 정보”가 많기 때문에, 그리고 누구라도 그 정보를 접근하고, 사용할 수 있도록 하기 위해서 일 것입니다. 우리나라 법관의 숫자는 얼마인지? 국회의원의 월급은 얼마인지? 대통령 월급은 얼마인지? 역대 경찰청장의 이름은 무엇인지?

우리 국민들은 궁금한 정보가 있으면 고작해야 “네이버 지식IN”에 의존할 수 밖에 없습니다. 네이버 지식인은 이용자들이 일일이 “수작업”으로 찾은 정보를 “수작업”으로 업로드하는 구조에 의존합니다. 네이버 지식인이 나쁘다는 것이 아니라, 우리 나라 웹사이트들이 텍스트 브라우징을 지원하면, 더욱 풍부한 정보를 더욱 많은 사람들이 효과적으로 검색하여 이용할 수 있게 된다는 점을 말씀드리고자 합니다.

그러나, 보석 같이 빛나는 공공사이트들도 있습니다. “한국정신문화의 수도” 안동시의 웹사이트는 검색엔진이 완벽하게 파악할 수 있습니다.
s-andong
나주시청 웹사이트(http://naju.go.kr/01kr/)의 경우는, 비록 텍스트 웹브라우징을 완벽하게 지원하기는 하지만, 검색엔진에는 전혀 파악이 되지 않도록 검색로보트의 출입을 막아 두었습니다[아래 빛알 님의 댓글 참조].

구글 검색창에서 “안동”을 검색하면, 안동시청 홈페이지가 가장 먼저 배치됩니다. “나주”를 검색하면 나주 시청 홈페이지는 나타나지 않습니다. 관련 검색어로 “나주시청”이 나타나는 것을 보면, 실제로 사람들이 나주 시청 홈페이지를 찾으려고, 그 검색어를 많이 입력했음을 알 수 있습니다. 그러나, 막상 “나주시청”을 입력해도, “전남 나주시청”, “전라남도 나주시청”을 입력해도 나주 시청 홈페이지는 나타나지 않습니다.

s-andong-google s-naju-google

그러나 네이버, 다음 검색창에서 “나주”를 입력하면, 나주시청이 “공공기관” 카테고리에 바로 나타납니다. 그 이유는 한국 검색 포탈들은 상당 부분 “수작업”을 가미하기 때문입니다(“나주”가 도시 이름이라는 것을 web crawler가 알수는 없겠지요 ㅠ). 물론, 검색 포탈들이 “수작업”으로 웹 정보를 검색 화면에 뜨게하는 데에는 한계가 있습니다. 고작해야 기관 명칭 등에 국한되는 것이고, 페이지에 담긴 모든 정보를 “수작업”으로 파악하여 검색 서비스를 제공할 수는 없는 것입니다.

궁금한 정보가 있어서 인터넷 검색을 했을 때, 공공기관 웹페이지가 검색되어 나왔던 경험이 있나요? 제 경험으로는 없었습니다. 모두가 블로거, 아니면 개인들의 웹사이트들이 검색 결과로 뜨는 경향이 있습니다. 개인들이 이렇게 정보를 게시하는 수고를 하긴 했습니다만, 공공기관이 공신력 있게 제공하는 정보가 담긴 페이지들을 검색도 되지않게 꽁꽁 감추어 둘 이유가 있나요? “국가 기밀”이라서? “보안”을 위해서? 모든 국민이 알 권리가 있는 정보가 “국가 기밀”이고, “보안” 정보인가요? 이것이 우리 정부가 국민과 “소통”하는 방식인가요?

요즘 세상에 웹사이트가 텍스트 브라우징 지원 쯤이야 안 한들 무슨 문제가 되리? 라는 태도를 취하시면, 결국은 정보 검색을 일일이 “수작업”에 의존할 수 밖에 없는 지경으로 가게 됩니다. 이것이 매우 선진적이고 “그래픽”한 상황인가요?

  • http://kkanari.egloos.com 까나리

    다행히도 제 블로그는 텍스트 브라우징 지원을 하는군요. 국내 사이트는 플래쉬로 도배를 해놓은 곳이 많고 심지어 사이트의 메뉴가 플래쉬로 되어있는곳이 많습니다. 싸이월드처럼 팝업으로 싸이트를 띄우는 곳도 있구요. 위에도 언급하신것처럼 공기업/공공기관에서는 웹표준을 당연히 지켜야 함에도 불구하고 너무나도 방관하고 있네요. 기왕 세금들여서 만들꺼 레퍼런스대로 만들면 되지 않나요 … 덜 이뻐도 떱

  • 우분투

    현재 오픈웹 맨 위 그림을 누르면 이 페이지(http://openweb.or.kr/openweb400.png)로 연결되는데 openweb400.png 그림에 메인 페이지로 링크라도 걸어 주시는게 낫지 않을까요?

  • Hyun

    그건 그림 바로밑에 HOME 라고 링크가 있던데…

  • http://bluecity.tistory.com 푸른도시

    우리나라의 웹사이트는 고속의 전용선 시대로 접어들면서 잘못된 방향으로 간것이 사이트의 대형화입니다. 화려하고 나부끼는것만 선호하는쪽으로 가버려서 정보와 컨텐츠의 질적향상에는 아무런 신경도 쓰지 않고 있지요.
    때문에 교수님이 지적하신것처럼 장애인의 접근성은 완전 무시하는게 현실입니다.
    특히 정부쪽에서 이런부분에는 신경을 써야 하것지만 뭐, 현정권에서 뭘 더 바라것습니까.
    있는거나 망치지 않기를 빌고 또 빌고 있지요….

  • gomibak

    음…괴롭군요. index페이지에서 사정상 바로 리디렉트시켰는데, 이것은 검색이 안되나요? 왜 리디렉트를 찾아가지 못할까요? (어드밴스트에 나타나는 타겟페이지를 클릭하면 찾아갑니다만…) 취지에 안맞는 리플이어서 죄송합니다.

  • http://openweb.or.kr youknowit

    검색엔진이 사용하는 web crawler 가 검색 대상 url 의 리스트를 준비하는 방법은 다양합니다. 따라서 타겟페이지가 이러한 리스트 작성 단계에서 포착될 경우에는 그 페이지(및 일정 수준의 그 하위 페이지들)의 내용이 index될 수 있지만, 그렇지 못하면 검색에서 완전히 소외되겠지요.

    http://en.wikipedia.org/wiki/Search_robot 에 좀 복잡한 설명이 있네요.

  • gomibak

    김교수님께서 애써주신 덕분에 조금씩 나아지고 있는듯하여 김교수님께 감사한 마음을 가지고 있습니다. 또 일일이 답글을 달아주시고, 또한 빠른 답글을 주셔서 감사합니다.

  • 빛알

    교수님, 말씀하신 것에 대해서 저도 전적으로 동감입니다.

    단, 나주 시청 문제는 약간 잘못 알고 계신 듯 합니다. 나주 시청 웹 사이트가 구글에서 안 보이는 이유는 인코딩이 EUC-KR이어서가 아닙니다. 만일, 그렇다면 한국의 수많은 웹 사이트 (여전히 EUC-KR로 인코딩된)는 구글에서 어떻게 검색이 되겠습니까? seo_browser.com에서 몽땅 깨져서 나오는 이유는 전적으로 seo-browser.com의 잘못입니다. EUC-KR을 제대로 처리 못 하고 있네요.

    물론, 저는 UTF-8을 써야 한다고 10년도 전부터 외치고 다녔고, 지금도 그렇게 합니다.

    어쨌든, 나주시청 웹 사이트가 구글 검색에서 안 나오는 진짜 이유는 robots.txt 때문입니다. http://www.naju.go.kr/robots.txt
    에서 크롤링을 전면 금지해 놓았습니다. 한국의 많은 정부 및 공공 기관 웹 사이트들이 그렇게 하고 있습니다. 왜 그런지는 상상에 맡기겠습니다. :-)

    웹 검색 회사들이 seo-browser.com 정도 밖에 못 하면, 당장 망하겠지요 :-) 거기에 나오는 것보다 내용 파악을 위해 훨씬 더 많은 일을 하지 않으면 살아 남지 못 하지요. 그래서, 접근성 있게 만들어야 웹 검색 엔진에서도 더 잘 검색된다는 말을 예전처럼 자신 있게 할 수 없습니다. 이런 얘기는 접근성 홍보를 위해서는 하지 않아야 하는데 …:-)

    정부 및 공공 부문 웹 사이트의 접근성 문제 : 그동안 몇몇 분들의 꾸준한 노력으로 몇 년 전에 비하면 상당히 좋아졌습니다. 물론, 아직 문제도 많고, 갈 길이 멀지요. 거의 변화를 보이지 않는 곳은 다른 부분 (인터넷 쇼핑몰, 미디어 사이트, 방송국, 은행, ….)입니다.

    지엽적인 문제에 대해 너무 길게 썼습니다. 다시 한번 강조하지만, 교수님이 글 쓰신 뜻에는 저도 100% 공감합니다.

  • http://openweb.or.kr youknowit

    오랫만 입니다. 지적해 주셔서 고맙습니다(안그래도 좀 이상했더랬습니다). 수정하겠습니다.

  • 지니

    대부분의 많은 전자정부 사이트들이 검색엔진의 크롤링을 거부하고 있더군요.
    (http://www.ringblog.net/1151 참조)
    이유는 몇년전에, 전자정부의 어떤 사이트에서 Admin 페이지가 노출된적이 있었습니다.
    그래서, 그 Admin 페이지에 있던 개인정보들이 대량으로 유출되었죠. 그 이후 그 사이트 뿐만 아니라 다른 전자정부 사이트들도 연이어 개인정보 유출 사건이 발생했고, 그 이후 행자부에서, 개인정보 유출에 관한 지침을 만들어서 배포했고, 거기에는 검색 로봇 크롤링 차단에 관한 정보가 담겨져 있죠.
    그 이후 많은 전자정부 사이트들이, 크롤링을 거부하는 구문을 삽입하고 있습니다. 사실 근본 문제는 검색엔진이 크롤링 하는것이 근본 문제가 아니죠.
    애초부터 사이트를 잘못 설계한것이죠. 검색엔진이 설사 크롤링 한다 하더라도, admin 페이지가 유출되는건 정상이 아니죠.
    admin 페이지는 완전 무결하게, 다른 에이전트가 접근 할 수 없어야 하는것이 정상입니다.
    그런데 거기에 대한 기술적인 무지의 결과로, 근본 문제를 해결하는 것이 아니라, 임시방편적인 해결로 이어진것이죠.

  • http://snowall.tistory.com snowall

    제 생각엔, 임시방편이랍시고 뭔가 해놨지만 아무것도 해결된 것이 없어 보이네요.

  • http://www.open.go.kr lecore

    공공기관 웹사이트 개발을 하고 있는 기획자입니다.
    공공기관의 검색엔진 등록문제와 관련하여 부가설명을 드리자면, 지니 님의 말씀처럼 (구)행정자치부의 개인정보노출방지 가이드라인에 의해 모든 전자정부 웹사이트는 기본적으로 크롤링을 거부하고 있습니다. admin 접근권한과 같은 문제는 이미 2007년 이후에는 대부분 해결되었으나, 아직 내부 행정문서의 외부 공개시 포함된 개인정보 때문에 현행 지침이 그대로 유지되고 있는거죠.
    원칙적으로 내부 업무용 문서와 외부 공개문서는 문서작성 담당자의 자기검열에 의해 개인정보가 포함된 부분을 삭제하거나 유사기호로 변경해야 합니다만, 하루에도 수십건의 문서를 다루는 지원부서의 경우 현실적으로 자기검열이 불가능합니다. 현재 발생하는 공공기관 개인정보 노출의 대부분이 이런 일괄검토 과정에서 검열되지 않은 개인정보가 포함된 문서나 첨부파일이 외부로 공개되는 경우입니다.
    물론, 외부 웹사이트에 개인정보노출 차단/진단 솔루션이 운영되고 있으나 이는 사후 처방일 뿐이고 근본적인 문제해결은 아닌 듯 합니다.
    저도 컨설팅시에 내부업무시스템과의 연결점에 개인정보노출 차단/진단 장치를 마련할 것을 계속 말씀드리고 있는데, 아직은 정부의 정보화 예산이 그 부분까지 투자될 여유는 없는 듯 합니다.
    아무튼… 이렇다는 얘깁니다.

  • 빛알

    거의 초현실주의적인 상황이지요. 이게 이른바 ‘IT 강국’ (도대체, 그런 황당한 얘기는 누가 만들었는지 모르겠어요)의 현실이지요.

    robots.txt를 넣어 보았자, 누군가가 악의를 가지고 쉽게 구할 수 있는 크롤러를 설치하고 설정을 변경한 후, 정부/공공 기관 웹 사이트를 크롤해서 주민등록번호를 비롯한 민감한 정보를 꺼내 가면 어떻게 할 것인지 묻고 싶군요. 하드 디스크 값은 싸지, 네트웍은 빠르지 한국의 모든 공공 기관 웹 사이트를 크롤하는 일은 별로 어렵지 않습니다.

  • http://openweb.or.kr youknowit

    예, 정부는 robots.txt가 검색 로보트를 ‘막을 수 있다’고 오해하는 것 같습니다. 이 파일이 있으면, 선량한 검색 로보트가 ‘자발적으로’ 정보 수집을 자제하는 것일 뿐, 악의적 web-crawler 소프트웨어는 당연히 이 파일을 무시하고 모두 수집하지요.

    즉, robots.txt 는 모든 선량한 이용자들이 정보를 검색, 사용할 수 없게 만들고, 악의적 공격자에게는 아무 방어수단도 될 수 없는 것입니다.

    오히려, 이 파일 하나 만들어 두었으니 crawler가 “못들어올 것”이라고 착각하고, 웹서버를 더욱 방만히 운영하게 될 뿐입니다.

  • yjh1083

    김기창 교수님께 질문이있습니다.
    교수님께서 저술하신 “한국 웹의 불편한 진실”이란 책을 읽고 궁금한 점이 있는데
    우리나라 정부에서는 무슨 이유때문에 공공웹페이지에 텍스트 브라우징을 도입하지 않는거죠?(전부는 아니지만..) 책에선 주민등록번호 등 개인정보 유출문제때문에 검색로봇의 출입을 막는다고 되어있는데 혹시 예산상의 문제때문은 아닐까요? 현재 웹 페이지에 텍스트브라우징 기능을 추가하는데 대략 얼마 만큼의 예산이 소요될까요?
    그리고 교수님 생각에 공공웹페이지에서 텍스트 모드를 지원하였을때 일반인이 이용하는 그래픽 중심의 사이트와 시각장애인이 사용하는 텍스트 중심의 사이트는 일원화되야 한다고 생각하시나요? 아니면 이원화되어야 한다고 생각하시나요? 요즘 추세가 통합하는게 추세이긴 하지만 통합한 후에도 여전히 시각장애인에 대한 배려가 부족하여 그들이 공공웹사이트를 이용하는데 불편을 느끼고 있는 것 같아서요. 질문이 너무 두서없긴 하지만 교수님의 생각을 감히 여쭙니다.

  • http://openweb.or.kr youknowit

    웹페이지 구축을 표준에 맞게 제대로 하면, 텍스트 모드 지원을 “별도로” 돈을 들여 해야되는 것이 아닙니다. 원래 웹페이지 제작기술을 제대로 구사하면 그래픽 기능이 있는 웹브라우저는 그래픽내용을 볼 수 있고, 그래픽 기능이 없는 웹브라우저는 텍스트만으로 불편 없이 해당 페이지를 이용할 수 있게됩니다.

    요컨대, 제대로된 기술 기준을 배우고 그 기준에 맞추어 페이지를 제작하면 됩니다. 그런 기술을 구사할 능력이 있는 개발인력이 국내에는 상대적으로 적었지만(그래서 그분들의 단가가 상대적으로 비쌌지만), 이제는 업계의 기술 수준이 많이 향상되어 앞으로는 더이상 “별도의” 텍스트전용 페이지를 만드는 이상한 작업을 할 필요가 없어질 것입니다.