평소 검색창에 단어를 쓸 때 영화의 전체 제목이 생각이 나지 않거나 모든 검색어를 입력하기 번거로웠던 경험이 있을 것이다. 이러한 불편함을 해결하기 위해 자동완성 기능이 등장했다. 자동완성 기능을 사용하면 기존에 모든 검색어를 입력해야 했던 것과 달리 검색하고자 하는 단어 일부분만 입력해도 연관된 검색어를 확인할 수 있다. 나아가 기술의 발전으로 이젠 다른 사람들이 관심 있는 단어들을 보여주며 검색어를 추천하기도 한다.
 

자동완성 검색어가 제공되기까지

자동완성 기능은 검색어의 출현 빈도 분석을 통해 다음에 나올 단어를 추천한다. 주로 일상에선 포털 사이트 내 검색 서비스를 통해 자동완성 기능을 접할 수 있다. 경희대학교 최석재 학술연구 교수는 “사람들이 검색한 데이터들을 기반으로 특정 단어를 입력했을 때 함께 검색된 경우가 많은 단어를 보여준다”고 말했다.

본교 홈페이지의 숙명통합검색에서도 자동완성 기능을 사용할 수 있다. 검색창에 특정 단어를 검색할 때 관련 있는 단어가 검색창 아래에 나타난다. 본교 김덕현 커뮤니케이션팀 과장은 “이전의 홈페이지는 자동완성 검색 기능이 존재하지 않아 학교 정보를 찾는 데 많은 시간이 소요됐다”며 “자동완성 기능을 통해 자료를 빠르고 정확하게 학생들에게 제공할 수 있어 시스템에 수정을 거치면서 운영하고 있다”고 말했다.

본교 포털사이트는 자동완성 기능을 통해 검색어가 포함된 단어를 자주 검색되는 순서로 제공하고 있다. 김 과장은 “입력한 검색어에 맞는 인기 검색어가 정확도 순으로 제시되며 이는 *낱글자 단위로 추천된다”며 “인기 검색어의 정확도는 사진 자료의 주황색 막대기의 개수로 파악할 수 있다”고 말했다.

이는 입력된 글을 형태소 단위로 분석해 자동완성 기능을 수행하는 것이다. 최 교수는 “분석하려는 문장이 여러 단어를 포함하면 사용 빈도가 낮아지기 때문에 문장을 작은 단위로 분리하는 것이 중요하다”고 말했다. 이러한 과정은 ‘텍스트 마이닝(Text Mining)’의 한 사례다. ‘IBM Knowledge Center’에 의하면 텍스트 마이닝은 문장의 핵심 내용을 파악하기 위해 수많은 텍스트 자료를 분석하는 것이다. 최 교수는 “자동완성 기능에는 텍스트 마이닝의 방법의 하나인 형태소 분석이 사용된다”고 말했다. 형태소 분석기는 문장을 단어, 혹은 이보다 작은 수준으로 나눠 무질서한 텍스트 자료를 유형화한다.

텍스트 마이닝 기술의 발전은 자동완성 기능의 정확성을 높인다. 성결대학교 한경수 텍스트마이닝 연구실 교수는 “언어학적 텍스트 마이닝은 단어 및 문장의 형태와 의미를 분석하고 그 결과를 바탕으로 의미 있는 정보를 추출한다”고 말했다. 예를 들어 ‘배는 맛있다’, ‘배가 부르다’, ‘배가 출항한다’라는 세 문장에는 모두 의미가 다른 ‘배’라는 단어가 포함된다. 언어학적 텍스트 마이닝은 컴퓨터 언어로 변화시키는 과정에서 세 문장에 사용된 배를 문맥에 따라 다른 단어로 파악하지만, 비언어학적 텍스트 마이닝은 세 문장의 배가 같은 단어가 사용됐다고 분석한다. 최 교수는 “언어학적 텍스트 마이닝은 많은 자료와 시간이 필요하다”면서도 “문장의 맥락을 반영하지 않는 비언어학적 텍스트 마이닝보다 비교적 정확한 결과를 산출한다”고 말했다.

자동완성 이외에도 텍스트 마이닝이 활용되는 분야는 다양하다. 단어의 관련성을 파악하는 텍스트 마이닝을 이용해 신문사의 논조, 국가 정책의 동향, 특정 분야의 유행을 분석한 논문이 발행되고 있다. 이처럼 텍스트 마이닝의 원리는 방대한 정보를 처리해 현상을 나타내는 데도 적용될 수 있다. 최 교수는 텍스트 마이닝의 활용 방향에 대해 “자신이 입력하는 글의 내용에 적합한 이모티콘(Emoticon)의 자동 생성, 개인의 언어 습관 분석 등의 이점을 누릴 수 있다”며 “텍스트 마이닝은 이제 시작 단계에 놓인 기술로 무한한 가능성을 갖고 있다”고 말했다.

텍스트 마이닝은 핵심 단어에 수반되는 감정까지도 분석한다. 이는 명사와 동사가 감정을 표현하는 기능을 한다는 점에 기반한다. 최 교수는 “‘행복’ ‘멋지다’ ‘예쁘다’와 같은 단어를 통해 주제에 대한 긍정적인 태도를 알 수 있고 ‘실패’ ‘맛없다’와 유사한 단어를 통해 부정적인 태도를 파악할 수 있다”고 설명했다. 예를 들어 사용자가 ‘청파동 맛집’을 입력한다면 사용자가 청파동과 맛집에 관심이 있음을 예측할 수 있다. 한편, 사용자가 ‘오이 맛없다’를 입력한다면 오이에 대한 사용자의 태도가 부정적임을 알 수 있다.


올바른 활용 높아지는 신뢰

아직 개발 단계인 텍스트 마이닝에는 인간의 언어를 컴퓨터가 완벽히 이해하지 못한다는 한계를 갖는다. 최 교수는 “한국어를 기반으로 한 텍스트 마이닝은 명사와 동사 외의 품사에 대한 정보를 추출하는 방법은 아직 개발되지 않았다”며 “품사 구분이 가능하나 문장 구조를 파악하는 기술이 부족해 단어 간 관계를 파악하기 어렵다”고 말했다. 한 교수는 “의미가 모호한 인간의 언어를 컴퓨터가 파악할 수 있는 언어로 변화하는 기술을 강화할 필요가 있다”고 말했다.

이용자가 자동완성을 통해 올바르게 상품에 접근하기 위해서 광고 회사의 윤리적인 자세가 필요하다. 김경아(중어중문 15) 학우는 자동완성 광고에 대한 질문에 “지나친 광고라는 생각에 오히려 제품의 성능과 품질을 의심하게 된다”고 말했다. 이에 본교 문장호 홍보광고학과 교수는 “자동완성 기능을 조작해 단어의 빈도수를 늘려 회사 상품을 알리는 것은 광고라고 할 수 없다”며 “반면 상품이 실제 선호를 반영한 경우 이는 소비자에게 도움이 될 뿐만 아니라 광고에 투자되는 비용을 절감할 수 있다는 점에서 효과적일 수 있다”고 말했다. 이어 문 교수는 “검색어 빈도 조작 여부를 감독하고, 정식 출시된 자동완성 광고를 집행해 광고임을 명시한다면 소비자들도 검색 결과를 신뢰할 것이다”고 설명했다.

텍스트 마이닝이 다양한 분야에서 활용되는 만큼 악용의 위험 또한 제기된다. 광고 목적으로 검색어의 빈도수를 고의로 늘릴 수 있기 때문이다. 고의성의 여부는 이용자의 컴퓨터의 IP(Internet Protocol) 주소를 추적해 파악할 수 있다. 한국인터넷자율정책기구(Korea Internet Self-governance Organization, 이하 KISO) 나현수 정책팀장은 “남용 목적으로 특정 검색어를 반복적으로 검색하는 경우 해당 데이터는 삭제 대상이 된다”고 말했다. 고의로 반복 검색된 데이터는 규제 대상으로 삭제되는 것이다. 이에 김덕현 과장은 “현재까지 본교 홈페이지에서 규제 대상이 된 검색어는 없다”고 말했다.


미래의 자동완성 기능, 사회적 논의 필요해

자동완성 기능은 검색하려는 사용자에게 불편 또한 끼친다. 박은비(글로벌서비스 17) 학우는 자동완성 기능에 대해 “일일이 단어를 입력하는 수고를 덜어주면서도 추천 검색어가 본래의 검색어와 관련이 없을 때도 많았다”고 전했다.

자동완성 기능의 개발 차원의 문제도 존재한다. 최 교수는 “자동완성 기능이 완전해지기 위해선 입력한 문자에 접근해 언어 사용 습관을 파악해야 하나 사생활을 침해한다는 의견도 존재한다”며 “개발자는 과거의 자료나 해당 서비스 밖의 데이터에는 접근하기 어렵다”고 밝혔다. 이어 최 교수는 “만일 자료에 접근할 권한이 주어지더라도 자료의 양이 많지 않으면 적절한 결과를 얻기 어렵다”며 “연속된 단어의 수가 많을수록 단어의 관련성을 분석하기 위해 필요한 자료의 수가 증가한다”고 덧붙였다. 사생활 침해 문제의 해결책에 대해 최 교수는 “개인의 문서에 자유롭게 접근할 수 있으면서 개인 정보가 유출되지 않도록 보안을 강화해야 한다”고 답했다.

개발 이후에도 자동완성 기능은 꾸준한 관리를 필요로 한다. 자동완성 검색어는 사람들의 관심사를 한눈에 알아볼 수 있는 중요한 지표이기 때문이다. 만약 자동완성 검색어에 욕설이 등장한다면 해당 단어의 검색 빈도수가 높다고 해도 자동완성 검색 결과는 인터넷 문화에 부정적인 영향을 끼칠 것이다. 이럴 때 네이버는 자체 기준을 통해 검색어를 삭제한다. 이후 KISO는 6개월 단위로 네이버 자동완성 검색어 삭제 처리의 적절성에 대한 사후 심의를 한다. 삭제 대상에 포함되는 검색어 사례는 개인의 명예를 심각하게 훼손하는 경우, 이용자의 오타가 반복된 경우, 청소년 보호에 어긋나는 경우 등이 있다. 자동완성 기능의 보완 방향에 대해 나 팀장은 “자동완성 기능의 운영 방향에 대한 사회적인 논의가 명확하지 않아 다양한 요구를 수렴하기 어렵다”며 “자동완성 검색어 서비스는 이용자의 알 권리에 영향을 미치기 때문에 통해 투명한 운영도 중요하다”고 말했다.


자동완성 기능은 정보 교환에 있어 편리함을 제공하면서도, 더 나은 사용 환경을 구축하기 위한 보완이 필요하다. 자동완성 기능의 개발 과정에서 개발자가 윤리적인 문제를 충분히 고려하지 않는다면 개인정보 침해와 같은 부작용을 불러올 수 있다. 한 교수는 자동완성 기능의 보완 방향에 관해 “꼭 필요한 양의 정보만을 사용하여 개인정보의 악용 소지를 사전에 차단해야 한다”고 말한다. 연구자가 과학 기술 발전과 윤리적인 가치의 공존을 위해 힘쓴다면 기술은 삶에 큰 편리함을 가져올 것이다.

*낱글자: 한 언어의 문자 체계에서 소리를 표시하는 최소의 변별적 단위로서의 문자 혹은 문자 결합을 의미한다.

 
저작권자 © 숙대신보 무단전재 및 재배포 금지