>

현재 일하고 있는 곳에서 업무요건이 왔다.. 


담당자 : 우리 홈페이지의 특정 화면이 구글에 특정 명칭으로 검색하면 나오는데, 나오지 않게 해주세요


삽질LEE : 네 분석 해보고 연락드리겠습니다~! ㅋ


"구글 검색 제외하기" 오더가 떨어진것이다..  머리속에 스쳐 간것이 구글봇, 검색로봇이 떠오르더라.. 


사실 이것이 정확하게는 뭔지는 몰랐다.. 그거 구글이 웹페이지를 수집해서 구글 쪽 서버(DB)에 저장해서 

노출하는 정도였다  



구글봇 이란?


 Googlebot은 Google의 웹 크롤링 봇으로 '스파이더'라고 불리기도 합니다. 크롤링은 Googlebot이 새로운 페이지 및 업데이트된 페이지를 찾아 Google 색인에 추가하는 과정입니다. Google은 다양한 종류의 컴퓨터를 사용하여 수십억 개의 웹페이지를 가져옵니다.


라고 구글에 검색하면 나온다ㅋㅋㅋㅋㅋㅋ.. 나는 쉽게 이해 하려고한다... 


위에서 중요한 문구중 하나가  "웹 크롤링"   이다.. 


웹 크롤링???  쉽게 생각하면 웹사이트를 돌아 다니며 정보를 수집하여 지들 DB에 저장한다. 질문은 거절한다. ㅋㅋ  -이하생략- 


무튼 정리하면 

구글봇이 아무 사이트에 가서 정보를 수집하는 건 아니다. html, jsp 등등 웹소스 상단에 메타 태그로 허용을 한다라는 태그를 써야 

구글봇 뿐만 아니라 다른(네이버,다음,등등 ) 검색로봇이 웹사이트에 와서 정보를 수집(웹크롤링) 해간다는 말이다~! 



말이 너무 많은거 같다.. 일단 퀘스트를 수행해보도록 하자 



웹사이트의 특정 페이지 검색로봇 차단 방법 : 


예를 들어  메인 > 자료실 > 상세화면 이 노출되고 있다면,   해당화면.jsp  소스파일 상단에 



라고 선언이 되어있다면, 검색 로봇들이 이 페이지는 수집해가도 대는 페이지구나 ~! 아이쿠 하면서 내용을 퍼간다



부가 설명을 하자면.. 이 페이지는 수집해가지 말아라 라는 옵션이다..  




위에 설명한 방법은 "특정 페이지만 차단 하는 방법이고.." 통쨰로 차단하고 싶다면 


robots.txt 를 이용하여 특정 봇 (구글봇, 네이버봇, 다음 등등) 페이지 수집을 막을수있다. 


요약하면 robots.txt 파일을 만들어 입맛에 맛게 붙여 넣은 다음 웹 소스 상단에 붙여넣으면 끝. 


각 프로그래밍 언어 마다 다르지만 필자는 java 언어 기준으로 설명을 하면.. 


WebContent 아래 robots.txt 붙여넣으면 끝 쉽죠잉?




robots.txt 안에 들어갈 내용은 아래에서 필요한거를 붙여서 저장 하면 끝 



1. 모든 검색봇 차단 

User-agent: * 

Disallow: /



2. 모든 검색봇 허용

User-agent: *

Allow: /


3. 구글봇 차단 (구글봇, 구글봇이미지, 구글봇모바일)

User-agent: Googlebot

Disallow: /


User-agent: Googlebot-Image

Disallow: /


User-agent: Googlebot-Mobile

Disallow: /



4. 네이버봇 차단

User-agent: Yeti

Disallow: /



더 많은 포털들이 있지만... 구글링을 통해 알수가 있다. 



-끝-

'개발 > Etc' 카테고리의 다른 글

Git 프로젝트 최초 commit push 하기  (0) 2023.04.12
Mysql 테이블 수정 #Alter #수정 #table  (0) 2023.03.03
Okta Vue2 연동 설정 셋팅  (1) 2021.06.21

+ Recent posts