현재 일하고 있는 곳에서 업무요건이 왔다..
담당자 : 우리 홈페이지의 특정 화면이 구글에 특정 명칭으로 검색하면 나오는데, 나오지 않게 해주세요
삽질LEE : 네 분석 해보고 연락드리겠습니다~! ㅋ
"구글 검색 제외하기" 오더가 떨어진것이다.. 머리속에 스쳐 간것이 구글봇, 검색로봇이 떠오르더라..
사실 이것이 정확하게는 뭔지는 몰랐다.. 그거 구글이 웹페이지를 수집해서 구글 쪽 서버(DB)에 저장해서
노출하는 정도였다
구글봇 이란?
Googlebot은 Google의 웹 크롤링 봇으로 '스파이더'라고 불리기도 합니다. 크롤링은 Googlebot이 새로운 페이지 및 업데이트된 페이지를 찾아 Google 색인에 추가하는 과정입니다. Google은 다양한 종류의 컴퓨터를 사용하여 수십억 개의 웹페이지를 가져옵니다. |
라고 구글에 검색하면 나온다ㅋㅋㅋㅋㅋㅋ.. 나는 쉽게 이해 하려고한다...
위에서 중요한 문구중 하나가 "웹 크롤링" 이다..
웹 크롤링??? 쉽게 생각하면 웹사이트를 돌아 다니며 정보를 수집하여 지들 DB에 저장한다. 질문은 거절한다. ㅋㅋ -이하생략-
무튼 정리하면
구글봇이 아무 사이트에 가서 정보를 수집하는 건 아니다. html, jsp 등등 웹소스 상단에 메타 태그로 허용을 한다라는 태그를 써야
구글봇 뿐만 아니라 다른(네이버,다음,등등 ) 검색로봇이 웹사이트에 와서 정보를 수집(웹크롤링) 해간다는 말이다~!
말이 너무 많은거 같다.. 일단 퀘스트를 수행해보도록 하자
웹사이트의 특정 페이지 검색로봇 차단 방법 :
예를 들어 메인 > 자료실 > 상세화면 이 노출되고 있다면, 해당화면.jsp 소스파일 상단에
라고 선언이 되어있다면, 검색 로봇들이 이 페이지는 수집해가도 대는 페이지구나 ~! 아이쿠 하면서 내용을 퍼간다
부가 설명을 하자면.. 이 페이지는 수집해가지 말아라 라는 옵션이다..
위에 설명한 방법은 "특정 페이지만 차단 하는 방법이고.." 통쨰로 차단하고 싶다면
robots.txt 를 이용하여 특정 봇 (구글봇, 네이버봇, 다음 등등) 페이지 수집을 막을수있다.
요약하면 robots.txt 파일을 만들어 입맛에 맛게 붙여 넣은 다음 웹 소스 상단에 붙여넣으면 끝.
각 프로그래밍 언어 마다 다르지만 필자는 java 언어 기준으로 설명을 하면..
WebContent 아래 robots.txt 붙여넣으면 끝 쉽죠잉?
robots.txt 안에 들어갈 내용은 아래에서 필요한거를 붙여서 저장 하면 끝
1. 모든 검색봇 차단
User-agent: * Disallow: / |
2. 모든 검색봇 허용
User-agent: * Allow: / |
3. 구글봇 차단 (구글봇, 구글봇이미지, 구글봇모바일)
User-agent: Googlebot Disallow: / User-agent: Googlebot-Image Disallow: / User-agent: Googlebot-Mobile Disallow: / |
4. 네이버봇 차단
User-agent: Yeti Disallow: / |
더 많은 포털들이 있지만... 구글링을 통해 알수가 있다.
-끝-
'개발 > Etc' 카테고리의 다른 글
Git 프로젝트 최초 commit push 하기 (0) | 2023.04.12 |
---|---|
Mysql 테이블 수정 #Alter #수정 #table (0) | 2023.03.03 |
Okta Vue2 연동 설정 셋팅 (1) | 2021.06.21 |