구글 서치 콘솔 제외됨 해결 방법

Wookoa 2024. 5. 17.

구글 서치 콘솔 제외됨 해결 방법
구글 서치 콘솔 제외됨 해결 방법

 

머리말

  본 포스팅에서는 구글 서치 콘솔에서 색인 생성의 문제점을 직접 파악하고 개선하는 과정을 담을 것이다. 본인의 블로그는 색인 생성의 제외됨 상태가 1,500건으로써 원인을 하나씩 뜯어가면서 유효 색인 생성의 개수를 최대한 높이는 것을 목표로 할 것이다. 아래의 사진과 같이 현재는 오류 상태인 색인은 없는 관계로 오류 상태를 해결하는 과정을 당장 담을 수 없지만, 추후에 오류 상태의 색인이 발견되면 본 포스팅을 업데이트할 예정이다. 본 포스팅에서는 구글 서치 콘솔의 색인 제외 항목에 대해서 소개하도록 한다.

색인 생성의 제외됨 처리가 1,500건 발생
색인 생성의 제외됨 처리가 1,500건 발생
제외됨 처리 1,500건에 대한 상세정보
제외됨 처리 1,500건에 대한 상세정보

글 서치 콘솔의 색인 제외 항목

  색인 제외 항목을 설명하기에 앞서 본인의 제외됨 현상은 너무 허무하게 종결되었다. 최근 티스토리 블로그 주소가 보안 처리되면서 프로토콜이 http에서 https로 변경되었는데 그로 인해 발생한 이슈였다. http 프로토콜의 URL은 보안 프로토콜이 적용되지 않은 주소이며 보안 프로토콜이 적용되지 않은 페이지는 검색 시장에서 우위에 설 수 없게 된다. 불이익이 있었으면 있었지 결코 유익하지는 않다는 의미다. 따라서 구글 서치 콘솔에서도 https 보안 프로토콜이 적용된 주소로 속성을 추가 생성한 뒤, 사이트맵을 제출한 상태다. 이 작업만으로도 본인의 블로그는 색인이 생성되는데 큰 문제가 없으리라 생각된다.

https 프로토콜이 적용된 주소를 추가한 화면
https 프로토콜이 적용된 주소를 추가한 화면

찾을 수 없음(404)

  본인의 포스팅에서는 찾을 수 없음(404) 상태가 1건이 발생했다. 해당 항목을 클릭하면 색인 생성에 실패한 URL 목록을 확인할 수 있다. 본 블로그의 경우 과거에 삭제되었던 카테고리가 아직도 흔적이 남아있어 발생한 것으로 보인다. 어차피 존재하지 않는 URL 경로이니 큰 신경을 쓰지 않아도 시간이 지나면 자연스레 없어질 것으로 생각된다. 혹시라도 실제 존재하는 페이지인데도 불구하고 찾을 수 없음(404) 상태로 발견되었다면 직접 URL에 접속 테스트를 해본 뒤, 구글 서치 콘솔에 문의를 남겨서 해결해야 될 것이다.

  해당 경우는 제출된 URL을 찾을 수 없음(404) 오류 상태값과는 논리적으로 다르다. 기술적으로는 두 경우 모두 페이지를 찾을 수 없는 경우지만, 찾을 수 없음(404)의 경우 블로그 소유자가 명시적으로 색인 생성 요청을 하지 않았음에도 구글 봇이 URL을 발견한 경우다. 구를 봇은 해당 경로의 색인 생성 시도를 지속적으로 수행하지만 완전히 무시하도록 지정할 수 있는 방법은 제공되지 않는다. 다만 구글 봇이 해당 페이지를 크롤링하는 빈도는 시간이 지남에 따라 점차 줄어들게 되며 404 응답 자체가 자신의 블로그에 문제를 일으키지는 않으니 걱정할 필요는 없다.

삭제된 카테고리의 흔적
삭제된 카테고리의 흔적

Soft 404

  본인의 포스팅에서는 Soft 404 상태가 5건 발견되었다. 모두 비공개 처리된 포스팅이 티스토리 검색 결과에 표시되기 때문에 발생한 것이다. 블로그의 관리자 계정이 로그인된 상태라면 당연히 자신의 비공개 처리된 포스팅도 목록으로 보이겠지만, 티스토리에 로그인을 하지 않은 구글 봇은 해당 페이지가 이상하다고 감지하게 된다. 이유는 웹 서버로부터 정상적인 경로임을 리턴 받았지만 실제로는 콘텐츠가 아무것도 없는 것으로 표시되기 때문이다. 그렇기 때문에 논리적인 페이지 없음을 의미하는 Soft 404 오류를 반환한 것이다.

  이 경우에도 마찬가지로 블로거가 조치할 수 있는 행동은 없다. 시간이 지남에 따라 해당 URL의 크롤링이 멈추기를 기다리는 수밖에 없다. 본인의 경우 과거에 제출한 사이트맵에는 정상적으로 색인이 생성되었지만, 문제가 되는 검색 결과 포스팅을 모두 비공개 처리하는 바람에 발생한 경우이다. 구글 봇 자체에는 이런 경우가 많을수록 불필요한 크롤링 작업을 수행하기 때문에 문제가 될 테지만 블로거 입장에서는 자신의 블로그를 관리하는데 큰 걱정을 하지 않아도 좋다.

비공개 처리가 된 포스팅들의 검색결과 경로
비공개 처리가 된 포스팅들의 검색결과 경로

적절한 표준 태그가 포함된 대체 페이지

  본인의 경우 15건이 발견된 상태인데, 구글 서치 콘솔에 따르면 별다른 조치는 필요 없다고 한다. 이유는 해당 URL 경로보다 더 표준으로 인식하는 URL 경로를 찾았기 때문에 제외되었기 때문이다. 말 그대로 동일한 콘텐츠의 페이지가 두 건 이상 발견되었는데 더욱 표준에 가까운 페이지가 이미 노출되었으니 제외되었다는 의미다.

더욱 표준에 가까운 문서가 중복으로 발견되어 제외 처리된 URL
더욱 표준에 가까운 문서가 중복으로 발견되어 제외 처리된 URL

크롤링됨 - 현재 색인이 생성되지 않음

  본 블로그의 경우 16건이 발생한 상황이다. 이 상태는 구글 봇에 의해 페이지가 크롤링은 되었지만 색인이 생성되지는 않은 상태이다. 이후에도 색인이라는 것이 생성될지, 생성되지 않을지는 미지수인 상태이다. 크롤링을 위해 URL을 다시 제출해도 결과는 동일할 것이다. 이유는 명확하다. 색인까지 생성하면서 구글 서버에 저장할만한 URL 경로가 아니라고 판단한 것이다. 주로 티스토리 내 검색 결과, 태그, 페이지 결과 등이 제외된다. 이 경우에도 마찬가지로 블로거가 조치를 취할 수 있는 부분이 없다. 어차피 생성되어도 의미 없는 URL 경로이기 때문에 무시해도 불이익은 없다.

구글 봇이 의미 없는 경로라고 판단하여 제외 처리된 목록
구글 봇이 의미 없는 경로라고 판단하여 제외 처리된 목록

발견됨 - 현재 색인이 생성되지 않음

  본인의 포스팅의 경우 81건이 발생했다. 이 경우는 조금 다르다. 구글 봇이 페이지를 발견했지만 아직 크롤링은 되지 않은 상태다. 일반적인 경우 구글 봇에서 크롤링을 시도하려 했지만, 본인의 블로그에 과부하를 염려해 크롤링 일정을 나중으로 미뤄둔 상태이다. 그렇기 때문에 보고서의 최종 크롤링 날짜가 해당사항 없음으로 표기된 것이다. 색인 상태가 이러한 경우에는 잠자코 있을 순 없다. 물론 시간이 흐르면 자동으로 크롤링 해갈 테지만, 먼저 크롤링을 요청할 수 있기 때문이다. 시간이 조금 걸릴지라도 의미 있는 URL인 경우에는 꼭 색인 생성을 요청하도록 한다.

발견은 되었지만 크롤링이 되지 않은 URL
발견은 되었지만 크롤링이 되지 않은 URL

  목록에 표시된 모든 경로를 크롤링 요청할 수 있지만, 개수가 많다면 시간이 적지 않게 소요되며 불필요한 URL을 제출해도 큰 의미는 없기 때문에 본인은 의미 있는 경로만 크롤링을 요청했다. 요청 방법은 아래와 같이 해당 목록을 클릭하면 우측에서 나타나는 메뉴 중 URL 검사 버튼을 클릭한다.

해당 경로에 대한 URL 검사 수행
해당 경로에 대한 URL 검사 수행

  URL 검사가 끝나면 해당 경로의 상세내역을 확인할 수 있도록 페이지가 이동된다. 이동된 페이지에서 아래와 같이 상단의 색인 생성 요청 버튼을 클릭하면 색인을 생성할 수 있도록 구글 봇에 요청을 할 수 있다. 소요시간은 길면 1분 짧으면 30초 정도 소요된다.

URL이 구글에 등록될 수 있도록 색인 생성을 요청
URL이 구글에 등록될 수 있도록 색인 생성을 요청

중복 페이지, 제출된 URL이 표준으로 선택되지 않음

  본인의 경우 총 371개의 경로가 해당되었다. 대다수가 http, https 프로토콜의 차이라서 신경 쓸 필요가 없었다. 이유는 https 프로토콜의 주소로 속성을 새롭게 추가했기 때문이다. 이 경우에는 색인을 생성하도록 블로거가 명시적으로 요청을 했지만, 해당 URL은 구글 봇이 발견한 다른 URL과 중복된 문서이며 구글 봇이 발견한 URL이 더 표준에 가깝기 때문에 색인 생성에 제외된 경우다. 본인의 블로그에서는 발견되지 않은 경우지만 Google에서 사용자와 다른 표준을 선택함 상태와 차이점은 사용자가 색인을 명시적으로 요청했다는 점이다. 해당 URL을 검사하면 구글 봇에서 선택한 대체 URL 경로를 확인할 수 있다. 본인의 경우 대체적으로 http 대신 https 프로토콜 URL을 구글 봇이 선택했다.

http, https 프로토콜에 따른 구글 봇의 선택
http, https 프로토콜에 따른 구글 봇의 선택

리디렉션이 포함된 페이지

  본인의 경우 이 상태가 가장 신경이 쓰였다. 가장 많은 숫자인 1,011 개의 URL이 제외되었기 때문이다. 하지만 구글 서치 콘솔을 분석해 본 결과 전혀 신경 쓸 필요가 없다는 사실을 알게 되었다. 해당 URL이 리디렉션이므로 색인에서 광속으로 제외되었다는 의미다. 리디렉션이란 해당 URL에 접속하면 특정한 페이지로 자동 이동되는 페이지를 뜻한다. 다시 말해 해당 URL이 가리키고 있는 또 다른 URL은 이미 색인이 생성되었다는 의미다. 결과적으로는 중복된 페이지라는 뜻이다. 따라서 이 경우에도 블로거는 딱히 취할 수 있는 조치가 없다. 티스토리에서 생성한 카테고리를 검색한 결과인 URL이기 때문에 어떻게 할 수 있는 방법도 없다. 자신의 블로거에 불리하지 않으니 무시해도 좋다는 설명이다.

리디렉션이 포함된 페이지 목록
리디렉션이 포함된 페이지 목록

꼬리말

  결론적으로는 제외됨 상태에는 모두 하나하나 의미가 있어서 제외되었으며 블로거가 딱히 취할 수 없는 항목도 다수 포함되었다. 그래도 모르고 지나치는 것보다 하나씩 의미를 알아가면서 무시를 해도 된다고 인지할 수 있으니 기분만큼은 개운하다. 본인의 블로그 상태와 비교해 가면서 하나씩 색인 상태를 뜯어보았는데, 자주 언급되는 용어가 크롤링이다. 크롤링이란 구글 봇이 특정한 URL의 웹 문서를 그대로 긁어다가 구글 서버에 저장하는 행위를 의미한다. 크롤링 용어가 익숙하지 않다면 위 설명을 토대로 다시 한번 본 포스팅을 읽어보길 바란다. 구글 서치 콘솔의 제외됨 항목에 대해서 설명한 본 포스팅은 이로써 마무리르 짓도록 한다.

인기있는 글

소중한 댓글 (0)