구글 SEO 알고리즘 유출 문서 분석

구글 SEO 알고리즘 유출 문서 분석

이 보고서는 2024년 3월 13일 GitHub에 공개된 구글 내부 검색 알고리즘 문서의 내용을 기반으로 작성되었습니다. 문서는 약 2,500페이지에 달하며, 구글의 검색 순위 매기기 메커니즘에 대한 세부 사항을 포함합니다. 이 섹션에서는 유출 문서의 주요 내용을 체계적으로 분석하고, SEO 전문가와 마케터가 이를 어떻게 활용할 수 있는지에 대한 통찰을 제공합니다.

유출 문서 개요

문서는 구글의 내부 Content API Warehouse에서 유래되었으며, 14,014개의 속성과 2,596개의 모듈로 구성되어 있습니다. 이 문서는 웹 검색뿐만 아니라 YouTube, Google Assistant, Books 등 다양한 서비스와 관련된 데이터를 포함합니다. 그러나 문서에는 각 속성의 가중치나 최종 순위 점수 계산 방식은 명시되지 않았습니다.

구글은 2024년 5월 29일 이 유출에 대해 공식 성명을 발표하며, 문서가 전체 알고리즘의 맥락을 반영하지 않는다고 밝혔습니다 . 이로 인해 문서의 신뢰성과 적용 가능성에 대한 논란이 커졌습니다.

주요 발견: 순위 매기기 요소

유출 문서는 구글이 검색 순위를 매기기 위해 사용하는 다양한 요소를 상세히 설명합니다. 아래 표는 주요 발견을 정리한 것입니다:

카테고리세부 내용
사이트 권위“siteAuthority” 기능이 존재하며, 도메인 수준에서 권위를 평가. 이전에 부인했던 도메인 권위와 유사.
클릭 데이터NavBoost 시스템이 클릭 신호를 사용하며, badClicks, goodClicks, lastLongestClicks 등 다양한 메트릭 포함.
콘텐츠 품질콘텐츠의 독창성(OriginalContentScore), 제목-쿼리 일치(titlematchScore), 신선도(bylineDate, syntacticDate, semanticDate) 평가.
링크 분석링크 다양성, 소스 유형, 홈페이지 PageRank(homepagePagerankNs), 링크 스팸 속도(phraseAnchorSpamDays) 고려.
브랜드 인지도Rand Fishkin은 브랜드 인지도를 높이는 것이 유기적 검색 순위 개선에 중요하다고 강조 .
기타 요소크롬 브라우저 데이터(“chromeInTotal”), 작은 개인 사이트(smallPersonalSite) 평가, YMYL(Your Money Your Life) 콘텐츠 점수(ymylNewsScore) 포함.

구글의 이전 발언과의 모순

유출 문서는 구글의 과거 공식 발언과 여러 모순점을 드러냈습니다. 예를 들어:

  • “우리는 도메인 권위와 같은 것을 사용하지 않는다”는 주장과 달리, “siteAuthority” 기능이 문서에 명시되어 있습니다.
  • “클릭 데이터는 순위 매기기에 사용되지 않는다”는 발언과 달리, NavBoost 시스템이 클릭 신호를 84번 언급하며, 2005년부터 사용된 것으로 확인되었습니다 .
  • “샌드박스는 없다”는 주장과 달리, “hostAge”를 사용한 신규 스팸 사이트 제한 기능이 존재합니다.
  • 크롬 브라우저 데이터가 순위 매기기에 사용되지 않는다는 주장과 달리, “chromeInTotal” 기능이 문서에 포함되어 있습니다.

이러한 모순은 SEO 커뮤니티에서 큰 논란을 일으켰으며, 구글의 투명성에 대한 비판으로 이어졌습니다

순위 매기기 시스템 아키텍처

문서는 구글의 순위 매기기 시스템이 복잡한 아키텍처를 가지고 있음을 보여줍니다. 주요 시스템은 다음과 같습니다:

  • 크롤링: Trawler
  • 인덱싱: Alexandria, SegIndexer, TeraGoogle
  • 렌더링: HtmlrenderWebkitHeadless
  • 처리: LinkExtractor, WebMirror
  • 순위 매기기: Mustang, Ascorer, NavBoost, FreshnessTwiddler, WebChooserScorer
  • 제공: Google Web Server, SuperRoot, SnippetBrain, Glue, Cookbook

이 시스템들은 Google의 Spanner 데이터베이스에서 무한 확장성을 지원하며, 각 단계에서 다양한 “Twiddlers”가 점수를 조정합니다. 예를 들어, NavBoost는 클릭 데이터를 기반으로 점수를 재조정하며, QualityBoost는 품질 신호를 반영합니다.

SEO에 미치는 영향

이 유출은 SEO 전략에 중요한 시사점을 제공합니다. 주요 영향은 다음과 같습니다:

  • Panda 알고리즘: 참조 쿼리와 링크를 사용하며, 도메인, 서브도메인, 서브디렉토리 수준에서 점수 수정자를 적용합니다. 클릭 데이터와 링크 다양성이 중요합니다.
  • 저자 및 E-E-A-T: 저자 정보가 저장되고 엔티티에 연결되어, 전문성과 신뢰성을 평가합니다. 이는 특히 YMYL 콘텐츠(건강, 금융 등)에 중요합니다.
  • 콘텐츠 전략: 문서는 콘텐츠의 독창성, 제목-쿼리 일치, 신선도가 순위에 영향을 미친다고 명시합니다. 긴 문서는 잘릴 수 있으며, 짧은 콘텐츠는 OriginalContentScore로 평가됩니다.
  • 링크 전략: 링크 스팸 속도(phraseAnchorSpamDays), 홈페이지 PageRank, 링크 소스 유형이 고려됩니다. 내부 링크는 Penguin 알고리즘에 의해 제외될 수 있습니다.
  • 브랜드 구축: Rand Fishkin은 브랜드 인지도를 높이는 것이 유기적 검색 순위 개선에 필수적이라고 강조했습니다 .

한계와 미해결 질문

문서에는 몇 가지 미해결 질문이 남아 있습니다. 예를 들어, Helpful Content Update가 “Baby Panda”와 관련이 있는지, NSR(Neural Semantic Retrieval)이 무엇을 의미하는지 명확하지 않습니다. 또한, 문서의 정확한 날짜(2024년 3월 기준)와 문서가 전체 알고리즘을 대표하지 않는다는 구글의 주장으로 인해, 이 정보를 절대적인 진리로 받아들이기 어렵습니다.

SEO 전문가의 조치 방안

iPullRank의 Michael King은 이 유출을 기반으로 다음과 같은 조치를 제안했습니다:

  • 우수한 콘텐츠를 제작하고 적극적으로 홍보하세요.
  • 상관관계 연구를 재개하세요.
  • 실험 계획을 세우고 테스트를 진행하세요.
  • Rand Fishkin에게 과거의 비판에 대해 사과하세요 .

결론

이 유출 문서는 구글의 검색 알고리즘에 대한 새로운 통찰을 제공하며, SEO 전략에 중요한 시사점을 제시합니다. 그러나 구글의 반박과 문서의 한계를 고려할 때, 이 정보를 참고 자료로 사용하고 추가 연구를 통해 검증해야 합니다. SEO 전문가와 마케터는 브랜드 인지도, 콘텐츠 품질, 링크 전략에 집중하며, 지속적인 실험과 학습을 통해 최적화 전략을 개선해야 합니다.


주요 인용

Leave a Comment