요즘 웹사이트 운영자나 디지털 마케터라면 한 번쯤은 ‘robots.txt’에 대해 들어보셨을 것입니다. 검색 엔진이 내 웹사이트의 콘텐츠를 어떻게 읽고 수집할지를 제어하는 중요한 파일이기 때문입니다. 그런데 최근 구글의 AI 도구인 노트북LM (NotebookLM)이 이 robots.txt 지침을 무시한다는 사실이 알려지면서 업계에 충격을 주고 있습니다.
오늘은 이 이슈가 왜 중요한지, 그리고 어떤 영향을 줄 수 있는지 자세히 살펴보겠습니다.
robots.txt란 무엇인가요?
먼저 기본 개념부터 짚고 넘어가겠습니다. robots.txt는 사이트 소유자가 검색 엔진의 크롤러(bot)에게 어떤 페이지를 크롤링할 수 있고, 어떤 페이지는 접근하면 안 되는지를 알려주는 지침 파일입니다. 예를 들어 관리자 페이지나 테스트용 페이지처럼 외부에 공개하고 싶지 않은 콘텐츠를 크롤링에서 제외하고 싶을 때 유용하게 사용됩니다.
일종의 “이 구역은 접근 금지!” 라는 푯말 역할을 하는 셈입니다.
그런데, NotebookLM은 왜 무시하나요?
Google NotebookLM은 단순한 AI 요약 도구가 아닙니다. 사용자가 웹페이지의 URL을 입력하면 해당 콘텐츠를 분석하고, 요약은 물론 관련 정보를 마인드 맵으로 구성하기도 합니다. 문제는 이 NotebookLM이 콘텐츠를 수집할 때 웹사이트의 robots.txt 지시를 따르지 않는다는 점입니다.
왜 그럴까요? 구글은 “NotebookLM이 콘텐츠를 수집하는 것은 사용자의 요청에 따른 것이기 때문에, 일반적인 웹 크롤링(bot) 행위와는 본질적으로 다르다”고 설명합니다. 즉, 사용자가 직접 특정 콘텐츠를 ‘읽어달라’고 요청하는 것이기 때문에 robots.txt 제한을 무시해도 된다는 입장입니다.
웹사이트 운영자 입장에서는 어떤 문제가 생길까요?
이와 같은 방식은 콘텐츠 사용에 대한 ‘동의 없이 수집’되는 것처럼 보일 수 있어 논란이 되고 있습니다.
- 내가 의도하지 않은 방식으로 콘텐츠가 AI에 의해 요약되거나 재사용될 수 있습니다.
- 민감하거나 최신성이 중요한 콘텐츠가 외부 AI 모델에 등록될 수도 있습니다.
- SEO 측면에서, 너무 많은 자동화된 AI 접근은 트래픽의 질을 떨어뜨릴 수 있습니다.
특히 지식 기반 플랫폼이나 독창적인 콘텐츠를 통한 수익 모델을 운영하는 기업이라면 더욱 민감할 수밖에 없습니다.
NotebookLM 접근을 차단하는 방법은?
다행히도 완전히 무력한 것은 아닙니다. NotebookLM은 ‘Google-NotebookLM’이라는 고유한 User-Agent를 사용합니다. 이를 활용하면 해당 접근을 차단할 수 있습니다.
1. .htaccess 파일 사용
Apache 웹 서버를 사용하는 경우, 아래와 같은 코드를 .htaccess 파일에 추가하면 됩니다:
<IfModule mod_rewrite.c>
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} Google-NotebookLM [NC]
RewriteRule .* - [F,L]
</IfModule>
2. 보안 플러그인을 사용한 차단
워드프레스 사용자라면 Wordfence 같은 보안 플러그인을 통해 커스텀 차단 규칙을 설정할 수 있습니다. ‘Google-NotebookLM’ User-Agent를 기준으로 자동 차단하도록 구성하면 됩니다.
결론: 사용자 중심 크롤링의 새로운 시대, 감시와 대응이 필요합니다
AI 기술의 발전으로 웹 콘텐츠를 활용하는 방식은 계속해서 진화하고 있습니다. 하지만 이러한 변화는 항상 콘텐츠 제작자에게 유리하게 작동하는 것은 아닙니다.
Google NotebookLM처럼 사용자 주도로 작동하는 크롤러는 기존의 robots.txt 체계를 무시할 수 있기 때문에, 여러분의 콘텐츠가 어디서, 어떻게 사용되고 있는지 더욱 세심한 관찰이 필요합니다.
자신의 콘텐츠를 보호하는 디지털 수문장 역할, 이제는 선택이 아닌 필수입니다.
웹사이트를 운영 중이시라면, 오늘부터라도 로그 분석과 서버 트래픽을 점검하시고 나만의 콘텐츠 보호 전략을 세워보시기 바랍니다.
