¿Sabías que existen algunos modelos de IA que te roban el contenido de tu página web en tu face?
Así es, algunas inteligencias artificiales actúan de esta manera: scrapean tu página web o tu blog y utilizan tu contenido sin tu consentimiento.
Pero no todo está perdido.
En este artículo, te explicaré cómo puedes defenderte de estos «terminators» de páginas web para que no utilicen tu contenido si tú no quieres.
Como siempre, también recordarte que tienes los comentarios de abajo para preguntarme cualquier duda que tengas.
Cómo funcionan (algunos) modelos de IA
Antes de nada, un poquito de teoría (solo un poquito tranqui).
La mayoría de modelos de Inteligencia Artificial como ChatGPT, utilizan procesos de aprendizaje o entrenamiento.
Cuanto más entrenado está un modelo, mejor soluciona los problemas que le planteamos.
Sin embargo, estos modelos también pueden extraer información utilizando técnicas de scrapping.
Es decir, en el momento que se conectan a Internet, buscan en la red, encuentran tu sitio web, scrapean el contenido que les interesa y lo utilizan para mostrar en sus respuestas de chat o incluso para sus procesos de entrenamiento.
Esto ha llevado a periódicos como el New York Times a estudiar la posibilidad de demandar a OpenAI, la empresa fundadora de ChatGPT.
Cómo proteger tu página web de la IA
Entonces, ahora mismo te puedes estar preguntando, ¿cómo podemos defendernos de estos robots?
Todo empieza con un archivo que tenemos todos en nuestro sitio web: robots.txt
.
Este archivo se encuentra en el documento raíz de nuestra página web y se utiliza para dar instrucciones a los rastreadores y demás robots que acceden a nuestro sitio web.
Por ejemplo, en el cPanel de mi página web, DavidZamora.blog, tengo creado el robots.txt
.

Si no lo tienes, puedes crearlo tú mismo. O también hay plugins que lo crean automaticamente, como el plugin de Yoast SEO o Rank Math.
Dentro de este archivo, puedes escribir las reglas para los robots que no quieres que accedan a tu contenido.
Si no quieres que ChatGPT utilice el contenido de tu página web, simplemente coloca el siguiente parámetro:
User-agent: GPT-Bot
Disallow: /
Con esto, le estás diciendo al robot de ChatGPT que no puede acceder a ningún directorio, carpeta o post de tu sitio web.
Páginas como Stack Overflow ya utilizan esta técnica para protegerse.
Esta es solo una de las maneras de protegernos de la Inteligencia Artificial.
Hay más maneras, y si te interesa conocerlas, ya sabes que hacer… ¡házmelo saber en los comentarios!
Espero que este artículo te haya sido útil. Si tienes cualquier pregunta o sugerencia, no dudes en dejarla en los comentarios.

¡Hasta la vista baby!