Conoce las expresiones regulares para las búsquedas en Google

Una expresión regular es una herramienta informática que tiene una enorme utilidad para la optimización SEO.

¿El problema?

Utilizarlas con soltura requiere de mucha práctica y concentración.

¿Qué son las expresiones regulares?

Las expresiones regulares o RegEx (Regular Expressions), consisten en una serie de caracteres que se pueden utilizar para acotar una búsqueda a los patrones deseados. Con ellas es posible realizar tareas como extraer una lista de e-mails de un informe o conocer cuántas páginas de un sitio web incluyen una o varias palabras determinadas en su URL.

Cualquier persona que haya realizado un curso de iniciación SEO debería entender fácilmente el concepto.

Cuando necesitamos buscar palabras concretas a lo largo de la red, muchas personas conocen una serie de trucos que facilitan el trabajo.

Por ejemplo, si introduces en Google “related:y a continuación la dirección de una página web, el buscador te devolverá páginas web similares a aquella que indiques. En esta dirección se enfocan las regular expressions.

Conoce las expresiones regulares, Seigoo

Para poder utilizarlas nos serviremos de herramientas que soporten su uso y que están ligadas con el mundo del marketing digital:

  • Crawlers para la optimización on-page.
  • Google Analytics y sus filtros personalizados.
  • Editores de texto como el bloc de notas o Word.
  • Google Sheets, las hojas de cálculo que ayudan a organizar toda la información obtenida.
  • Lenguajes de programación.

Una vez familiarizado con las semántica de las RegEx es posible ahorrar muchísimo tiempo y esfuerzo a la hora de trabajar con datos sin un orden lógico.

Algunos ejemplos de expresiones regulares

A continuación describimos cada carácter con su función semántica concreta.

  • ^: indica el inicio de una expresión.
  • $: indica el final de una expresión.
  • [ ]: los corchetes buscan coincidencias con aquello que se escribe dentro.
  • ( ): los paréntesis añaden variables a la expresión.
  • ?: busca una única coincidencia con el carácter inmediatamente anterior.
  • +: busca más de una coincidencia con el carácter que le precede.
  • *: busca cualquier número que coincida con el carácter que se introduzca antes.
  • .: un punto indica que lo que se escribe después, coincide con cualquier carácter excepto con una nueva línea (es decir, que no se mostrarán las palabras inmediatamente anteriores al punto como signo de puntuación).

No es fácil familiarizarse con este tipo de expresiones, pero si se utilizan habitualmente la mejora es sustancial.

¿Dónde podemos utilizarlas y beneficios?

Vamos a ver algunos ejemplo prácticos de cómo se aplican las regular expressions en SEO. Si utilizamos los operadores del símbolo +y de la interrogación de cierre “?” podemos saber cuántas veces aparece un carácter.

  • +” indica una o más ocurrencias con aquello que le precede.
  • ?” significa ninguna o una ocurrencia de aquello que le precede.

Ahora imaginemos que en un sitio web has indicado que cada vez que se genere un página nueva (una entrada de blog, un página de producto, una categoría...) se haga con texto y no con números.

Pero hemos detectado que existen las siguientes URL:

  • https://páginaweb.es/?id=123
  • https://páginaweb.es/producto/pag1
  • https://páginaweb.es/producto/pag2

Comprobamos que contrariamente a lo que habíamos indicado, sí existen URL cuyo patrón incluye números.

Para buscar las anteriores URL utilizaremos la siguiente expresión regular:

http.+[0-9]+

Así, le habremos dicho al programa que busque: cualquier cadena que empiece por “http”, seguido de cualquier cosa (el punto), cualquier número de veces (“+”), seguido de cualquier número entre 0 y 9, es decir cualquiera, el número de veces que sea (“+” de nuevo).

¿Pero qué pasa si después del número hubiera más letras (o cualquier otro carácter) y números de nuevo?

Que no aparecerán.

Así que debemos crear una expresión distinta que incluya todas y cada una de las cadenas que incluyan el primer número y cualquiera que pueda haber después. Es necesario añadir una condición que incluya “todo lo que sigue al número”.

La forma final de la expresión sería la siguiente:

http.+[0-9]+(.+)?

Repasamos el significado de cada elemento: “http”, seguido de cualquier carácter (“.”), cualquier número de veces (“+”), seguido de cualquier dígito (entre 0 y 9), cualquier número de veces (“+”), seguido de cualquier conjunto de caracteres (“.+”, igual que antes) y de manera opcional (“?”).

La interrogación final es clave, porque hace opcional el paréntesis anterior (.+), es decir, el hecho de que después del primer número haya más caracteres. Si se elimina desaparecerían de la lista de URL aquellas que terminan en un solo dígito, como https://páginaweb.es/producto/pag1. Pero queremos que aparezcan todas, por eso indicamos que se muestren tengan un número o más.

Expresiones regulares para posicionamiento, Seigoo

Las lista que aparece al usar esta nueva expresión es la siguiente:

  • https://páginaweb.es/?id=123
  • https://páginaweb.es/producto
  • https://páginaweb.es/producto/pag1
  • https://páginaweb.es/producto/pag2
  • https://páginaweb.es/producto/pag1/?id1=es

Conclusiones

Como veis las expresiones regulares se utilizan para detectar palabras o números que pueden suponer un error en el SEO interno de una sitio web.

Con ellas es posible conocer elementos cruciales para el posicionamiento, como cuántos enlaces tiene un página y cuál es su anchor text (las palabras en las que están anclados).

¿Has utilizado expresiones regulares alguna vez? ¿Conoces alguna especialmente útil?

¡Cuéntanos tus impresiones en comentarios!

Sin comentarios

Añadir un comentario

Buscar
Suscribirse

¿No quieres perderte nada? ¡Suscríbete a Seigoo!

A los efectos previstos en el Reglamento General de Protección de Datos (RGPD), se le informa que los datos personales que nos facilita a través de este formulario se incorporarán a un fichero de la entidad DAYVO SISTEMAS S.L.U. Puede ver información detallada en nuestro Aviso Legal y Política de Privacidad.

Síguenos
metricool