Cómo funciona JustAnswer:

  • Preguntar a un Experto
    Los expertos tiene muchos conocimientos valiosos y están dispuestos a ayudar en cualquier pregunta. Credenciales confirmadas por una empresa de verificación perteneciente a Fortune 500.
  • Obtener una respuesta profesional
    Por correo electrónico, mensaje de texto o notificación mientras espera en su sitio.
    Haga preguntas de seguimiento si lo necesita.
  • Garantía de satisfacción plena
    Garantizamos tu satisfacción.

Formule su propia pregunta a Ing. Navas

Ing. Navas
Ing. Navas, Ing. en Electrónica
Categoría: Informática
Clientes satisfechos: 1813
Experiencia:  Especializado en HW, SW e Infraestructura de Redes.
61714763
Escriba su pregunta sobre Informática aquí...
Ing. Navas está en línea ahora

Buenas tardes, necesito saber si la siguiente afirmación es

Pregunta del cliente

Buenas tardes, necesito saber si la siguiente afirmación es verdadera o falsa:
"Con varios buscadores web se puede obtener acceso a la mayor parte de la web puesto que se estima que la web indexada es mucho mayor que la web oculta"
Enviada: hace 4 año.
Categoría: Informática
Experto:  Rubén Díaz escribió hace 4 año.

Bienvenido al servicio de asistencia informática de Just answer.

 

Hola, buenas tardes,

 

¿Cómo ser indexado con éxito en los buscadores?

La indexación en los buscadores es el paso previo a la obtención de primeras posiciones en los motores de búsqueda. Aplicar eficientes técnicas para que los robots de los buscadores nos encuentren y nos clasifiquen en su base de datos requiere de una serie de tareas que pueden marcar la diferencia.

 

Resumen:
Darse de alta en los buscadores se limita a la solicitud que se le hace a un buscador de que indexe nuestra web. Esta petición se hace a través de un formulario que poseen todos los buscadores en su página. Indexarse se refiere a que nuestra web esté insertada en los registros de base de datos de los buscadores. El proceso de darse de alta en los buscadores es un camino para llegar a la indexación de los buscadores. Existen otros métodos más rápidos que el mero proceso de pedirlo y esperar que los buscadores lean nuestra petición Con estar indexado en Google, MSN Search y Yahoo!, ya se tiene el 95% del trabajo realizado en cuanto a indexación de su página web. El método más rápido y efectivo para indexar nuestra web en los principales buscadores es a través de la inserción de enlaces externos proveniente de otros sites que gozan de un buen nivel de popularidad.

Una vez completada la etapa de optimización de una página web para convertirla en atractiva para los buscadores, viene la etapa de lograr la primera visita de los buscadores a nuestro site para que nos inserten en sus respectivas bases de datos. Si no logramos meternos en esa base de datos jamás saldremos listados en la página de resultados de los buscadores.

"Darse de alta en los buscadores" vs. "ser indexado en los buscadores"

A menudo se confunden estos dos conceptos, ya que uno es consecuencia del otro. Darse de alta en los buscadores se limita a la solicitud que se le hace a un buscador de que indexe nuestra web. Esta petición se hace a través de un formulario que poseen todos los buscadores en su página. El pedir el alta en los buscadores es solamente la petición para ser indexado en su base de datos. Dicha petición será atendida en un período de tiempo determinado. Indexarse se refiere a que nuestra web esté insertada en los registros de base de datos de los buscadores. El proceso de darse de alta en los buscadores es un camino para llegar a la indexación de los buscadores. Existen otros métodos más rápidos que el mero proceso de pedirlo y esperar que los buscadores lean nuestra petición. Requisitos para una óptima indexación en los buscadores Los objetivos de cualquier proceso de indexación en los buscadores deben ser los siguientes: 1) Estar indexados en la mayoría de los motores de búsqueda 2) Que nuestro site sea indexado lo más rápido posible 3) Que todas las páginas que conforman mi site estén indexadas en los buscadores .

 

1) Estar indexados en la mayoría de los motores de búsqueda: cómo la ley de Pareto se aplica al posicionamiento en buscadores. La ley de Pareto establece que el 20% de los elementos nos ayudan a obtener el 80% de los resultados. En el caso del posicionamiento en buscadores son solamente tres motores de búsqueda quienes aportan el 95% del tráfico de visitantes a nuestra web. Estos tres buscadores son Google, MSN Search y Yahoo!. Otro punto a tomar en cuenta es que muchos buscadores de menor dimensión utilizan la base de datos de alguno de estos tres buscadores líderes para generar sus resultados. Una de las fuentes de ingresos de los buscadores grandes es prestar su base de datos a otros portales o buscadores más pequeños. En conclusión, siéntase satisfecho con estar indexado en Google, MSN Search y Yahoo!. Con eso ya tiene el 95% del trabajo realizado en cuanto a indexación de su página web.

 

2) Que nuestro site sea indexado lo más rápido posible: ¿pedir que nos indexen u obligar a que nos indexen? Los motores de búsqueda para indexar una página utilizan un robot que se encarga de viajar por la red y encontrar nuevas páginas o páginas modificadas para luego ser insertadas en su base de datos. La meta en este caso es que dicho robot nos encuentre lo más rápido posible para que comencemos a escalar posiciones. El robot del buscador llegará a nuestra web por dos caminos: un camino largo o un camino corto. El camino largo es a través de la petición que hagamos en la página de los buscadores destinada a dar de alta nuestra web. Dar de alta una web, como se dijo anteriormente, se limita a solicitar mediante el llenado de un formulario que visiten nuestra página web y la indexen. Los buscadores reciben miles de peticiones por lo cual atenderán la nuestra en unas semanas o meses. En pocas palabras, si damos de alta nuestra web en un buscador, éste tardará entre tres a cuatro meses en indexarla, si tenemos suerte. El camino corto es a través de referencia de terceros. El robot de los buscadores viaja a través de los enlaces que hay entre los diferentes sites que están en la red. Un robot encontrará más rápido nuestra web si dicha web está enlazada con otra página web que recibe frecuentemente la visita del famoso robot. Veamos este punto a través del siguiente ejemplo: Yo tengo una página web de mi empresa de tuning de coches. Para estar indexado en los motores de búsqueda en una o dos semanas lo que tengo que hacer es buscar un foro en Internet donde se hable de coches o algo parecido y dejar un comentario con su respectivo enlace a mi nueva página web. Los foros son páginas que el robot de los buscadores visita frecuentemente porque son páginas que actualizan su información diariamente. Cuando el robot visita de nuevo el foro y se topa con un enlace a una nueva página, el robot sigue el rastro de este enlace y llega a nuestra página copiando e insertando la información en la base de datos del buscador. Para elegir una página que nos traerá la visita del famoso robot debemos considerar aquellas páginas que se actualicen frecuentemente, que ya esté indexada en la base de datos de los buscadores y que permita dejar un enlace a nuestra web. Los resultados: con muchas probabilidades, en menos de 1 mes ya estamos en la base de datos de los buscadores.

 

3)Que todas las páginas que conforman mi site estén indexadas en los buscadores. Por ley de las probabilidades: a mayor número de páginas indexadas, mayor posibilidad de mejorar el posicionamiento. Nuestra página web puede sufrir modificaciones a lo largo del tiempo. Dado esto, nos interesa que cada página nueva que publiquemos sea indexada lo más rápido posible. Lo más sencillo es que esa página tenga un enlace desde otra página de nuestro site que ya sepamos que está indexada en la base de datos de los buscadores. Con ese sencillo enlace, cuando nos visite de nuevo el robot registrará la nuevas páginas a través del respectivo link. Otro punto que nos interesa es que esas nuevas páginas sean indexadas rápidamente. Para lograr eso debemos acostumbrar al robot de los buscadores a visitarnos frecuentemente. Debemos tratar que nos visite una vez a la semana como mínimo. Para conseguir esta hazaña de hospitalidad debemos indicarle al robot que nuestro site se actualiza con cierta frecuencia. Mientras más se actualice nuestro site se obtendrá una mayor frecuencia de visitas del robot. Ya quedaron atrás los tiempos en que había que esperar de tres a cuatro meses para estar indexados en los buscadores y empezar desde ese momento a escalar posiciones en los motores de búsqueda. Sin embargo, esto no quiere decir que posicionarse en los buscadores ahora requiere de menos tiempo y sea más fácil. Existen otros factores adicionales, tales como la competencia, que determinan el éxito de una campaña de posicionamiento.

 

Saludos.

Experto:  expertoinformatico87 escribió hace 4 año.
Hola, [email protected]



  • INDEXACIÓN


    ¿Qué es?

    La indexación es el proceso por el que el buscador va rastreando el sitio y va incorporando a su base de datos el contenido de esas URLs.


    ¿Es importante?


    Es MUY importante. La indexación es lo único que puede hacer que tu web, tu trabajo pueda aparecer en Google, toda página que el robot no haya rastreado ni indexado no figurará en los resultados.

    Los ojos de un robot


    Los buscadores poseen un robot que es una especie de programa que se dedica a rastrear las webs e incorporar lo que cree interesante a la base de datos de su buscador, tanto para indexar nuevas webs como para actualizar los contenidos de su base de datos.

    Facilitar la indexación: lo básico


    Los buscadores no indexan todo lo que recorren, sólo indexan lo que creen oportuno. Para mejorar nuestra indexación hay que conseguir que los robots pasen a menudo por nuestras páginas por lo que a más pasadas que de más probabilidades de que las acabe indexando. Para aumentar la frecuencia de paso de los robots por nuestra web hay que conseguir links entrantes y actualizar a menudo nuestra web.

     

    OTRAS AYUDAS PARA LA INDEXACIÓN



    URLs dinámicas


    Para facilitar la indexación se puede empezar por evitar o arreglar las variables en las URLs (URLs dinámicas) que por ejemplo puede generar el PHP. Estas variables hacen que el script muestre una u otra información en función de estas variables y a todos los efectos se consideran páginas diferentes. Variables en la URL serían por ejemplo esta:
    http://www.davilac.net/foro/index.php?board=4.0

    En este caso hay sólo una variable, pero hay muchos otros casos donde aumentan más el número de variables, dificultando cada vez más la indexación, ya que si bien los buscadores pueden indexar páginas con varias variables, les es más fácil si no las tuviese. Para servidores que corran sobre Apache existe un mod llamado mod_rewrite que sirve para reescribir URLs, mediante el cuál y con un fichero .htaccess se puede convertir esa URL a ojos de los buscadores en esta:
    http://www.davilac.net/foro/index.php/board,4.0.html

    Más atractiva a los ojos de los buscadores. Consulta tu hosting para averiguar sobre la disponibilidad de este módulo. Ten en cuenta que muchos scripts conocidos incorporan módulos y sistemas para convertir URLs dinámicas en estáticas, por lo que te evitarás el trabajo a veces de hacerte tu propio sistema.

    Google Sitemaps

    Aparte de esto existe para Google un servicio llamado Google Sitemaps que está dando muy buenos resultados en cuánto a mejorar la indexación.

    Robots.txt


    El robots.txt es un fichero destinado al uso de los buscadores. Mediante el uso de este fichero el encargado de la web le ordena a los buscadores ciertas cosas, como prohibirles el acceso a ciertas carpetas o ficheros para evitar que los buscadores los indexen o prohibirles un excesivo acceso a la web, por ejemplo. En todo caso la existencia de este fichero en nuestro servidor no mejorará ni nuestra indexación ni posiciones.

    El uso inadecuado de este fichero puede provocar desastres en nuestras posiciones en Google

Se cuentan una serie de secretos para el registro de manera óptima en los buscadores e índices. En la lista de claves se encuentran algunos datos inéditos.
Los buscadores y los directorios son herramientas programadas por seres humanos especializadas en buscar información en la Red por medio de sus robots de búsqueda, también llamados Spider o Arañas. De esta manera cualquier internauta que solicite información mediante la introducción de palabras claves o frases cortas en un buscador, obtendrá inmediatamente una lista de páginas web relacionadas con la palabra clave escogida.

Buscadores y directorios

Hay que aclarar la diferencia entre buscador y directorio, son conceptos que normalmente se confunden.

Un directorio como Yahoo depende de humanos o editores que indexan cada URL manualmente, siguiendo su propio criterio de valoración y colocando cada URL en la categoría y subcategoría adecuadas. Por ello el alta en un directorio es un proceso lento y puede llegar a tardar hasta 2 meses.

Una buena página con un buen contenido tiene más posibilidades de ser indexada en un directorio con un ranking alto que una página pobre, sin información, que incluso puede ser rechazada. Los directorios suelen ser muy selectivos a la hora de indexar nuevas páginas. Prefieren calidad y no cantidad de páginas web.

Ejemplos de grandes directorios son Yahoo, Terra y DMoz.

Envía a los directorios solamente tu página principal, redactando un buen título y descripción pensado de antemano a conciencia, utilizando las palabras claves más relevantes y repitiéndolas con frecuencia. El texto que introduzcas al hacer el alta será el que el editor utilizará a la hora de catalogar tu página en la categoría correspondiente.

Los buscadores como Google o Altavista utilizan un proceso totalmente diferente para indexar las páginas web. Crean sus listados automáticamente por medio de los motores de búsqueda.

El Spider visita tu web, la lee y sigue todos los links a otras subpáginas que vaya encontrando. El Spider volverá a visitar tu página en un mes o dos y si has hecho cambios importantes en la página, el buscador reconoce estos cambios que pueden afectar el posicionamiento de tu web.

Las Metatags son también un elemento a tener en cuenta en un buscador a la hora de extraer la información de la página

(No todos los buscadores soportan Metatags, pero lo normal es que sí los utilicen, en mayor o menor medida para recabar palabras clave)

En un buscador se pueden destacar tres partes: El Spider que visita las URL, el índice o catálogo que contiene una copia de cada url que ha sido encontrada por el Spider y el software.

Este es el programa que filtra la información grabada en el índice o catálogo, extrae las búsquedas y posiciona cada URL siguiendo un orden o criterio.

Todos los buscadores contienen estas tres partes básicas pero ninguno de ellos funciona igual. Por eso una búsqueda por una palabra clave en particular en Altavista no produce los mismos resultados que la misma palabra clave en Google. Estos buscadores siguen criterios diferentes a la hora de indexar las páginas web. Si tu página web tiene predeterminado el criterio que sigue el buscador para indexar las URLs puedes alcanzar unos de los primeros puestos en el buscador. Es fundamental tener una buena organización HTML y saber cómo funcionan los buscadores en general para lograr tener un buen posicionamiento en el buscador.

Factores que afectan al ranking de tu URL

- Utilizando tu propio dominio tendrás muchas más posibilidades de obtener una buena posición y tu página estará más valorada. Si tienes posibilidades nu dudes en invertir en tu propio dominio.

- El título es el primer criterio que valora un buscador. El título es imprescindible y recuerda colocar tu palabra clave más relevante en él.

- Tus palabras claves deberían ser frases cortas. Pon tus palabras claves en el título y descripción con frecuencia.

- Utiliza Metatags para que tu página sea correctamente indexada por los buscadores. Las MetaTags comunes son el título, descripción y palabras claves. Una buena combinación de texto en el título y descripción y la elaboración de Metatags es muy recomendable para mejorar el posicionamiento en buscadores que soportan Meta Tags

- No recomendamos la utilización de Frames, pero si lo haces deberás incluir los Metatags en la página que distribuye los frames porque será la única información disponible para indexar. Puedes incluir en el NOFRAMES un párrafo descriptivo del contenido del sitio, así como links a las páginas interiores para facilitar el recorrido del robot.

- Utiliza la MetaTag Robots.txt para dar instrucciones al Spider que recorra los links encontrados en tu Sitio Web e indexe todas las demás páginas. Asegúrate que no hay ningún enlace muerto en la página.

<META name="robots" content="All">

- Utiliza la Metatag Revisit para indicar al Spider cuándo debe volver a visitar tu página web e indexar los cambios hechos de manera que tu página web esté siempre actualizada y activa en el buscador.

<META NAME="revisit" CONTENT="15 days">
( también 30 days)

- Otra Tag útil es el ALT text que va asociado a las imagénes o gráficos, este texto forma parte de la página, así que utiliza tus palabras claves más relevantes en este texto.

ALT="myrasoft ofrece software de promocion web"

- Incrementa la popularidad de tu página web mediante la colocación de links a otras páginas. La popularidad se mide por el número de enlaces a una determinada página.

Puedes medir la popularidad de tu página y la de tu competencia gratuitamente en: http://www.linkpopularity.com.

La mayoría de los buscadores analizan cuantos links hay hacia tu web, valoran tu popularidad e incrementan el ranking. Además cuantos más links tengas mayores son las posibilidades de que tu página sea visitadas por los Spiders. Puedes negociar links de calidad con otras páginas web que estén relacionadas con el tema de tu sitio web y que contengan palabras claves semejantes, a la larga generarán un tráfico importante de nuevos visitantes y clientes potenciales.

- Haz un Mapa de tu Sitio Web con links a todas las páginas interiores. Puedes enviar esta página a los buscadores, esta es una buena táctica para ser localizado en los buscadores. Un ejemplo sería:

http://www.myrasoft.com/websiteindexsp.htm

- No hagas Spam. Spam es enviar tu página una y otra vez al mismo buscador diariamente o semanalmente. Los buscadores tienen limitaciones y penalizan a las páginas que hacen Spam, borrándolas de su índice. Altavista e Infoseek solamente aceptan una página al día por dominio. Yahoo solamente la página principal. Puedes enviar diferentes URLs en días consecutivos, envía tan sólo las más importantes. Otro tipo de Spam es utilizar texto invisible en letra pequeña del mismo color que el fondo de la página, con la misma palabra clave una y otra vez. Los buscadores penalizan este tipo de diseño, obtendrás un ranking bajo o tu página no será indexada. No utilices palabras claves que no estén relacionadas con el contenido de tu página y no las repitas en exceso. Puedes repetirlas una o dos veces, pero intercalándolas.

- Envía tu página una vez al mes o siempre que hayas hecho cambios importantes. Una vez que has enviado tu URL hay que ser paciente, los grandes buscadores indexarán tu página en un promedio de dos a ocho semanas. No todos envían un email de confirmación de que tu página ha sido añadida satisfactoriamente, deberás dejar pasar un tiempo y hacer una búsqueda por dominio o por palabra clave. Una aproximación del tiempo que tardan los grandes buscadores que tienen enlaces en castellano en indexar las URLs:

- Altavista, es el más rápido de 2-3 días a dos semanas.
- Excite de 2-3 semanas
- Lycos de 4 a 6 semanas
- Terra es prácticamente inmediato, de 2 a tres días

La mayoría de los buscadores de lengua castellana son directorios. Terra es un ejemplo. Sigue las recomendaciones descritas para los directorios cuando vayas a dar de alta tu URL. Asegúrate que eliges la categoría adecuada al hacer el alta, intenta ser lo más preciso posible. Parece una tontería pero hay muchas páginas que finalmente no se indexan o que no son indexadas correctamente porque no siguieron las instrucciones adecuadamente al realizar el alta, cometiendo errores.

Hay muchos buscadores que están incorporando una opción geográfica. Si a la hora de dar de alta tu Sitio Web eliges tu región el alta será mucho más rápida de validar y obtendrás mejores resultados. Te recuerdo que el contenido del texto de tu web es fundamental.

El término Portal no es lo mismo que un buscador o directorio, estos términos se confunden porque la mayoría de los portales tienen incorporado un buscador. Los Portales incorporan información adicional como noticias, foros, chats...etc.

Espero que esta información te sirva de ayuda en tu estrategia de márketing en Internet. Para ampliar esta información se puede consultar nuestro manual de promoción de páginas web, así como el manual de posicionamiento en buscadores.

si le sirvió mi ayuda de un click al icono ACEPTAR !

Experto:  expertoinformatico87 escribió hace 4 año.
hola de nuevo,

le apunto algo mas de informacion relativa a su consulta...

a Web Oculta la componen aquéllas páginas que se generan de forma dinámica tras la ejecución de un recurso bien en el lado cliente o en el lado servidor, típicamente tras realizar una consulta a una base de datos, no siendo accesibles por las tecnologías de búsqueda convencionales.

Contiene la información más rica, la que puede proporcionar mayor valor para la Inteligencia Competitiva.

Mediante tecnologías de estructuración automática es posible consultar esta información como si de una base de datos convencional se tratase. Ello facilita la confección de indicadores para el proceso de Inteligencia competitiva, a la vez que la creación de portales con información personalizada y otras aplicaciones.

 

1. La Vigilancia como estrategia

La capacidad de innovación en un mercado cada vez más competitivo determina quienes pueden diferenciarse del resto de sus competidores y así incrementar los ingresos por la comercialización de sus productos o servicios.

 

En consecuencia, para toda empresa es hoy día una exigencia máxima el mantenerse puntualmente informada de lo que acontece a su alrededor:

Patentes relacionadas con los productos de la empresa.
Nuevas regulaciones y legislación.
Productos y precios de la competencia.

Avances científicos en medios especializados.
Alianzas y fusiones de competidores, clientes y suministradores.
Noticias de relevancia del sector.

Ferias y eventos.
Ayudas y subvenciones publicadas en boletines oficiales locales, nacionales e internacionales.

Gran parte de esta información está disponible en tiempo real en Internet, pero su recogida y explotación se ven dificultadas por la dispersión y heterogeneidad de las fuentes.

El proceso, realizado de forma manual o con herramientas genéricas, mal adaptadas o incompletas, se convierte habitualmente en un proceso parcial, aleatorio, lento y poco estructurado.

Además, es también frecuente que los responsables de las tareas de vigilancia dediquen su tiempo a la labor de recolección de datos, en lugar de analizar dichos datos y transformarlos en Inteligencia Competitiva.

La organización compromete así gran parte de sus recursos en la obtención de la información, lo que genera resultados muy pobres.

Claramente, son necesarias soluciones que ayuden a la sistematización y automatización de estas actividades. Estas soluciones de Vigilancia Tecnológica se enfrentan a tres retos principales:

Cómo acceder a información de Internet, automatizando tareas como el rellenado de formularios, el seguimiento de enlaces, los mecanismos de autenticación o el mantenimiento de sesión.

Cómo extraer ítems de información (estructuración) de páginas HTML u otros tipos de información semiestructurada.

Como mantener con agilidad estos sistemas ante cambios en los sitios web sujetos a vigilancia.

2. Inteligencia Competitiva

La Inteligencia Competitiva (o Vigilancia Tecnológica; la mayor parte de los expertos utiliza estos términos de forma intercambiable a pesar de orígenes divergentes) podría definirse como el esfuerzo sistemático de observación, captación, análisis, difusión y recuperación de información en los entornos tecnológico y de negocio.

Attachments are only available to registered users.

Register Here

Attachments are only available to registered users.

Register Here

Attachments are only available to registered users.

Register Here
View Full Image

Attachments are only available to registered users.

Register Here

Según un estudio de la revista Puzzle, líder en el campo de Inteligencia Competitiva, ésta toca en mayor o menor medida todos los departamentos de la empresa, como se puede ver en el cuadro a continuación:

Attachments are only available to registered users.

Register Here

Attachments are only available to registered users.

Register Here

Attachments are only available to registered users.

Register Here
View Full Image

Attachments are only available to registered users.

Register Here

Dicho estudio también concluyó que las actividades más frecuentes y que consumían la mayor cantidad de recursos de las unidades de Inteligencia Competitiva eran las siguientes:

- Búsqueda
- Clasificación
- Análisis
- Distribución

3. Web Oculta

La paradoja radica en que la mayoría de la información disponible en Internet no es visible para las herramientas tradicionalmente utilizadas en la búsqueda y explotación de dicha información: nos estamos refiriendo a la llamada “Web Oculta”,

y cómo los buscadores, por regla general, no son capaces de mostrárnosla.

Pero ¿qué es la Web Oculta (también referida como Web Dinámica o Invisible)? Raghavan y García Molina (2001) distinguen tres tipos de dinamismo en páginas web:

- Dinamismo temporal (Temporal dynamism): es el dinamismo resultante de contenido temporal, por ejemplo las cotizaciones de la bolsa o de tipos de cambio o de noticias.

- Dinamismo de cliente (Client dynamism): el contenido que se sirva a un cliente es diferente de otro, como en el caso de Amazon, con sus recomendaciones personalizadas.

- Dinamismo de inserción (Input dynamism): los resultados de insertar palabras clave en formularios.

La Web Oculta está ligada al tercer tipo de dinamismo en páginas Web descrito por Raghavan y García Molina, el dinamismo de inserción, es decir aquellas páginas web que son generadas de forma dinámica a partir de consultas generalmente realizadas a bases de datos, con las que se interactúa a través de formularios.

La dificultad en acceder a dicha información por parte de los crawlers actuales radica en que:

- En muchos casos los formularios de consulta no aparecen expuestos en el código de las páginas directamente, sino que son fruto de la ejecución de programas embebidos en las mismas (e.g. código Javascript), por lo que los crawlers no tienen acceso a los mismos[1].

- por otro lado, en aquellos casos en los que puedan acceder al formulario, no sabrían cómo realizar búsquedas sobre el mismo y cuales serían las palabras clave de búsqueda a insertar en los diferentes campos ya que desconocen el contenido y la semántica de la información existente detrás del formulario de consulta.

- Muchas de las fuentes de información son bajo registro y exige que el robot pueda suministrar un login y password del que no dispone.

El tamaño de la Web Oculta es sensiblemente superior a la de la Web convencional o estática: contiene según diferentes estimaciones hasta 500 veces la información indexada por buscadores (7500 terabytes vs. 19 terabytes en un estudio realizado por BrightPlanet en el año 2000 (Michael K. Berg 2000)), de ahí el interés en el desarrollo de tecnologías que permitan explotar adecuadamente esta información.

En el resto de este artículo presentamos las tecnologías que permiten el acceso a la Web Oculta, y cómo las mismas pueden proporcionar una visión estructurada de sus contenidos que facilite su tratamiento mediante motores de consulta similares a los de las bases de datos relacionales, lo que permite construir aplicaciones de inteligencia competitiva de alto valor añadido.

4. Las fuentes de información semiestructuradas

La importancia de la Web Oculta no deriva no obstante de la cantidad de información que contiene, sino principalmente de la calidad de la misma: todo lo que está detrás de un formulario tendrá una calidad mucho mayor de lo que podamos encontrar antes (por ejemplo, el formulario de búsqueda de proyectos de investigación no guarda ninguna relación con la cantidad y calidad de información accesible a través de él en bases de datos como Cordis).

La información más valiosa se encuentra almacenada en bases de datos y es accesible en Internet mediante formularios de consulta, tal y como manifiesta Francois Libmann en una reciente entrevista a la revista Regards sur I’IE (Francois Libmann 2005).

La propiedad más importante que caracteriza a la Web Oculta es que su información está semiestructurada (o, lo que es lo mismo, débilmente estructurada). ¿Qué quiere decir esto?: pues que a diferencia de la información que típicamente reside en la Web estática, fundamentalmente no estructurada, esta información ha sido generada de forma dinámica por un programa, por lo que intrínsecamente existe una estructura subyacente a la información, que puede ser inferida por medios automáticos para su mejor aprovechamiento.

Y ahí está la principal ventaja de la información residente en la Web Oculta: puede ser procesada de forma automática una vez que ha sido estructurada, por lo que puede consultarse con lenguajes de consulta muy potentes similares a los que nos ofrecen las bases de datos modernas.

5. Técnicas de Estructuración de Información

Para ello, como paso previo, es preciso la estructuración de la información. En la actualidad existen tecnologías que permiten inferir la estructura de las páginas de la fuente detectando automáticamente delimitadores que nos marquen la separación de un registro o de un campo al siguiente.

De esta forma es posible construir de forma automática un extractor (también llamado envoltorio) que consiga traducir la fuente a una tabla de datos con atributos de igual forma que podemos encontrarnos en una base de datos convencional.

Attachments are only available to registered users.

Register Here

Attachments are only available to registered users.

Register Here

Attachments are only available to registered users.

Register Here
View Full Image

Attachments are only available to registered users.

Register Here

El proceso que sigue el usuario para extraer datos de la web oculta es muy sencillo:

- El usuario graba su navegación por las páginas de llegada al formulario, autenticación, inserción de datos y recogida de resultados.

- El usuario identifica los resultados de interés utilizando para ello tres o cuatro ejemplos de resultados.

- La herramienta genera patrones de navegación y extracción, así como de definición de la estructura de la fuente en base a esos ejemplos.

- Si el formato de la fuente cambia, el sistema intentará realizar el proceso inverso, en el que trata de localizar en las nuevas páginas los ejemplos de resultados obtenidos previamente e infiere a partir de ellos el nuevo patrón de la fuente regenerándose de forma automática.

De modo que el paradigma de Web Semántica puede estar próximo, ya que gracias a técnicas de estructuración automática como las mencionadas podemos ofrecer una etiquetación automática del contenido del site, que nos permita poder interpretar por parte de un computador tanto su contenido como los servicios y posibles consultas que el mismo ofrece.

6. El potencial de las fuentes de información semiestructuradas para la Inteligencia Competitiva

Volviendo al punto original, la información ya estructurada puede ser explotada de forma muy potente mediante técnicas de bases de datos, que combinen información de distintas fuentes, por lo que podemos responder consultas del tipo:

- Obtener el montante medio de financiación en proyectos de I+D en tecnologías UMTS financiado por la Programa de I+D de la Unión Europea en el periodo 2002 – 2004.

- Construir una base de datos con todas las empresas del sector químico que hayan invertido en Sudamérica más de 5 MEUR entre los años 2000 y 2005.

- Obtener la evolución de patentes por país en nanotecnología durante los últimos cinco años.

Información de este tipo es claramente de mucho valor añadido para los órganos de decisión de cualquier empresa. Entre las ventajas de estos sistemas figuran el que podamos construir cuadros de mando con indicadores para visualización en el proceso de inteligencia competitiva, como por ejemplo, extrayendo datos de patentes, noticias, revistas especializadas, etc.,

y agregándolas todas en una sola página, un portal para la inteligencia competitiva donde veamos la evolución de una tecnología por número de patentes registradas, las últimas noticias extraídas de webs de competidores, así como las noticias del sector por productos y tecnologías, todo extraído de diferentes fuentes, en tiempo real, y con la información de la competencia.

Un sistema de Vigilancia Tecnológica/Inteligencia Competitiva que ignorase la información escondida en bases de datos de artículos, tecnologías, patentes, etc. sería completamente inadecuado. La exploración de esta web oculta necesita del descubrimiento de las bases de datos relevantes y su incorporación a un sistema de exploración sistemática y automatizada.

Es necesario el realizar una relación completa de las palabras clave que nos interesan (productos, tecnologías, competidores, eventos, suministradores, etc.), para disponer de la última información actualizada. Entonces podemos lanzar regularmente nuestro sistema automatizado contra bases de datos relevantes, y disponer de una indexación de la web personalizada.

El sistema permitiría también la elaboración de estadísticas que pueden avisar sobre sectores y tecnologías emergentes descubriendo en qué campos se está trabajando más (con la generación de indicadores por tecnologías, patentes, artículos, productos, competidores, etc.).

7. Últimas tendencias tecnológicas para la exploración de la Web Oculta

Una lista parcial de bases de datos buscables en internet (Francois Libmann 2005) revela que existen más de 150.000 bases de datos que no están indexadas en Internet.

Algunas herramientas permiten la búsqueda simultánea y centralizada en cada una de ellas de un cierto número de palabras clave, y luego la posterior agregación del contenido.

Este tipo de herramientas permite la labor de descubrimiento de fuentes que complementa a lo que se puede hacer vía otros buscadores, y que es la labor previa a la puesta en marcha de un sistema de vigilancia tecnológica automatizado.

En la actualidad se está investigando activamente en técnicas de crawling especializadas en la Web Oculta (Raghavan y García Molina 2001).

El usuario proporciona al robot una descripción del dominio en el que está interesado (e.g. bases de datos de patentes), consistente en una relación de etiquetas típicas de campos de búsqueda en dicho dominio así como ejemplos de ítems de información válidos para el mismo.

El robot analiza los formularios de las páginas y utilizando técnicas de similitud textual y proximidad visual genera un ranking en función de la relevancia de los formularios encontrados con respecto al dominio de interés; a continuación realiza búsquedas utilizando los ejemplos suministrados con objeto de validar la página, y recuperar la información contenida en la misma.

Otra variante tecnológica relacionada es lo que se conoce como Focussed Crawling (Chakrabarti et al., 1999), en este caso el robot recorre enlaces al modo tradicional (sin cruzar formularios) y analiza los documentos de la página comparándolos con los que son referencia en el dominio de interés utilizando técnicas de catalogación automática.

Estas técnicas se basan en la generación de vectores de claves obtenidos a partir de documentos representativos del dominio que han sido proporcionados previamente por el usuario.

Cuando el crawler obtiene un documento realiza el mismo proceso calculando el vector de claves para el mismo, a continuación calcula la proximidad con el documento que sirve de patrón para dicho dominio, descartando aquéllos que no pertenezcan al dominio de interés.

De este modo podríamos construir un buscador especializado por ejemplo en nanotecnología, y que nos construyese un índice con toda la información disponible en Internet relativa a esta temática.

8. Conclusión

Las técnicas de estructuración automática permiten obtener una visión estructurada de la información que reside en la Web Oculta. Ello facilita la creación de indicadores para el proceso de la Inteligencia Competitiva basados en potentes consultas en las que se recoge información de forma combinada de diversas fuentes.

En definitiva las tecnologías que permiten una explotación adecuada de la información residente en la Web Oculta pueden proporcionar un alto valor añadido para la construcción de aplicaciones de Inteligencia Competitiva, ya que abren un universo de posibilidades hasta ahora desconocido.

Referencias

Raghavan y García Molina. “Crawling the Hidden Web”. En: Proceedings of the 27th International Conference on Very Large Data Bases (VLDB 2001), 2001, Morgan Kaufmann, pp. 129 -138.

Michael K. Berg, "The Deep Web: Surfacing Hidden Value", BrightPlanet White Paper, 24 de Septiembre de 2001

Francois Libmann. "Web Invisible: Le Rideau Tombe!", 2005. En Regards sur l'IE, Mayo-Junio 2005.

Juan Raposo, Alberto Pan, Manuel Álvarez, Ángel Viña. “Automatic Wrapper Maintenance for Semi-Structured Web Sources Using Results from Previous Queries”. En: Proceedings of the 2005 ACM Symposium on Applied Computing. (SAC 2005), 2005, The Association for Computing Machinery, Inc., pp. 654-659.

Alberto Pan, Juan Raposo, Manuel Álvarez, Paula Montoto, Vicente Orjales, Justo Hidalgo, Lucia Ardao, Anastasio Molano y Ángel Viña. “The DENODO Data Integration Platform”. En: Proceedings of the 28th International Conference on Very Large Data Bases (VLDB 2002), 2002. Morgan Kaufmann, pp. 986-989.

S. Chakrabarti, M. Van der Berg and B. Dom. “Focussed Crawling: A New Approach to Topic-specific Web Resource Discovery”. En: Proceedings of the 8th Internacional World Wide Web Conference, 1999.



si mi respuesta le es satisfactoria marque alguna de las 2 casillas en ACEPTAR!
Experto:  Ing. Navas escribió hace 4 año.
Saludos.

Tratando de dar una respuesta concreta a tu pregunta, la respuesta depende de quien eres, y a esto me refiero:
  1. Eres un buscador; una persona que busca un contenido en particular
  2. Eres a quien quieres que encuentren; publicas contenido y deseas atraer más tráfico a tu sitio WEB.
  • Si eres un Buscador, la respuesta es NO, no es mejor, ya que lo que obtienes es más links donde buscar, por si millones de links que leer no fueren suficiente para tí; en éste caso es mejor la busaqueda categorizada o Clostering, ya que éste tipo de buscadores te da una ayuda agrupando los contenidos encontrados buscando similitudes entre ellos y desplegando inicialmente los que más se acemejan a los criterios que has ingresado, el mejor ejemplo de este tipo de buscadores es http://search.yippy.com
  • Si desas ser encontrado, la respuesta es SI, aunque eso no garantíza que la gente te halle, propiamente dicho, ya que es cierto que apareceras entre las opciones que la gente vea, entre millones de links, lo que no garantíza que destaques entre todos. Nada sustituye una buena investigación de busquedas y tu sentido común, por ejemplo, hay más busquedas a nivel mundial por "Doctor On Line" que para "Pediatra En Linea" o "Doctor en Linea" o "Doctor", lo que hará de la frase "Doctor On LIne" un mejor criterio de busqueda que cualquier otro.

Espero haberte sido de ayuda.

Experto:  Ing. Navas escribió hace 4 año.
Saludos

Quisiera saber si ¿te fuimos de ayuda?

JustAnswer en los medios:

 
 
 
Sitios web de consulta médica: Si tiene una pregunta urgente puede intentar obtener una respuesta de sitios que afirman disponer de distintos especialistas listos para proporcionar respuestas rápidas... Justanswer.com.
JustAnswer.com...ha visto como desde octubre se ha disparado el número de consultas legales de nuestros lectores sobre despidos, desempleo e indemnizaciones por cese.
Los sitios web como justanswer.com/legal
...no dejan nada al azar.
El tráfico en JustAnswer ha aumentado un 14 por ciento...y hemos recibido 400.000 visitas en 30 días...las preguntas relacionadas con el estrés, la presión alta, la bebida y los dolores cardíacos han aumentado un 33 por ciento.
Tory Johnson, colaboradora de GMA sobre temas relacionados con el lugar de trabajo, habla sobre el "teletrabajo", como JustAnswer, en el que expertos verificados responden a las preguntas de las personas.
Le diré que... las pruebas que hay que superar para llegar a ser un experto son muy rigurosas.
 
 
 

Opiniones de nuestros clientes:

 
 
 
  • Explicación simple y concreta que facilitó enormemente lo que tenía que hacer. Osvaldo Argentina
  • Explicación simple y concreta que facilitó enormemente lo que tenía que hacer. Osvaldo Argentina
  • Gracias! Servicio excelente. Me ha gustado trabajar con los Expertos. Éxito y gracias. Estefanía Chile
  • Muy agradecida. Si lo necesito volveré a utilizar el site. Mari Ramírez San Juan, Puerto Rico
  • El tiempo de respuesta es excepcional, de menos de 6 minutos. La pregunta se respondió con profesionalidad y con un alto grado de compasión. Inés Santander
  • Quedé muy satisfecho con la rapidez y la calidad de los consejos que recibí. Me gustaría añadir que puse en práctica los consejos y que funcionaron la primera vez y siguen haciéndolo. Luis Málaga
  • Es un servicio fantástico y M. Castillo me ayudó muchísimo y me proporcionó algunos sitios web y herramientas estupendos que me permitieron ampliar mis conocimientos sobre la pregunta. ¡Muchas gracias! Esther Sevilla
  • Un servicio estupendo: rápido, eficiente y preciso. ¿Qué más se puede pedir? No tengo palabras para agradecer su ayuda. María Barcelona
 
 
 

Conozca a los expertos:

 
 
 
  • Jesús

    Jesús

    Técnico Informático

    Clientes satisfechos:

    711
    Experto en Software, Hardware y Redes.
  • http://ww2.justanswer.com/uploads/JE/jesemo/2012-2-26_21847_yocarnet.64x64.jpg Avatar de Jesús

    Jesús

    Técnico Informático

    Clientes satisfechos:

    711
    Experto en Software, Hardware y Redes.
  • http://ww2.justanswer.com/uploads/ES/Estigia/2011-10-18_211225_VMNB.64x64.JPG Avatar de Estigia

    Estigia

    Ing. en Electrónica

    Clientes satisfechos:

    1009
    Especializado en HW, SW e Infraestructura de Redes.
  • http://ww2.justanswer.com/uploads/AR/arcangelus/2012-1-3_2523_Jluis.64x64.jpg Avatar de arcangelus

    arcangelus

    Ing. en Sistemas

    Clientes satisfechos:

    428
    Más de 20 años de experiencia en Informatica
  • http://ww2.justanswer.com/uploads/RR/rrubidio/2015-3-16_19381_arnetnuevo.64x64.jpeg Avatar de Rubén Díaz

    Rubén Díaz

    Técnico en computación, informática

    Clientes satisfechos:

    381
    Más de 7 años de experiencia en soporte informático in-situ y remoto, con conocimientos en equipos Windows, Mac, Smartphone y periféricos.
  • http://ww2.justanswer.com/uploads/AL/Albertillo/2012-10-29_21350_newtshirthe.64x64.jpg Avatar de Albertillo

    Albertillo

    Ingeniero Superior en Informática

    Clientes satisfechos:

    23
    Último curso de carrera
  • http://ww2.justanswer.com/uploads/RA/ratonxi/2012-1-3_151146_1.64x64.png Avatar de ratonxi

    ratonxi

    Licenciatura

    Clientes satisfechos:

    13
    Licenciado en Física, expecialidad física computacional.
 
 
 

Preguntas relacionadas con Informática