Por ahora usted puede haber leído acerca del Conocimiento Fideicomiso , un trabajo de investigación de Google que describe un método de documentos web de puntuación de acuerdo con la exactitud de los hechos. La confianza basada en el conocimiento ha sido referido como el Algoritmo de la Verdad, una manera de asignar una puntuación de confianza para eliminar a los sitios que contienen información incorrecta.
De acuerdo con el título de un artículo en la revista New Scientist , " Google quiere clasificar los sitios web basados en no hechos Enlaces ". La idea es identificar factores clave en una página web y les anotar por su precisión mediante la asignación de una puntuación de confianza.
Los investigadores del algoritmo son el cuidado de anotar en el periódico que el algoritmo no penaliza sitios para la falta de hechos. El estudio revela que podría descubrir páginas web de interés con baja PageRank que de otro modo se pasa por alto por la tecnología actual.
En los algoritmos actuales, enlaces son una señal de la popularidad que implica la autoridad en un tema en particular. Pero su popularidad no siempre significa una página web contiene información precisa. Un buen ejemplo puede ser los sitios web de chismes de celebridades. Conseguir pasado simple señales popularidad y la creación de un algoritmo que puede entender lo que un sitio web es acerca de una dirección en la que la tecnología de búsqueda se está moviendo en la actualidad, respaldado por la investigación en inteligencia artificial.
Ray Kurzweil , director de ingeniería de Google, se ha encargado de crear una inteligencia artificial que puede entender el contenido en sí mismo sin depender de señales de terceros como enlaces.Basada en el Conocimiento Trust, una manera de determinar la veracidad de los hechos, parece ser una parte de esta tendencia de alejarse de señales de enlace y hacia la comprensión de los contenidos.
Sólo hay un problema: El papel de la investigación en sí indica que hay por lo menos cinco cuestiones que superar antes de Conocimiento basado en la confianza está listo para ser aplicado a miles de millones de páginas web.
Es la confianza basada en el conocimiento viene pronto? ¿O vamos a verlo integrado en algoritmos actuales?
Le pregunté a Dr. Pete Meyers de Moz.com, y su opinión fue:
"Tendemos a ver cada nuevo factor de clasificación como la sustitución de los antiguos. Saltamos a todo como si va a arrancar de raíz enlaces. Creo que la realidad es que cada vez más factores están corroborando, y el sistema es cada vez más complejo ".
Estoy de acuerdo con el Dr. Meyers. En lugar de ver KBT como un reemplazo para los algoritmos actuales, puede ser útil para ver como algo que se puede implementar como un factor corroborando. Una consideración importante sobre KBT es que demuestra que Google está investigando las tecnologías que se centran en la comprensión de los contenidos, en lugar de confiar en las señales de segunda mano como enlaces. Enlaces miden la popularidad, pero los vínculos sólo reflejan indirectamente la relevancia y exactitud, a veces erróneamente.
Esta investigación demuestra que un nivel de acierto es posible y demuestra que este enfoque puede descubrir páginas web útiles con puntuaciones bajas de PageRank. Pero la pregunta sigue siendo, es la confianza basada en el conocimiento que viene pronto? La auto-evaluación por escrito en la conclusión del trabajo señala varios logros, pero también establece cinco cuestiones que deben ser superadas. Vamos a revisar estos temas y usted puede hacer su propia decisión.
Problema # 1: Irrelevante Ruido
El algoritmo utiliza un método de identificación de hechos que examina tres factores para determinar la misma. Se refiere a ellos como "El conocimiento Triples", que consiste en un sujeto, un predicado, y un objeto. Un tema es una "entidad del mundo real", como personas, lugares o cosas. Un predicado describe un atributo de esa entidad. De acuerdo con el trabajo de investigación, un objeto es "una entidad, una cadena, un valor numérico, o una fecha."
Estos tres atributos juntos forman un hecho, conocido en el trabajo de investigación como conocimiento Triples y, a menudo conocido simplemente como Triples. Un ejemplo de un triple es: Barack Obama nació en Honolulu. El problema con este método es que la extracción de triples de Sitios resultados en triples irrelevantes, triples que divergen del tema de la página web. El estudio de investigación concluye:
"Para evitar la evaluación de KBT en tema triples irrelevantes, tenemos que identificar los principales temas de una página web, y el filtro de triples, cuya entidad o predicado no es relevante a estos temas."
El documento no describe lo difícil que sería para eliminar a los triples irrelevantes. Así, el marco de dificultad y el tiempo para abordar esta cuestión queda abierta a la especulación.
Problema # 2: Datos de Trivial
KBT no filtra adecuadamente hechos triviales que puso a un lado y no utilizarlos como una señal de puntuación. El trabajo de investigación utiliza el ejemplo de un sitio de Bollywood que en casi todas las páginas afirma que una película se filmó en el idioma hindi. Eso ha identificado como un hecho trivial de que no se debe utilizar para la confiabilidad de puntuación. Esto reduce la exactitud de la puntuación KBT porque una página web puede obtener una puntuación anormalmente alta confianza basada en hechos triviales.
Al igual que en la primera edición del ruido, los investigadores describen posibles soluciones a los problemas, pero no dicen nada de lo difícil esas soluciones pueden ser la creación. El hecho importante es que esta segunda cuestión debe resolverse antes de KBT se puede aplicar a la Internet, haciendo retroceder la fecha de aplicación aún más.
Edición # 3: Tecnología de la extracción Necesita mejorar
KBT es incapaz de extraer datos de una manera significativa de los sitios web fuera de un entorno controlado sin ser inundado con el ruido. La tecnología se hace referencia aquí se llama un Extractor. Un extractor es un sistema que identifica triples dentro de una página web y asigna puntuaciones de confianza a los triples. Esta sección del documento no establece explícitamente cuál es el problema con los extractores es, que sólo cita las "capacidades de extracción limitadas".Para aplicar KBT a la web, extractores tienen que ser capaces de identificar triples con una alta certeza de la exactitud. Esta es una parte importante del algoritmo que tendrá que ser mejorado si alguna vez va a ver la luz del día. Aquí está lo que el documento de investigación dice:
"Nuestros extractores (y la mayoría de los extractores de estado-of-the-art) todavía tienen capacidades de extracción limitados y esto limita nuestra capacidad de estimar KBT para todos los sitios web."
Esto es un obstáculo significativo. Esta información es importante. Las limitaciones de la tecnología de extracción actual se suma una tercera cuestión que debe resolverse antes del Conocimiento La confianza puede ser aplicado a la World Wide Web.
Edición # 4: contenido duplicado
El algoritmo KBT no puede solucionar los sitios que contienen datos copiados de otros sitios. Si KBT no puede ordenar el contenido duplicado, entonces puede ser posible que KBT puede ser difundido copiando datos de fuentes "de confianza", como Wikipedia, Freebase, y otras fuentes de conocimiento. Esto es lo que afirman los investigadores:
"La ampliación de las técnicas de detección de copia ... se ha intentado ..., pero se requiere más trabajo antes de que estos métodos se pueden aplicar al análisis de los datos extraídos de miles de millones de fuentes web ...".
Los investigadores trataron de aplicar la detección de copia en escala como parte del algoritmo de confianza basada en el conocimiento, pero no es simplemente listo. Esta es la cuarta edición que retrasará el despliegue de KBT a las páginas de resultados de Google.
Edición # 5: Precisión
En la sección 5.4.1 del documento, los investigadores examinaron cien sitios al azar con baja PageRank pero las puntuaciones altas en fideicomiso Basada en el Conocimiento. El propósito de este examen es determinar qué tan bien Fideicomiso Basada en el Conocimiento realizó en la identificación de los sitios de alta calidad más de PageRank, sitios particularmente bajos de PageRank que de otro modo habrían sido pasados por alto.
Entre los cien sitios aleatorios de alta confianza recogidos para su revisión, 15 de los sitios (15%) son los errores. Dos sitios son sobre temas irrelevantes, doce anotado alto debido triples triviales, y un sitio web tenido ambos tipos de errores (tópicamente irrelevantes y un alto número de triples triviales). Esto significa, en una muestra aleatoria de los sitios altos de confianza con baja PageRank, el porcentaje de falsos positivos de KBT se revela a ser del orden de 15%.
Muchos trabajos de investigación cuyos algoritmos finalmente lo hacen en un algoritmo suele mostrar una gran mejora sobre los esfuerzos anteriores. Ese no es el caso con confianza basada en el conocimiento. Mientras que un algoritmo Verdad hace un titular alarmante, la verdad es que hay cinco temas importantes que necesitan ser resueltos antes de que lo hace con un algoritmo cerca de usted.
Lo que los expertos piensan acerca de la confianza basada en el conocimiento
Le pregunté a Bill Slawski, de GoFishDigital.com sobre confianza basada en el conocimiento y me dijo:
"El enfoque de confianza basada en el conocimiento es el que parece centrarse en tratar de verificar la exactitud de los contenidos que pudieran utilizarse para la respuesta directa, los resultados del panel de conocimientos y otras" respuestas "a las preguntas utilizando enfoques descubiertas durante la investigación del autor mientras se trabaja en Bóveda del Conocimiento de Google. No parece estar intentando reemplazar ya sea basado en el análisis de enlace, como las puntuaciones de PageRank o de recuperación de información para las páginas devueltas a Google en respuesta a una consulta ".
Dr. Pete Meyers comparte una visión similar sobre el futuro de la confianza basada en el conocimiento:
"Esto va a ser muy importante para los cuadros de respuestas segunda generación (por raspado del índice), ya que Google tiene que tener alguna manera de hacer crecer el Gráfico de conocimiento biológico y aún así mantener los datos lo más fiable posible. Creo KBT será fundamental para el crecimiento de la Gráfico de conocimiento, y que puede empezar a cruzar a la clasificación orgánica en algún grado. Esto va a ser un proceso bastante largo, sin embargo. "
Es un algoritmo de Verdad viniendo pronto?
La confianza basada en el conocimiento es un nuevo enfoque emocionante. Hay varias opiniones sobre donde se aplicará, con el Dr. Pete observando que puede desempeñar un papel en el crecimiento de la Gráfico de conocimiento orgánicamente. Pero sobre la cuestión de si la confianza basada en el conocimiento está llegando a una página de resultados de búsqueda pronto, sabemos que hay cuestiones que deben resolver. Menos claro es cuánto tiempo va a tomar para resolver esas cuestiones.
Ahora que tiene más datos, ¿cuál es su opinión, es un algoritmo de verdad muy pronto?