LipNet usa Machine Learning para leer los labios con un 93% de exactitud mientras que un humano lo hace con un 52%

Artículo científico (PDF): LipNet: Sentence-level Lipreading openreview.net/forum?id=BkjLkSqxg

.

.

ÍNDICE de entradas de este blog:

Índice de entradas

___________________________________________________

Si has disfrutado con esta entrada, suscríbete gratis a Sé y Haz aquí y Encuentra a Los Otros:

.

Recibirás un correo que tienes que activar. Si no lo recibes, mira en la carpeta de spam.

.
Si no, pues nada.

.
.
.

6 comentarios en “LipNet usa Machine Learning para leer los labios con un 93% de exactitud mientras que un humano lo hace con un 52%

  1. 15 años después, por fin se desarrolla plenamente la tecnología de lectura de labios que imagino utilizaba el bueno de HAL en 2001. Welcome to the future. ¿Para cuando el resto de su programación heurística implementada en una buena I.A.?

    1. Buenas! Los avances que se cuecen “de cara al público” suelen estar unos añitos por detrás de los que se cuecen en sitios como DARPA, por entendernos… DeepMind o Watson pintan muy bien. Veremos en qué se convierte todo esto.

  2. Hola! Watson lo entiendo más como una BDD bestia, que yo recuerde solo responde preguntas y la IA se enfoca en “entender” las preguntas. DeepMind (que tiempos aquellos de DeepBlue!) es otra cosa, este sistema si que es de los que aprende. Mañana le preguntaré a mi profesor de Machine Learning que familia de algoritmos de clasificación pueden estar utilizando.

    Yo no estaría muy seguro de que “ellos” tienen sistemas mucho mejores que los que pueda tener Google en este momento… otra cosa es si Google trabaja para “ellos”, jeje. Además, tampoco hace falta mucha potencia para esto, por ejemplo para el LipNet es evidente que hay primero una captación por lo que se denomina percepción visual computerizada, para lo cual se utilizan cámaras que muy al contrario de lo que pueda parecer, tienen unas características (resolución, enfoque, etc.) muy básicas, así que es una tecnología que bien puede tener 30 años, y los algoritmos de reconocimiento de patrones y clasificación también son conocidos hace tiempo. Uno de los mayores obstáculos en este tipo de avances es contar con una buena base de datos bien etiquetada, es decir, grabaciones con la mayor cantidad de personas diferentes posibles diciendo la mayor cantidad de palabras o frases posibles, y que todo esto esté bien clasificado. Es un trabajo de chinos. Hemos trabajado a nivel académico con bases de datos de caras y distinguir si se trata de un hombre o una mujer no es algo trivial precisamente, sobre todo si pretendes alcanzar un porcentaje de acierto notable.

    Con todo esto pretendo decir que me parece improbable que exista en funcionamiento algo como LipNet fuera de los ámbitos experimentales. El sistema sería enorme. Planteemos una situación en la que se pretende leer los labios a una persona de manera automática. Rara vez se tendrán imágenes de esta hablando de manera frontal al objetivo y de una manera estática. Entonces el sistema debería estar adiestrado para realizar esa función de reconocimiento con múltiples ángulos de cara y debería existir algún tipo de estabilización de la imagen para minimizar los movimientos de cabeza o del sujeto en si, etc., etc. ¿Imaginas la gigantesca BDD de la que debería haber aprendido el sistema para que se cubrieran todas las posibilidades? Por no hablar de que habría que hacerlo en multitud de idiomas, acentos, etc. Casi mejor un micrófono remoto o activar el micrófono del móvil o simplemente adiestrar a los espías en lectura de labios.

    Perdón por el tocho :/

  3. Sí, yo creo que indirectamente Google ya hace mucho tiempo que “trabaja” para “ellos”, lo sepan/consientan o no.
    Verbigracia, http://www.nytimes.com/2010/11/17/technology/17wiretap.html y es de 2010…

    Con todo esto pretendo decir que me parece improbable que exista en funcionamiento algo como LipNet fuera de los ámbitos experimentales. El sistema sería enorme.

    Ciertamente ahora sería poco menos que imposible. Pero dales tiempo, ya sabemos que la Ley de Moore sigue vigente y cada vez más vigente con los nuevos avances, y eso que la daban por extinta…

    En otro orden de cosas, el FBI ya reconoce tener una base datos de más de 100 millones de caras. Esta noticia es antigua y habla de 50 millones solo. 244 millones tiene la empresa MorphoTrust.
    https://actualidad.rt.com/actualidad/view/130987-fbi-recoleccion-fotos-base-datos

    Oye, celebro que compartas por aquí tus conocimientos al respecto. 🙂 No sé cómo habrás dado con este blog pero que sepas que la temática no siempre es tan…digamos…ortodoxa. Advertido quedas. B-)

    Un saludo

    1. No todo es fuerza bruta de procesador, aunque Moore se cumpla al sistema hay que enseñarle, es decir, en el caso de las 244 millones de caras alguien debe identificarlas y eso también es costoso. Bueno, no creo que sean 244 millones de caras, son imágenes que imagino serán de diferentes partes de las mismas n caras. No vale solo con almacenar millones de imágenes, hay que clasificarlas, etiquetarlas y hacer que la BDD sea lo más homogénea posible y eso por ahora es un preproceso demasiado manual. Eso si, cuando tengan un sistema que haya aprendido lo bueno es que seguirá aprendiendo sólo con más y más imágenes de manera casi autónoma. Un monstruo, vamos.

      Un mundo interesante este en el que llevo solo un par de meses metido debido a un master en sistemas inteligentes que estoy haciendo. Respecto a como he llegado aquí… no se si un científico como yo debería hablar de sincronicidades a la ligera, pero lo cierto es que de alguna manera en plena crisis cuarentona llegué al podcast de EAO ¿Que es la realidad? hace unos días y ahí mencionan este lugar. ¿Qué posibilidades hay de que acabaras de publicar este post la primera vez que entro aquí mientras escuchaba el podcast y hacía un experimento de machine learning?. Supongo que así son las cosas, aunque no se como.

      Espero en unos días disponer de tiempo para invertir leyéndoos y aprender.

      Un abrazo

      1. Eso si, cuando tengan un sistema que haya aprendido lo bueno es que seguirá aprendiendo sólo con más y más imágenes de manera casi autónoma. Un monstruo, vamos.

        Sí, yo creo que por ahí van los tiros

        DeepMind,la plataforma de Inteligencia Artificial de Google ya puede aprender por sí misma sin intervención humana
        http://thenextweb.com/artificial-intelligence/2016/10/17/deepmind-ai-platform-can-now-learn-without-human-input/

        No tomarás el nombre de las sincronicidades en vano, si preguntas, medio blog está aquí por culpa de ellas… 😆

        Welcome!

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s