Mark Zuckerberg prueba el nuevo modelo de IA de Meta en un antiguo vídeo de él tocando la guitarra

Ver: Mark Zuckerberg prueba el nuevo modelo de IA de Meta en un antiguo vídeo de él tocando la guitarra

V-JEPA son las siglas de Video Joint Embedding Predictive Architecture.

En un esfuerzo por promover el último modelo de Inteligencia Artificial (IA) de Meta que aprende viendo videos, Mark Zuckerberg compartió un video antiguo que presenta un nuevo proyecto llamado V-JEPA. En Instagram, Zuckerberg compartió un clip retro en el que se le ve cantando y tocando una canción en la guitarra para su hija, Maxima. En el pie de foto, dijo que probó el vídeo en el modelo V-JEPA AI, que según el sitio es «un modelo no generativo que aprende prediciendo las partes faltantes o cubiertas del vídeo en un espacio de representación abstracto».

«Volvamos a cantar una de las canciones favoritas de Max. Recientemente probé este video con un nuevo modelo de IA que aprende sobre el mundo viendo videos. Sin estar entrenado para hacer esto, nuestro modelo de IA predijo los movimientos de mis manos mientras rasgueaba las cuerdas. Desliza para vea los resultados «, escribió Zuckerberg en el título de la publicación.

Mira el vídeo a continuación:

Zuckerberg compartió dos videos separados. En el primer clip, se lo ve cantando y tocando la canción en la guitarra junto con Maxima. En el segundo video, muestra los resultados del modelo de IA, que muestra cómo V-JEPA predice los movimientos de la mano mientras toca la guitarra y completa las partes faltantes del video.

Zuckerberg compartió el vídeo hace apenas un día y desde entonces ha obtenido más de 51.000 me gusta.

Leer también | Alexei Navalny a Yevgeny Prigozhin, aquí hay una lista de críticos de Putin que murieron misteriosamente

En particular, V-JEPA, abreviatura de Video Joint Embedding Predictive Architecture, es un modelo de análisis predictivo que aprende todo de los medios visuales. No sólo puede entender lo que sucede en el vídeo sino también predecir lo que vendrá.

Para entrenar, Meta afirma haber utilizado una nueva tecnología de enmascaramiento, donde partes del vídeo están enmascaradas en el tiempo y el espacio, dijo la compañía en una publicación de blog. Esto significa que algunos fotogramas del vídeo se han borrado por completo, mientras que otros se han oscurecido parcialmente, lo que obliga al modelo a predecir tanto el fotograma actual como el siguiente. Según la empresa, el modelo puede hacer ambas cosas de forma eficiente. En particular, el modelo puede predecir y analizar vídeos de hasta 10 segundos.

Por ejemplo, si el modelo necesita poder distinguir entre personas que dejan un bolígrafo, lo levantan y pretenden dejar el bolígrafo pero no lo hacen, V-JEPA es bastante bueno en comparación con los métodos anteriores. tareas de reconocimiento de acciones de clase alta», dijo Meta en una publicación de blog.

Puede interesarte

Rutina de práctica de guitarra: cómo mejorar la práctica

Pruébalo hoy, vuelve a la configuración de fábrica, reinicia para jugar. Abrimos todo tipo de …

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *