The artificial intelligence is capable of generating discourses with your voice

Les mostramos partidas de ajedrez y se convirtieron en rivales imbatibles; les dejamos leer nuestros textos y se puiseron a redactar. I also learned to paint and retouch photographs. ¿Acaso alguien dudaba que la inteligencia artificial no iba a ser capaz de hacer lo mismo con los discursos y la música?

Google’s research division has presented AudioLM (paper), un framework para generar audio de alta calidad que se mantenga consistente a largo plazo. Para ello, parte de una recordinga de apenas unos segundos de duración, y es capaz de prolongarla de forma y coherente. Lo más reseñable es que lo logra sin ser entrenada con transcripciones o annotaciones previas pese a que el discurso generated sea plausible sintáctica y semánticamente plausible. Además, mantiene la identidad y la prosodia del hablante al punto de hacer que el oyente no sea capáz de discernir qué tramo del audio es original y que ha sido sido por una inteligenia artificial.

The examples of this artificial intelligence are surprising. Not only is it capable of replicating the articulation, tone, timbre and intensity, but it is capable of introducing the sound of the speaker’s respiration and forming phrases with meaning. Si no parte de un audio de estudio, sino de uno con ruido de fundo, AudioLM lo replica para darle continuidad. En la web de AudioLM, pueden escucharse más muestras.

Google Brain

Una artificial intelligence trained in semantics and acoustics

¿Cómo lo logra? La generación de audio o música no es nada nuevo. Pero sí lo es la forma que han discurrido los investigadores de Google para abordar el problema. Semantic markers are extracted from each audio to codify a high-level structure (phonemes, lexicon, semantics…) and acoustic markers (speaker identity, recording quality, background noise…). Con estos datos ya procesados ​​y comprehensibles para la inteligenia artificial, AudioML comienza su labor estableciendo una ierarquía en la que predicte primero los marcardores semánticos, que luego se emplean como condicionantes para predecir los marcadores acústicos. Estos últimos se vuelven a utilizar al final para convertir los bits en algo que los humanos podamos escuchar.

This semantic separation of acoustics, y su hierarquía, no solo es una practica beneficiosa para entrenar modelos de lenguaje que generate discursos. According to researchers, it is also more effective to continue piano compositions, as shown on the web. Es mucho mejor que los models que only se entrenan mediate marcaradores acústicos.

The most significant thing about the artificial intelligence of AudioLM is that it is capable of continuing discourses and melodies, but it can do everything at once. I therefore un único modelo de lenguaje que se pueda emplear para pasar texto a voz —a robot could read entire books and still listen to professional voice actors— and to make any device communicate with people through a familiar voice. This idea was studied by Amazon, which asked people to use the voice of their loved ones in their Alexa speakers.

¿Apassionante o peligroso?

Programs like Dalle-2 and Stable Diffusion are exceptional tools that allow you to sketch ideas or generate creative resources in a few seconds, as the illustration used on the cover of this article. El audio puede ser más importante incluso, y uno puede imaginar que la voz de un locutor se use bajo demanda por varias empresas. Even films could be dubbed with the voices of actors who have died. El lector se estará preguntando si esta possibility, aunque apasionante, no será peligrosa. Toda recording of audio could be manipulated with political, legal or judicial fines. Google says that, although humans have difficulty detecting what comes from humans and what comes from artificial intelligence, an ordenador sabe detectar si el audio es organico o no. I mean, no solo la máquina nos puede reemplazarsino que para valorar su trabajo será imperative contar con otra máquina.

At the moment AudioLM is not open to the public, it is only a language model that can be integrated into different projects. But this demonstration, together with the music program Jukebox de OpenAI, demonstrates the rapidity that we are introducing in a new world where no one will know, but it will not be imported, if this photograph is made by a person or on the other side of the phone una persona o una locución generated artificially in tiempo real.

Leave a Comment

Your email address will not be published. Required fields are marked *