SWITCH 16. Sora passa l'examen dels professionals. La generació de vídeo promet, però necessita equips humans

Clúster Audiovisual de Catalunya - Abril 2024

Edició i cura de continguts Collateral Bits


SWITCH nº 16

Les primeres proves reals amb Sora confirmen la potència creativa de la IA, però també les dificultats de control i la necessitat d'equips humans

Tot esperant Sora

No se sap quan estarà disponible comercialment, però Sora, el nou model de generació de vídeo d’OpenAI, ha desfermat l’interès i el temor, tot a la vegada, de la indústria audiovisual.

  • Sora pot crear vídeos de fins a un minut de durada i una qualitat no vista fins ara a partir d’indicacions de text.

OpenAI ja s’ha reunit amb executius, productors i directors de Hollywood. Alguns artistes l’han provat i han difós curts generats amb l’eina. Aquí en teniu una mostra.

  • Es poden distingir dels creats per humans? La revista Variety els ha ensenyat a 1000 persones i ha preguntat si eren fets per persones o per una IA. Gairebé la meitat dels enquestats creien que els havien fet equips humans.

De fet, tenen raó. En totes les produccions l’ús de Sora ha estat parcial. Ha calgut molta participació humana. L’equip de Shy Kids, creador de Air Head, un dels vídeos que ha tingut més ressò, explica com l’han fet i quines són les seves impressions.


Els que han provat Sora diuen que:

Pot substituir el rodatge en tot o en part però no l’edició ni la postproducció. De moment.

  • El procés de creació no és senzill i porta temps. S’han de descartar moltes imatges que no són vàlides, fer proves i cometre errors. El control del què genera encara és inestable.
  • És útil per crear personatges i entorns entre realistes i fantàstics. No tant per substituir imatges reals.
  • Pot augmentar les capacitats creatives en projectes de baix cost. Però…
  • … per generar 1 minut de vídeo es necessiten uns 12 minuts de processament amb una targeta NVIDIA H100 que costa uns 25.000 dòlars. Barat tampoc no és.

Patrick Cederberg, creatiu de Shy Kids: “Amb programes com Sora ens adonarem de la  importància dels creatius i dels tècnics.”

L'animació lidera l'ús professional de la IA

L’animació és el gènere audiovisual que està incorporant amb més intensitat la IA en produccions professionals.

  • China Media Group, la televisió estatal xinesa, ha estrenat Qianqiu Shison, una sèrie d’animació de 26 capítols de 7 minuts creada amb l’ajuda d’IA generativa en diversos processos: guió, música, veu, imatges, animació de vídeo… Vídeo.
  • També l’anime s’apunta a l’automatització. Aquí trobareu el primer episodi de Familiars, una producció de 4 minuts generada amb Pika, Midjourney, Magnific, Topaz Video i Epidemic.

  • Wet Love és un curt d’animació de producció espanyola que combina imatges generades amb IA i robots. +Info.
  • Dues noves eines especialitzades: Animagine XL 3.1 (codi obert) i APISR (millora de qualitat i restauració).

La BBC té un pla (i alguns dubtes)

La BBC ha dissenyat un pla estratègic per treure profit de la IA generativa. A l’octubre va publicar uns principis generals que ara ha concretat en 12 accions per: maximitzar el valor del contingut, proporcionar noves experiències a l'audiència i optimitzar processos interns. També ha publicat una guia ètica d’ús.

En paral·lel, s'està plantejant treure més profit dels seus arxius gràcies a la intel·ligència artificial. Una opció seria explotar-los directament i construir un model propi. L’altra, arribar a acords amb tercers, com estan fent El País, Le Monde i altres…

Mentrestant van fent proves (i errors).

Artistes i creadors en estat d'alerta

Més de 60.00 guionistes de tot el món s’han unit en una coalició per defensar els seus drets davant dels avenços de la intel·ligència artificial. The Hollywood Reporter.

  • Create don't scrape és un altre moviment que proposa unir esforços de tots els creadors per evitar l’abús de les plataformes d’IA.


També  els músics. Més de 200 de cantants i compositors internacionals han firmat el manifest Stop Devaluing Music contra "l'ús depredador de les  seves obres per entrenar la IA, robar les seves veus i composicions i destruir  l’ecosistema musical”.

La gota que ha fet vessar el vas de la paciència dels músics ha estat Suno v3, una eina de IA que permet generar música a partir de text amb una qualitat superior a la resta d’opcions. El nombre d’usuaris que la utilitzen ha crescut exponencialment des que Microsoft l’ha integrat al Copilot. L’última novetat es Udio, desenvolupat per exinvestigadors de Deepmind.


Per  què no protesten els artistes europeus?

  • Resulta  sorprenent que, a diferència del que ha passat als Estats Units, a Europa el  sector cultural amb prou feines hagi mostrat inquietud o preocupació sobre  això. Probablement perquè sempre costa a la gent de la cultura, especialment a  Espanya, imaginar el seu futur més enllà de la defensa precaritzada del que és immediat”. José María Lassalle a La Vanguardia.

ACADÈMIA SWITCH

Sincronització  labial. Us presentem un vídeo de 8 minuts sobre com sincronitzar una veu amb els moviments labials d’un personatge utilitzant Pika Labs. Ho explica Caleb Ward, de Curious Refuge.


Construir  una periodista virtual. Tots els passos. Aquí trobareu una explicació sintètica de totes les eines usades per construir una reportera que informa d’un suposat crim des del lloc dels fets.


Així  s’ha fet Alba Renai, la presentadora virtual de Mediaset. L'agència Be  a Lion, filial de Mediaset España, explica el procés de creació a El País.


+ EINES

  • Fes-me l’acta, transcripció automàtica d’àudio en català.
  • LTX Studio, plataforma que integra moltes de les funcionalitats d’una producció de vídeo professional, de la ideació a l’edició final.
  • Lore machine, per convertir històries en text, còmics i guions multimèdia.
  • Opus Clip. Converteix un vídeo llarg en fragments.
  • Copyrightcatcher, per detectar drets d’autor.

Què s'està coent als laboratoris

Més enllà de Sora, als laboratoris s'estan coent novetats importants.

  • Voice Engine d’Open AI. Clonació de veu amb només 15 segons d’àudio original.
  • Modelatge 3D. Molta activitat al voltant de la conversió d’imatges 2D a 3D. Per citar-ne dues: SV3D, de Stability AI, i LATTE3D, de Nvidia.
  • EMO, generador de video a partir de imatges, generador de veu i sincronització labial tot en un. Dels laboratoris d’Alibaba (Xina).
  • V-Jepa, de Meta és un model de IA no generativa que aprèn a efectuar tasques a partir de la interpretació de les imatges d’un vídeo.
  • Vids, assistent de Google per a la generació de vídeo, escriptura, producció i edició, tot en un. Disponible el mes de juny.

+ IA

  • Estudi de cas sobre Hero, llargmetratge amb guió escrit per una IA entrenada amb les obres de Werner Herzog. Al Docs Barcelona, el 9 de maig.
  • +RAIN. 232 produccions fetes amb IA opten a la selecció final. Només 10 seran les escollides.

  • NAB de Las Vegas. La IA és a cada racó del mercat audiovisual que s’està fent aquests dies. En total 120 conferències sobre IA.

AUDIOVISUAL IMMERSIU

Les ulleres parlen

Passat el primer impacte de les Vision Pro d’Apple i a l’espera que aparegui una versió més econòmica, el mercat aposta per ulleres més portables però equipades amb sensors, micròfons, càmeres i prestacions d’intel·ligència artificial. La fàbrica xinesa Oppo les va presentar al Mobile. Envision també en té, Meta incorporarà IA a les Rayban, Apple en prepara unes al laboratori i la xinesa Xiaomi n’acaba de presentar que costaran 58 euros.

Seul, la ciutat de les grans pantalles

Fa quatre anys, Seul va sorprendre tothom amb l’aleshores pantalla de publicitat exterior de LED més gran del món. En 80 metres de llarg i 20 d’alçada es reproduïa un aquari gegant.

Fa unes setmanes el Mohegan Inspire Entertainment Resort, al costat de l’aeroport, ha instal·lat una mega pantalla de 150 metres per deixar els clients bocabadats. Vídeo.

Revivint "Remember the future"

Al Mobile World Congressus us vàreu poder endinsar en el cub immersiu Remember de Future, una proposta de Lavinia Next i Onionlab per viatjar en el temps des del passat cap al futur de la indústria tecnològica. Aquí teniu l'oportunitat de reviure’l. Més info.

Observatori Switch

Un projecte tecnològic del Clúster Audiovisual de Catalunya

www.clusteraudiovisual.cat/observatori-switch

Amb el suport:


Si has rebut aquest correu d'un amic/ga i t'interessa seguir rebent-lo subscriu-te


Ens podreu trobar a:

www.clusteraudiovisual.cat


Avís Legal

Si heu rebut aquest e-mail és que la vostra direcció de correu electrònic està inclosa a la base de dades del Clúster Audiovisual de Catalunya, on serà tractada confidencialment, d’acord amb la política de privacitat i seguretat del Clúster Audiovisual de Catalunya i la Llei Orgànica de protecció de dades de caràcter personal. Per a exercir els drets d’accés, rectificació, cancel·lació i oposició, poseu-vos en contacte amb nosaltres per e-mail a l’adreça info@clusteraudiovisual.cat o per telèfon al número 93 250 43 56.

Si voleu deixar de rebre les nostres newsletter, convocatòries, etc., responeu a aquest e-mail amb l’assumpte "baixa".