Dette er generativ AI i 2024 + mine favoritter

Martin Ask Eriksen
Jan 10, 2024
4 min read

Det florérer med websider og apper som kan lage deg tekst, lyd, bilde, og til og med video og 3D-figurer. Hvordan skal man navigere seg gjennom alt? Jeg ser ofte gjennom slikt på tbanen på vei til jobb, men hvis du foretrekker å spille Bejeweled og høre på podcaster istedet så har jeg lista opp mine favoritter her. Alle bildene er generert av meg med Adobe Firefly.

Ser du noe du kunne tenkt deg opplæring i eller foredrag om? La oss snakkes - kontaktinfo finner du på hjemmesida mi.

GenAI - tekstgenerering

OpenAIs ChatGPT 4

ChatGPT en tekstbasert generativ KI-tjeneste jeg benytter så å si daglig. Selskapet OpenAI gjorde en genistrek med å slippe en uferdig tjeneste fritt ut til verden så alle ble deres forsøkskaniner, fremfor å holde tett om teknologien og beta-teste det med sære forskere innad i mange flere år.

På fritiden min bruker jeg appen på iOS, som har stemme-til-tekst mulighet, så jeg har praktisk sett byttet ut Siri med GPT-teknologien. Jeg har spurt om matoppskrifter ut i fra ingrediensene jeg hadde tilgjengelig en dag. En annen kveld jeg lurte på en bisarr brettspillregel så jeg spurte den brettspill-retta GPT-agenten Game Time om den kunne forklare meg noe. Det kunne den! Den er bygd på å ha mer kunnskap om brettspill enn noe annet. Innen jobb har jeg laget meg en egen GPT-agent kalt Reklamehjelpern, som jeg har fôret med nyttig treningsmateriell som gir meg konkrete tilbakemeldinger på stillbildeutkast jeg viser den. Universell utforming har aldri vært mer sexy for meg. Jeg har også oversatt juridiske tekstdokumenter mellom språk,

Google Bard

Bard er en nykommer og har ikke tatt over for ChatGPT til tross for at den er gratis. Jeg liker å bruke Bard for å gi oppsummering av lange Youtube-videoer, og for å gi meg kjappere oppsummeringer over hvem en kjent person er, eller hva en nettside brukes til. Ting som ikke er så viktig, og hvor Bard kan få lov til å gjøre feil, og å lære av sine feil og vokse på det👶

GenAI - lyd og musikk

I Premiere Pro er det et lydpanel jeg har brukt i noen år nå, nemlig Essential Sound. Når jeg vil gjøre rask justering på et lydspor som å forsterke tale, er dette min go-to.

En ny tjeneste jeg tidligere har snakket om på foredrag, er Vocal Remover. Det ligger i navnet, det kan fjerne og separere vokal i fra instrumental, og har gjort at jeg har kunne finjustere til video hvor man i blant ikke vil ha kranglende lyrics med dialog i videoklipp.

Jeg har ikke enda tatt steget med å betale for en AI-musikktjeneste, men jeg har leka meg mye med MusicGen på HuggingFace. Den lager 15-sekunderssnutter man fritt kan laste ned uten å registrere noen bruker, men kvaliteten er ikke helt Zimmersk enda. Morsomt, dog!

Her er en kjapp video med et bilde lagd i Midjourney, og musikk fra MusicGen. Comping var utført i After Effects:

GenAI - 3D

ree — AI som lager en robotaktig potet-hjort? Følg med videre...

Nylig ble jeg tagga i et innlegg på LinkedIn med et artig eksempel på hvordan man kan bruke Luma AI sin /genie-funksjon i deres Discord-kanal til å lage spesifikke low-poly 3D-modeller, som Tor Martin i innelgget deretter ble kombinert med en bilde GenAI (som Stable Diffusion, Adobe Firefly eller Midjourney). Fint alternativ det å skrive en 3D-modell først hvis det du vil generere bilde av noe som ikke finnes.

Jeg har tidligere skrevet/laget en modell av en salat med monstertruck-hjul, bare for å teste grensene. Alternativt kunne jeg ha laga noe som matcha bildet ovenfor tittelen, en slags robotaktig potet-hjort? Og ja disse modellene er nedlastbare, jeg har bare linka til en 360-GIF av dem.

GenAI - Video

Dette er desidert det feltet vi snakker mest om i det daglige på jobben, "NÅR KAN VI GENERERE NESTE VIDEO AD?" går det i. Hvis man ser bort i fra eksempelet lengre opp hvor jeg har kombinert stillbilde med partikkelsystemer i After Effects, så er det kun RunwayML som gjenstå å snakke om når det kommer til videogenerering.

Tekst til video / bilde til video / video til video er enda i såpass tidlige faser at det ikke er noe vi kan benytte oss noe effektivt av, med mindre vi lager drømmeaktige sekvenser og trenger noe halvabstraks.

Her er et eksempel, jeg skrev "a happy dog running down the streets of Oslo". Jeg får lyst til å ta en paracet og ibux når jeg ser dette. Generert av RunwayML.

Hvis man myser og ikke er noe brydd med utviklingen i bildet så ser det lovende ut, men hvis man har gått til Specsavers når man skulle så kan man se en hysterisk mann til venstre som skriker munnvikene av seg, og i midten bak en mann som blir til en kylling og så til en kentaur?

Det blir dessverre ikke spesielt mye bedre av å gjøre en text+image to video heller, se eksempel her, generert via Midjourney og så animert med RunwayML:

Ingen som transformerer seg til ulike dyr her, men vi har likevel en tilsynelatende utstoppet hund som sklir på en tynt islagt asfalt, og biler som skal til å kræsje i et tre på høyre kant.

Et viktoriansk portrett av en prins, hvor ansiktet er byttet ut med Martin Ask Eriksen sitt ansikt — Jeg lever virkelig i feil tidsalder.

Nei la oss holde oss til det som funker, nemlig GenAI tekst og GenAI bilder! Som her til høyre, et bilde generert med Midjourney og så InsightFace til å bytte ansiktet ut med mitt eget