Content creatie en generatieve AI

Content creatie en generatieve AI

“Je werkt – op basis van een marketingstrategie – bijpassende tekstuele en audiovisuele middelen uit, gebruikmakend van een iteratief proces, professionele tools en generatieve AI.”

Reflectie

Met Media als hoofdprofiel is het maken van content niks nieuws voor mij. Wel is de manier waarop we dit semester AI gebruiken, om snel veel content te kunnen creëren, nieuw voor mij. Als student en programmeur weet ik natuurlijk al lang hoe handig AI kan zijn voor het schrijven van verslagen, het aanscherpen van bestaande teksten en het maken of verbeteren van code. Maar het inzetten van AI om in een paar weken tijd een merk weg te zetten of content te genereren die past binnen de tone of visual en tone of voice van een merk is wel nieuw voor mij.

Tijdens dit semester heb ik ook een passie voor sportfotografie ontdekt. Hoewel ik zelf ook regelmatig een wedstrijd heb op thuiswedstrijddagen, pak ik maar al te graag mijn camera erbij wanneer ik de kans krijg. Na dit semester wil ik kijken hoe ik deze foto’s, en de kennis die ik op heb gedaan over marketing en content creatie die aansluit bij een merk, in kan zetten om de content die we posten naar een hoger niveau te tillen.

Ook wil ik me meer verdiepen in afbeelding generatie. Ik denk dat ComfyUI heel interessant kan zijn, zeker ook voor andere media studenten. Helaas weet ik er momenteel nog te weinig van af om echt goed uit te leggen hoe het werkt, maar wanneer ik dat wel kan wil ik deze kennis graag delen met mijn mede (media) studenten.

Brand guide voor lokale volleybalvereniging

Om de gemaakte content op consistentie en kwaliteit te kunnen toetsen heb ik een brand guide gemaakt.

Het doel van de brand guide is om het gemaakte werk te kunnen toetsen op consistentie en kwaliteit. Daarbij heb ik vooral gekeken naar wat het nu is, en niet wat het in mijn ogen zou moeten zijn. Dit zou de volgende stap zijn in het verbeteren van het content creatie proces.

Brand Guide Downloaden

Lokale afbeelding generatie

Tools als Adobe Firefly, Runway en ElevenLabs zijn heel fijn, maar lokaal tekst naar afbeelding modellen draaien heeft zijn voordelen.

Dit semester heb ik veel gebruik gemaakt van AI. Niet alleen taalmodellen, maar ook voor afbeelding generatie. Tijdens het rondkijken op de Discord server van Flowise, een open source applicatie om flows te maken taalmodellen, kwam ik een post over ComfyUI tegen. Een ander open source platform, maar dan gericht op het lokaal draaien van modellen voor afbeelding generatie. Ik ben er meteen mee aan de slag gegaan om te kijken wat het is en wat het kan.

Net als bij Flowise is ook de documentatie van ComfyUI ronduit slecht. Een hoop informatie ontbreekt, tutorials zijn verouderd of hebben dependencies die niet vermeld worden. Gelukkig kwam ik, na niet al te lang proberen, er snel uit. Tijd om te experimenteren. Ik had een aantal vragen in mijn hoofd:

Hoe snel gaat dat, lokaal afbeeldingen genereren?
Wat win ik er mee ten opzichte van online tools? Waarom zou ik dit willen?
Hoe makkelijk kan ik parameters tweaken om betere resultaten te krijgen?

Allereerst, hoe snel gaat dat? Dit is natuurlijk geheel afhankelijk van je hardware, het model dat je gebruikt de resolutie en je settings. Maar het viel zeker niet tegen. Eerst even ter referentie, de specificaties van mijn computer:

CPU: Intel Core ultra 7 265K
GPU: NVIDIA RTX 4060 Ti – 16GB
RAM: 96GB DDR5 – 4800MT/s

En dan nu de settings waarmee ik doorgaans een afbeelding maak:

Model: Stable Diffusion 3.5 Large Turbo – ~16GB
Resolutie: 1248 x 1248
Steps: 14

Omdat ik ComfyUI vanaf een HDD draai is de laadsnelheid van het model niet fantastisch. Dit wordt ruimschoots gecompenseerd door de optimalisatie van ComfyUI. Omdat ik zo veel RAM heb wordt het model, wanneer de videokaart er niet actief mee bezig is, in mijn RAM geheugen geparkeerd. Zo wordt de laadsnelheid van enkele minuten, naar een fractie van een seconden teruggebracht.

Maar goed, zo belangrijk is dat nou ook weer niet. De harde cijfers. Hoe lang duurt dat nou, het genereren van een afbeelding? Een step duurt ~1.8 seconden. Met 14 steps duurt het genereren van een enkele afbeelding 28 seconden. Niet razendsnel, maar ook niet langzaam.

Dus wat zijn dan de voordelen? Je hebt een krachtige computer nodig en dan nog duurt het bijna een halve minuut om één afbeelding te genereren. Nou er zijn best wel wat voordelen.

Limieten: Lokaal is de enige limiet je rekenkracht. Je hebt geen x aantal token per dag of maand. Tijd (en dus indirect je hardware) is de enige limiterende factor, al zijn ook hier oplossingen voor!
Vrijheid: Super Mario met een geweer? Geen probleem! Veel lokale modellen kunnen content met copyright zonder enige probleem genereren. Ook is grafisch materiaal geen probleem.
Controle: Lokaal heb je veel meer controle. Niet alleen over het model, maar ook over de manier waarop je afbeelding gegenereerd wordt. Met wat kennis over ComfyUI kan je veel sneller en makkelijker goede afbeeldingen genereren.

Klinkt helemaal niet slecht. En omdat afbeeldingen aan de hand van een seed (een lang random getal) gegenereerd worden, kan je keer op keer de zelfde afbeelding genereren als je wil. Klinkt niet interessant, maar als je beseft dat het aantal steps de kwaliteit van je afbeelding bepaalt, en meer steps een langere generatie betekent, is dit ineens heel interessant. Door een lage step count (bijvoorbeeld 8 of 10) te gebruiken, genereer je sneller afbeeldingen. Door later, met de zelfde seed en prompt en overige settings, de afbeelding te genereren met meer steps (bijvoorbeeld 20), kan je veel sneller afbeeldingen genereren. Dit door een batch te genereren en alleen de goede met een hoge step count door te ontwikkelen.

Hoe makkelijk zijn die parameters aan te passen? Best makkelijk! Het kost een middagje om de basis goed te begrijpen, maar dan kan je ook echt een hoop. En eerlijk, zelfs met standaard instellingen kom je al een heel eind. Het belangrijkste is om te weten wat de step count en seed doen. Alles daar boven is alleen maar mooi meegenomen om nog sneller goede afbeeldingen te genereren. Ook zijn er een hoop flows die je zo van het internet kan plukken en mee aan de slag kan gaan. Zo kan je je echt richten om de afbeeldingen, en hoef je je niet zo heel erg te verdiepen in al het technische van text to image modellen en alle parameters die daar bij komen kijken.

Dan rust nu eigenlijk nog maar een vraag. Want op papier klinkt dit allemaal mooi, en redelijk makkelijk in gebruik. Maar kunnen de afbeeldingen opboksen tegen de kwaliteit van de grote jongens zoals Dall-E 3 en Firefly Image 3? Ik zou zeggen: kijk en oordeel zelf!

En nee, de afbeeldingen zijn zeker niet perfect. Dingen zoals handen en fotorealisme zijn nog moeilijk. Maar ik verwacht dat we daar de komende maanden snel verandering in gaan zijn. De ontwikkeling gaat absurd snel.

Foto’s gemaakt voor volleybalvereniging

Bij de vereniging is er al lange tijd vraag naar goede foto’s die gebruikt kunnen worden voor social media, de website en andere kanalen.

Als hobby fotograaf heb ik al lange tijd iets willen doen met sportfotografie. Ook was er bij de vereniging al ruime tijd vraag naar goede foto’s van wedstrijden die voor verschillende doeleinden gebruikt konden worden. Daarom heb ik op 2 november mijn camera meegenomen en ben ik foto’s gaan maken van de wedstrijden die er gespeel werden.

Al snel bleek dit een stuk moeilijker dan ik dacht. Zeker actie foto’s. Hoewel ik mijn camera goed ken, en veel ervaring heb met het fotograferen van vogels, is het fotograferen van sport in een zaal toch echt een hele andere tak van sport. Niet alleen is het licht heel hard, je moet de spelers ook heel anders uitlezen dan je normaal doet. Hierbij merkte ik dat ik al snel geneigd was om mijn camera te hoog te richten.

Een van de foto’s waar ik heel erg trots op ben is de onderstaande foto. Hier is te zien hoe een punt gevierd wordt door het dames team. Daarnaast geeft de volle tribune ook een goed beeld bij de vereniging.

Omdat er in totaal 26 bewerkte foto’s uit zijn gekomen, en ik het belangrijk vind dat de foto’s in zonder compressie gezien kunnen worden, zijn de foto’s hier te zien in plaats van op deze site zelf.

Copright op AI generated muziek

Hoe muziek gemaakt met AI een groot probleem kan worden

Zonder er naar op zoek te zijn, ben ik een video tegen gekomen op YouTube over hoe muziek gemaakt met AI voor onterechte copyright claims, of zelfs strikes kan zorgen. Het gaat om deze video van Venus Theory. Een Youtuber die ik, voor het kijken van deze video, nog niet kende.

Hoewel het probleem best complex is, legt hij het toch heel duidelijk uit. Content ID, een service van Google, heeft als doel om werk van muzikanten, fotografen, kunstenaars, en ga zo maar door, te beschermen. Dit doet het door te kijken naar overeenkomsten in het werk. Voor muziek wordt er gekeken naar de melodie, songtekst, structuur/opbouw in het nummer en andere karakteristieke eigenschappen die het nummer uniek maken. Denk bij dit laatste bijvoorbeeld aan een bepaald geluid. Zo heeft Genesis een duidelijk geluid, maar is er een duidelijk verschil te horen tussen de tijd wanneer Peter Gabriel de zanger was vergeleken met Phil Collins.

Op zich niks mis mee. Content ID is er om je werk te beschermen, en dat is goed. Maar er is nooit een duidelijke definitie gemaakt van wanneer een nummer uniek genoeg is om “een uniek nummer te zijn”. Met andere woorden, het is een groot grijs gebied. En precies dat gebied is waar AI tools zoals Suno momenteel opereren. Suno is een van de weinige AI tools die heeft aangegeven te zijn getraind op “surface web data”. Met andere woorden, elk nummer dat je zo op het internet kan vinden. En daar zit ook muziek bij met copyright er op. Dat die data er tussen zit kan voor grote problemen zorgen, want je kan, door de juiste prompt te gebruiken, een nummer maken in de stijl van een artiest, en eigenlijk de artiest te imiteren. Sterker nog, je kan bij sommige tools zelfs een audio sample meesturen om daar een nummer op te baseren.
Als je dat, door AI gegenereerd nummer vervolgens upload naar Content ID, en de artiest maakt later een nummer dat toevallig lijkt op jouw AI nummer… Wie is er dan eigenaar van het nummer? Kan je een copyright claim krijgen omdat jouw nummer te veel op een AI nummer lijkt dat is gemaakt op jouw muziek? Een interessante vraag waar eigenlijk nog geen concreet antwoord op is.

Hoewel ik voor AI ben, en het zeker ook bijna dagelijks gebruik, denk ik dat we toch even moeten nadenken over wat we wel en niet willen. Is het ethisch om met AI muziek van een artiest na te maken? Ik denk van niet. Maar artiesten maken nu al, ook onbedoeld, nummers van andere artiesten na. Er zijn maar een x aantal melodieën mogelijk wiskundig gezien. En er komt een moment dat je ze allemaal hebt gehad. AI kan dit proces versnellen, maar vroeg of laat loop je tegen dit probleem aan.
Mens of AI, het maakt op een gegeven moment niet meer uit. Ik zie de complexiteit er van in, en denk dat het bewust namaken van een artiest ethisch niet oké is, en ook zeker onder copyright valt. Maar dat het toevallig gebeurt… Dat kan, ook als het mensen waren geweest. Ik denk niet dat je daar een copyright claim voor moet krijgen. Maar dan rust de vraag: hoe bewijs je dat het toevallig is gebeurd? Dat is het moeilijke waar ik, en Content ID waarschijnlijk ook, geen antwoord op heb.

The Sims X BMW

Tijdens het project Future of Marketing heb ik een samenwerkingscampagne voor BMW en The Sims uitgewerkt.

Voor deze campagne is het idee dat spelers een bewuste voertuig keuze maken. In de huidige uitwerking zit er nog geen beloningssysteem aan vast, maar dingen zoals BMW accessoires, kleding of exclusieve skins vallen onder de mogelijkheden. In eerste instantie heb ik geprobeerd de afbeeldingen te genereren met Adobe Firefly.

Prompt: scene depicting a character standing on the driveway of a suburban home in front of a sleek, modern car. The character should look contemplative, clearly weighing the option to drive or walk. Include a visible, well-defined walking path leading away from the driveway, dominating the top half of the image. The scene should be bright and colorful, reflecting a playful and vibrant aesthetic.

Een beetje een gekke plek om je auto te parkeren, maar verder ziet de afbeelding er wel leuk uit. Het past ook redelijk goed binnen de stijl van The Sims. Het mag een tikkeltje minder gedetailleerd, maar dat was het wel.

Hier kwam het probleem naar voren. Alle afbeeldingen die ik met persoon er in wil genereren lijkt verliezen hun The Sims stijl. Dit komt vooral doordat de personen die in The Sims zitten heel typerend zijn voor het spel. Voor deze afbeeldingen is gebruik gemaakt van een stijlreferentie. Hiervoor is de volgende afbeelding gebruikt.

Omdat de resultaten niet tegenvielen was ik benieuwd wat er zou gebeuren als ik de stijlreferentie wegliet. Dit resultaat viel helaas tegen. De stijl was, zoals eigenlijk al wel was te verwachten, helemaal weg.

Adobe Firefly is zo gemaakt dat het geen afbeeldingen genereert van dingen met copyright er op. Met andere woorden, ik kan niet vragen om iets in een “The Sims” stijl te maken. Geheel tegen mijn verwachtingen in kan dit wel in ChatGPT. Dit betekent dus dat ChatGPT geen, of niet goed rekening houdt met copyright. Bij de eerste test kwam de volgende foto er uit. Zeker nog niet perfect, maar wel een goed begin.

Prompt: A three-part visual narrative in a Sims-like style. The first image shows a character standing on the driveway of a suburban home, in front of a BMW car, contemplating whether to drive or walk. The second image focuses on the character driving the BMW, with a busy road filled with smog and pollution, representing the negative impact of the choice. The third image shows the same character happily walking along a green path filled with trees, flowers, and a cleaner environment, emphasizing the positive effects of choosing to walk.

Als vervolg heb ik aan ChatGPT gevraagd om de eerste afbeelding boven de andere twee te plaatsen en in de volle breedte. Ook heb ik aangegeven dat ik in de tweede afbeelding de Sim zijn of haar huis wil zien verlaten en in de derde afbeelding een snelweg wil. Hier is het volgde uitgekomen.

Prompt: A three-part visual narrative in a Sims-like style. The first scene is full width, showing a character on the driveway of their suburban home, standing in front of a BMW car, deciding whether to drive or walk. The second scene shows the character walking away from the home, choosing not to take the car, in a suburban neighborhood with more greenery and a cleaner environment. The third scene shows a busy highway with heavy traffic and smog, emphasizing the negative effects of using a car instead of walking, making it look like a choice to avoid.

De tweede afbeelding is een stuk beter, vooral doordat het vervuilende van een auto hier geaccentueerd wordt. De eerst en tweede afbeelding daarentegen niet. In de eerste afbeelding is geen auto meer te zien, terwijl die wel weer te zien is in de tweede afbeelding waardoor het lijkt alsof er voor een auto is gekozen.

Daarom heb ik aan ChatGPT gevraagd om in de eerste afbeelding een auto terug te laten komen en duidelijker te maken dat het om een afweging gaat tussen lopen en de auto pakken. De tweede afbeelding een drukke snelweg te maken en de derde afbeelding een Sim die over straat loopt.

Prompt: A three-part visual narrative in a Sims-like style. The first full-width image on top shows a character standing on the driveway of a suburban home, in front of a BMW car, clearly contemplating whether to drive or walk. A visible sidewalk or path should be included as the alternative to driving. The second image shows a car driving on a busy highway with heavy traffic and smog, emphasizing the negative environmental impact. The third image shows the character happily walking on a clean, green suburban street, emphasizing the positive effects of choosing to walk instead of drive.

Het lijkt wel alsof de eerste en tweede afbeelding in elkaar over zijn gevloeid. Het is in ieder geval niet wat ik zoek, maar er zitten zeker wel goede dingen tussen. Daarom heb ik aan ChatGPT gevraagd om per afbeelding een losse prompt te maken en die te genereren. Hier zijn de volgende afbeeldingen uitgekomen.

Prompt: A full-width scene in a Sims-like art style. A character is standing on the driveway of a suburban home, in front of a shiny BMW car. The character looks contemplative, clearly deciding between driving or walking. A visible and well-defined walking path leads away from the driveway. The image is bright and colorful, with a whimsical and playful aesthetic, typical of The Sims game style.

Prompt: A busy highway scene in a Sims-like art style, filled with heavy traffic and noticeable smog. The scene shows the negative environmental impact of using a car. Cars are packed tightly on the highway, and the air is filled with pollution. The color palette remains bright and whimsical, with exaggerated cartoon elements, typical of The Sims style, but the highway and smog contrast with the playful atmosphere.

Prompt: A clean and green suburban street in a Sims-like art style. A character is happily walking along the street, surrounded by lush greenery, trees, and flowers. The scene is bright and colorful, with no cars in sight, emphasizing the positive effects of choosing to walk instead of drive. The whimsical and playful aesthetic is typical of The Sims game style, with vibrant colors and a cartoon-like feel.

Perfect zijn deze afbeeldingen zeker nog niet. Maar wel een stuk beter dan alles wat er hiervoor is gegenereerd. Een leermoment voor mijzelf dus om afbeeldingen (voorlopig) los te genereren. Zo is de kans op een goed eindresultaat een stuk groter. Voor het eindresultaat heb ik deze afbeeldingen boven elkaar geplakt om tot het volgende te komen:

Pieter heeft mij hier de feedback op gegeven om op te letten met welk spel je pakt. Als je een spel pakt dat helemaal niet “groen” is, bijvoorbeeld doordat er vervuilende serverparken gebruikt worden om het spel draaiende te houden, is dat greenwashing, en dat wil je niet hebben. Daarom heb ik gekeken naar wie het spel beheert. Dit is Electronic Arts. Na wat verder zoeken zag ik dat ze heel inclusief zijn, dat is positief, maar nog belangrijker is of ze ook goed zijn voor het klimaat. Anders sluit het nog niet aan. Op deze pagina is te lezen dat ze in 2027 “net zero” willen zijn. Met andere woorden, ze willen volledig klimaat neutraal worden. Dat is positief, want dat sluit goed aan bij de campagne!

BMW app

Voor de campagne voor BMW is er een winactie toegevoegd aan de BMW app om mensen aan te sporen om de fiets te pakken in plaats van de auto.

Elke kilometer die je aflegt op de fiets wordt geteld. Na 100 kilometer te hebben gefietst in een maand tijd doe je mee aan de loting van een BMW e-bike. Fiets je 200 km, dan doe je 2 keer mee, 400 km, dan 3 keer, enz. Het maakt dus niet uit op welke fiets je fietst, zolang je maar fietst. Naast de fiets die je kan winnen willen we ook een stukje bewustwording creëren. Dit doen we door te laten zien hoeveel CO2 je bespaart door de fiets te pakken in plaats van de auto. Hierbij wordt een gemiddelde uitstoot van 82,3 gram CO2 per kilometer gebruikt.

User Generated Content voor BMW

Een BMW auto in The Sims en fiets kunnen winnen in de app is leuk, maar het doel is natuurlijk om zo veel mogelijk mensen te bereiken. Een goede manier om dit te doen is door de mensen zelf content te laten maken. Daarom heb ik drie voorbeelden gemaakt om een beeld te creëren van hoe deze posts er uit zouden kunnen zien.

BMW Social media post

Voorbeeld post voor op de Instagram van BMW.

Het doel hiervan is om alle mensen, die al wat meer BMW georiënteerd zijn, te bereiken. Daarnaast wil je als merk natuurlijk het juiste voorbeeld geven, dit kan je niet alleen aan je klanten overlaten.

Blog post TSA-slot Payanta

Voor de site van Payanta heb ik een blog post geschreven over wat een TSA-slot is.

Deze heb ik geschreven aan de hand van een snelle keyword analyse over TSA-sloten. Hier is deze blog post uitgekomen.