Sigrún Stefánsdóttir og ég ræðum hvernig gervigreind vinnur með mér við gerð hlaðvarpsins — frá upptöku til birtingar. Grunnurinn er alltaf samtalið.

Ég fæ stundum spurninguna: „Notarðu gervigreind í hlaðvarpinu þínu?" Svarið er já — en líklega ekki á þann hátt sem fólk ímyndar sér.
Gervigreindin tekur ekki viðtölin. Hún skrifar ekki spurningarnar. Hún situr ekki gagnvart gestinum og hlustar. En eftir að slökkt er á hljóðnemanum — þá fer hún að vinna.
Ég hef verið að þróa verklag þar sem gervigreind er notuð markvisst í efnisvinnslu úr Temjum tæknina, og mér finnst rétt að sýna það á gagnsæjan hátt. Bæði vegna þess að ég tel gagnsæi mikilvægt þegar kemur að notkun þessarar tækni, og vegna þess að ég held að ferlið sjálft sé áhugavert — það sýnir bæði hvað gervigreindin getur gert og hvar takmörkin liggja.
Áður en nokkuð gerist í tölvunni þarf eitthvað að gerast á milli fólks. Samtalið er frumefnið. Röddin, samhengið, hliðarsetningarnar sem snúa öllu við — þetta verður ekki til í reikniriti. Gervigreindin vinnur úr samtalinu, hún kemur aldrei í staðinn fyrir það.
Þátturinn er tekinn upp í háum hljóðgæðum. Þetta er grunnurinn sem allt annað hvílir á — og ef hann er ekki góður þá geta öll snjöll tól heimsins ekki bjargað efninu.
Upptakan fer í gegnum tal-í-texta kerfi. Fyrir íslensku nota ég sérhæfð líkön sem hafa verið þjálfuð á íslensku talgagnasafni og Google Cloud Speech-to-Text. Auk þess hef ég þróað eigið opið verkfæri, [whisperSSTis](https://github.com/Magnussmari/whisperSSTis), sem keyrir Whisper-líkan staðbundið og er sérþjálfað fyrir íslensku. Verkefnið er opinn hugbúnaður og öllum frjálst að nota og þróa áfram. Útkoman er vinnuskjal — ekki fullkominn texti, en nógu góður grunnur til að vinna áfram úr. Ég fer yfir hann og lagfæri augljósar villur, nöfn og lykilhugtök áður en ég held áfram.
Hér gerist það áhugaverða. Umritunin er sett inn í sérhannaðar leiðbeiningar — svokallað system prompt — og gervigreind skilar til baka tvenns konar úrvinnslu:
Hlaðvarpsgreining: Mat á gæðum þáttarins, helstu umræðuefni, lykilsetningar úr samtalinu, ábendingar til mín sem þáttastjórnanda, samantekt sem hentar á hlaðvarpsveitur eins og Spotify og Apple Podcasts, og fyrstu drög að bloggfærslu.
Skapandi úrvinnsla: Sjónræn lýsing sem hægt er að nota sem grunn fyrir forsíðumynd, tónlistartillögur tengdar þema þáttarins, og prompt-textar fyrir myndsköpunarvélar og tónlistargervigreind.
Þetta er eins og að fá mjög skipulagðan og dugmikinn aðstoðarmann sem les allt efnið, skipuleggur það vel og leggur til hugmyndir. En — og þetta er lykilatriðið — dýptina vantar enn.
Ég fer yfir allt sem gervigreindin skilar. Staðfesti tilvitnanir. Laga tón og stíl. Bæti við samhengi sem aðeins sá sem sat í samtali getur gefið. Gervigreindin leggur til — ég ákveð.
Út frá greiningunni og skapandi úrvinnslunni er unnið að kynningarefni: forsíðumynd, audiogram-klippur fyrir samfélagsmiðla, og tónlistarinnblástur sem gefur hverjum þætti sinn eigin blæ.
Áður en nokkuð er birt fer ég yfir allt heildstætt. Er bloggfærslan í réttum tón? Eru tilvitnanir réttar? Endurspeglar kynningarefnið raunverulega það sem gerðist í samtalinu? Þetta er mannlega gáttinn — og hún er óaðskiljanleg.
Hljóðskrá fer á hlaðvarpsveitur, bloggfærsla á smarason.is, kynningarefni á samfélagsmiðla.
Markmiðið er einfalt: hraða ferlinu og bæta gæði án þess að fórna mannlegu mati.
Áður en ég tók þetta verklag í notkun fór meirihluti tímans í það sem gervigreindin sinnir nú á sekúndubrotum — umritun, uppbygging, fyrstu drög. Nú get ég eytt þeim tíma í það sem raunverulega skiptir máli: yfirferð, ígrundum, og að hugsa um hvað samtalið þýðir.
Ég er ekki að halda því fram að þetta sé fullkomið. Ferlið þróast með hverjum þætti. En ég held að gagnsæi um hvernig gervigreind er notuð — hvað hún gerir vel og hvar mannshöndin þarf að koma inn — skipti máli. Sérstaklega þegar við erum á tímum þar sem línurnar milli þess sem manneskjan skapar og vélin framleiðir verða óskýrari með hverjum mánuði.
Gervigreindin er vinnuaflið. Ég er ritstjórinn. Og samtalið — það er alltaf grunnurinn.

Eyjólfur Guðmundsson — fyrrverandi rektor, hagfræðingur úr leikjaheiminum — settist niður með mér og við enduðum á sömu niðurstöðu: þetta snýst ekki um tæknina, heldur hvað við setjum í hana og hvernig við stýrum henni.

Samtal við Pietro Segreto, doktorsnema við Tor Vergata í Róm, um útgáfu, þekkingu og gervigreind. Útgefendur sem hliðverðir þekkingar; LLM sem skuggi; glerkassinn frá 1423 — og fatan sem hver kynslóð fyllir. (Samtalið fer fram á ensku.)

Guðmundur Smári Gunnarsson og ég byrjum í golfinu en endum í stóru samtali um líkama, takt, taugakerfi og gervigreind sem æfingafélaga. Færni verður til í líkamanum.