Dómagreining: Tilraunarverkefni til að varðveita samhengi í samtali við spunagreind (LLM)

September 28, 2024

Þróun

Open source

Ég hef verið að þróa og prófa Streamlit app sem greinir dóma með hjálp GPT-4o. Þó að greining dóma sé vissulega gagnleg er það sem gerir þetta app sérstakt er nálgunin á undirliggjandi kóðanum sem ég notaði við að hanna það. Förum aðeins yfir þetta.

 

Áskorunin: Að varðveita mikilvægt samhengi

 

Ein helsta áskorun í samtölum við spunagreind er að þau „gleyma“ mikilvægum upplýsingum eftir því sem samtalið lengist. Þetta getur leitt til ónákvæmra svara eða ofskynjana, sérstaklega þegar unnið er með flókin gögn eins og lagalegan texta, vísindagreinar eða í raun hvað sem er sem maður vill halda athygli tauganetsins á.

 

Lausnin: „Mini-RAG“ eða „Context RAG“ kerfi

 

Til að takast á við þessa áskorun notar appið mitt nálgun sem ég kalla „mini-RAG“ eða „Context RAG“. RAG stendur fyrir Retrieval Augmented Generation, sem er tækni til að bæta frammistöðu spunagreindarmódela með því að gefa þeim aðgang að viðeigandi upplýsingum.

 

Virkni:

 

Varðveisla upprunalegs samhengis: Appið vistar bæði upprunalega dómstextann og upphaflegu greininguna í samhengisglugganum

Ríkt samhengi í hverri fyrirspurn: Í hvert skipti sem notandi spyr nýrrar spurningar er módelið með aðgang að bæði upprunalega textanum og upphaflegu greiningunni, ásamt nýju spurningunni.

Engin frekari söfnun á spurningasögu: Til að koma í veg fyrir rugling yfir tíma, geymir appið ekki fyrri spurningar og svör.

 

Af hverju þetta skiptir máli

 

Þessi nálgun hefur nokkra kosti:

 

Nákvæmni og dýpt: Með aðgangi að bæði hrágögnum og upphaflegu greiningunni getur kerfið veitt nákvæm og ítarleg svör.

Sveigjanleiki: Kerfið getur svarað bæði almennum spurningum (byggt á greiningunni) og sértækum spurningum (með því að vísa beint í upprunalega textann).

Sjálfvirk samantektargerð: Upphaflega greiningin þjónar í raun hlutverki samantektar, sem eykur skilvirkni kerfisins.

 

Framtíðarsýn

 

Þó að þetta app sé hannað til að greina dóma er tæknin að baki því fjölhæf og gæti nýst í ýmsum öðrum verkefnum þar sem þörf er á að varðveita flókið samhengi. Ég sé fyrir mér fjölbreytta möguleika á að þróa þetta áfram, t.d. með því að gera tilraunir með fleiri módel með misjafnlega stóra samhengisglugga (context windows) og gefa notendum meiri stjórn á því hvernig kerfið notar upplýsingarnar.

 

Ég hef verið að gera tilraunir með RAG-kerfi, þau eru ansi flókin og krefjast forritunar, custom gpt´s, projects í Claude og Gems í Gemini geta sannarlega þjónað sambærilegum tilgangi þótt mér þetta app bjóða upp á möguleika á nákvæmni og sérhæfðum stillingum sem erfitt er að ná fram þar.

 

Þetta verkefni sýnir fram á mikilvægi þess að hugsa út fyrir boxið þegar kemur að því að nota spunagreindarmódel á skilvirkan hátt. Með því að skilja takmarkanir núverandi tækni og finna leiðir í kringum þær, getum við þróað öflugra og áreiðanlegra verklag í notkun spunagreindar.

 

 

 

Hlekkur á Youtube myndband sem útskýrir context window ansi vel: https://www.youtube.com/watch?v=y5wBbDSe0cM&t=312s

 

Hlekkur á Github repo: https://github.com/Magnussmari/Domagreining

Hlekkur á Stremlit appið: https://domagreining.streamlit.app/

 

Kv.

M

 

PS: Mér hefur enn ekki tekist að gera hlekkina bláa....

← Til baka