Lansering av den första modellen tillägnad rumänska språket för artificiell intelligens ChatGPT

16 Maj 2024, 13:17 • Alin Stefanesacu https://ilds.ro/llm-for-romanian 

Ett team av rumänska forskare har skapat en språkmodell (LLM) för rumänska språket, som kan användas för att utveckla verktyg och plattformar AI. Modellen är ”öppen källkod”, så att den kan nås och användas av alla som vill bygga verktyg baserade på artificiell intelligens. Med publiceringen av denna LLM lanserar initiativtagarna till projektet också OpenLLM-Ro-samhället, som vill samla alla som vill bidra i olika former till utvecklingen av AI-teknik för det rumänska språket. Båda projekten initieras och genomförs av POLITEHNICA Bukarest, Bukarests universitet och institutet för logik och datavetenskap, med stöd av BRD Groupe Société Générale.

Även om det är en teknik som vi har tillgång till i stor skala i bara några år, har många av oss redan interagerat mycket ofta med konversationsrobotar, som ChatGPT (producerad av OpenAI), Copilot (utvecklad av Microsoft), Gemini (utvecklad av Google) etc. Men för det rumänska språket är resultaten ibland oprecisa, eftersom de modeller som de är utbildade på inte har utsatts för många rumänska datakällor. Samtidigt kan dessa typer av verktyg inte användas i företag eftersom direkt åtkomst kan begränsas av säkerhets- och sekretessskäl. En lösning i dessa situationer är att införa en lokal modell i företagets infrastruktur. Dessa offentliga modeller som kan användas lokalt är dock i allmänhet utbildade på engelska eller använder ett litet antal dokument på språk med lägre cirkulation.

Den rumänska modellen som lanseras idag är anpassningen av en offentlig LLM utvecklad främst för engelska. Men det var utsatt för flera miljoner dokument på rumänska, för att bättre förstå innebörden av orden. Detta är nödvändigt för att sådana modeller ska fungera i situationer där användarens begäran eller fråga samt svaret måste uttryckas på rumänska. Sedan andra delen av 2023 har ett team av forskare från POLITEHNICA Bukarest, Bukarests universitet och institutet för logik och datavetenskap arbetat med utveckling och utbildning av denna LLM.  Akademiska partners bidrog med forskare som arbetade pro-bono och dessutom POLITEHNICA Bukarest gav också den datorkraft som behövs för att träna modellen. Projektets huvudpartner är BRD Groupe Société Générale, som stöder innovation och framtida teknik i Rumänien i alla dess former.

”För att den ekonomiska och/eller institutionella miljön i Rumänien ska kunna använda denna lovande nya teknik behöver vi specialiserade modeller som har mött många samtal och dokument på rumänska. Anledningen är enkel: för att kunna ge oss den information vi behöver. I BRD arbetar vi ständigt med lösningar som förbättrar våra arbetsprocesser, med hjälp av den senaste tekniken som kan ge mervärde till våra kunder i första hand. Men vi förstår också att våra behov delas med många andra institutionella aktörer, och vi är fast beslutna att stödja innovation inom artificiell intelligens tidigt. Genom att engagera sig i dess mycket animerade landskap kan vi hjälpa den senaste tekniken att ha en positiv inverkan i det rumänska samhället i nästan samma takt som utvecklingen på området på internationell nivå, säger Horia Velicu, chef för Innovation Lab på BRD Groupe Société Générale.

”Några exempel på användning av den rumänska modellen är följande: Söka efter information i en organisations kunskapsbas, med vägledningar och arbetsrutiner, eller konversationsrobotar för företags eller institutioners kunder för att vägleda dem genom de steg som krävs för att använda en produkt eller tjänst. I båda fallen sparar anställda och / eller kunder tid för att få tillgång till information, gynna i många situationer och förbättra kvaliteten, säger Alin Stefanescu, chef för datavetenskapsavdelningen vid universitetet i Bukarest och vice ordförande för institutet för logik och datavetenskap.

Insatserna för att specialisera en språkmodell samordnas ofta av den akademiska världen i samband med det språket, med aktuella exempel från länder som Frankrike, Tyskland, Spanien, Finland och Bulgarien. De nödvändiga resurserna är dock betydande både när det gäller den nödvändiga tekniska infrastrukturen (t.ex. särskild hårdvara som grafikkort med hög effekt) och erfarna forskare och programmerare. Det finns därför ett behov av brett stöd på medellång och lång sikt från många viktiga samhällsaktörer: ekonomiska, akademiska och sist men inte minst den statliga miljön, genom program som är avsedda för utveckling av artificiell intelligens teknik.

Därför lanserar utvecklarna av denna modell samtidigt OpenLLM.ro-communityn. Syftet är att uppmuntra samverkan mellan olika aktörer eller kontaktpersoner som vill bidra till utvecklingen av denna teknik för det rumänska språket och att lansera specialiserade modeller för vissa områden. Inledandet av denna dialog i en öppen källkodsmiljö kommer att påskynda skapandet av mer högpresterande modeller, som genomförs i rumänska företag eller institutioner, vilket kommer att leda till en ökning av den totala produktiviteten i hela samhället.

”Vi hoppas att lanseringen av denna modell bara kommer att vara början på en långsiktig insats som kommer att leda till bättre LLM för det rumänska språket. Vi har redan upptäckt en metod som vi vill tillämpa på andra nyligen lanserade modeller (Llama-3 och Mistral) och som i allmänhet presterar bättre än den vi startade från (Llama-2). Men för att ha bra modeller för det rumänska språket behöver vi två typer av resurser: samlingar av stora och kuraterade data, av god kvalitet, samt hårdvaruresurser (särskilt grafikprocessorer för modellutbildning). Vi hoppas att både privata och offentliga enheter kommer att förstå vikten av att utveckla stora och multimodala språkmodeller (textbilder) för det rumänska språket. Vi förväntar oss att alla ansluter sig till OpenLLM-Ro-initiativet och de forskningsprojekt som kommer att stödja det”, säger Traian Rebedea, föreläsare vid POLITEHNICA Bukarest och seniorforskare vid NVIDIA, en av de tekniska samordnarna för OpenLLM-Ro-initiativet.

Den tekniska rapporten finns här: https://arxiv.org/abs/2405.07703

LLM-modellen kan laddas ner från Hugging Face-plattformen: https://huggingface.co/OpenLLM-Ro

Koden som är associerad med modellen kan laddas ner från GitHub: https://github.com/OpenLLM-Ro

Mer information om projektet: https://ilds.ro/llm-for-romanian

BRD för utbildning, teknik & innovation

BRD stöder förberedelsen av framtida generationer av teknikspecialister och entreprenörer. De projekt som BRD planerar går till utbildning inom naturvetenskap, teknik, ingenjörsvetenskap och matematik: First Tech Challenge Romania, robotiklaboratorier vid POLITEHNICA University of Bucharest, Innovation Labs-programmet, partnerskap med Applied Data Science Centre vid University of Bucharest, Innovators for Children-programmet eller How to Web Conference. Allt detta sammanför elever, studenter, lärare, unga företagare, experter och har hittills påverkat mer än 50 000 stödmottagare.

INFORMATION
Geografiskt område Rumänien
Ämne Artificiell intelligens
Svårighetsgrad Medelsvår, Avancerad
Typ av initiativ EU:s institutionella initiativ