a cura di Marco Cristofanilli
Technical Report di Marco Cristofanilli (SEEWEB) con Francesco Massa, uno studente di ingegneria che ha fatto uno stage in SEEWEB la scorsa estate ed è ora autore del suo primo articolo scientifico.
"Definire la difficoltà di una query è uno dei problemi più complessi nell’ingegneria del deployment. Gli attuali router per LLM si basano su caratteristiche superficiali come etichette di dominio, parole chiave e numero di token, ignorando la variabilità all’interno dello stesso dominio che determina realmente il successo del modello. I modelli di frontiera costano da dieci a cento volte di più rispetto ai modelli locali a pesi aperti; pertanto, su scala produttiva, anche piccoli risparmi per singola richiesta si traducono direttamente in una riduzione significativa dei costi del cloud. Presentiamo Brick, un router multimodale che valuta ogni modello su sei dimensioni di capacità, combina queste valutazioni con una stima della difficoltà di ciascuna query e instrada le richieste tramite una regola geometrica che penalizza i costi. ....