{rfName}
Au

Indexat a

Llicència i ús

Citacions

Altmetrics

Grant support

This work was funded by the Norwegian Research Council grant 329745 Machine Teaching for Explainable AI, CIPROM/2022/6 (FASSLOW) funded by Generalitat Valenciana, the EC H2020-EU grant agreement No. 952215 (TAILOR), and Spanish grant PID2021-122830OB-C42 (SFERA) funded by MCIN/AEI/10.13039/501100011033 and "ERDF A way of making Europe". Authors thank the Catedra de Inteligencia Artificial aplicada a la Administracion Pblica of Universitat Politecnica de Valencia (UPV).

Anàlisi d'autories institucional

Martínez Plumed, FernandoAutor (correspondència)Ferri Ramírez, CésarAutor o coautor

Compartir

11 demarç de 2025
Publicacions
>
Conferència publicada
No

Automatic PDF Document Classification with Machine Learning

Publicat a:Lecture Notes In Computer Science. 15346 447-459 - 2025-01-01 15346(), DOI: 10.1007/978-3-031-77731-8_40

Autors: Llacer Luna, Socrates; Garigliotti, Dario; Martinez Plumed, Fernando; Ferri Ramirez, Cesar

Afiliacions

Univ Bergen, Bergen, Norway - Autor o coautor
Univ Politecn Valencia, Valencia, Spain - Autor o coautor

Resum

Universitat Polit`ecnica de Val`encia (UPV) faces challenges in managing its Alfresco document repository, which contains 600,000 PDF files, of which only 100,000 are correctly categorised. Manual classification is laborious and error-prone, hindering information retrieval and advanced search capabilities. This project presents an automated pipeline that integrates optical character recognition (OCR) and machine learning to efficiently classify documents. Our approach distinguishes between scanned and digital documents, accurately extracts text and categorises it into 51 predefined categories using models such as BERT and RF. By improving document organisation and accessibility, this work optimises UPV's document management and paves the way for advanced search technologies and real-time classification systems.

Paraules clau

Alfresco repositorDocument classificationMachine learningOcr

Indicis de qualitat

Impacte bibliomètric. Anàlisi de la contribució i canal de difusió

El treball ha estat publicat a la revista Lecture Notes In Computer Science a causa de la seva progressió i el bon impacte que ha aconseguit en els últims anys, segons l'agència WoS (JCR), s'ha convertit en una referència en el seu camp. A l'any de publicació del treball, 2025, es trobava a la posició 70/78, aconseguint així situar-se com a revista Q1 (Primer Cuartil), en la categoria Computer Science, Artificial Intelligence.

Impacte i visibilitat social

Des de la dimensió d'influència o adopció social, i prenent com a base les mètriques associades a les mencions i interaccions proporcionades per agències especialitzades en el càlcul de les denominades "Mètriques Alternatives o Socials", podem destacar a data 2025-10-12:

  • L'ús d'aquesta aportació en marcadors, bifurcacions de codi, afegits a llistes de favorits per a una lectura recurrent, així com visualitzacions generals, indica que algú està fent servir la publicació com a base del seu treball actual. Això pot ser un indicador destacat de futures cites més formals i acadèmiques. Aquesta afirmació està avalada pel resultat de l'indicador "Capture", que aporta un total de: 4 (PlumX).

Anàlisi del lideratge dels autors institucionals

Aquest treball s'ha realitzat amb col·laboració internacional, concretament amb investigadors de: Norway.

Hi ha un lideratge significatiu, ja que alguns dels autors pertanyents a la institució apareixen com a primer o últim signant, es pot apreciar en el detall: Primer Autor (Llacer Luna, Socrates) i Últim Autor (Ferri Ramírez, César).

l'autor responsable d'establir les tasques de correspondència ha estat MARTÍNEZ PLUMED, FERNANDO.