{rfName}
Au

Indexado en

Licencia y uso

Citaciones

Altmetrics

Grant support

This work was funded by the Norwegian Research Council grant 329745 Machine Teaching for Explainable AI, CIPROM/2022/6 (FASSLOW) funded by Generalitat Valenciana, the EC H2020-EU grant agreement No. 952215 (TAILOR), and Spanish grant PID2021-122830OB-C42 (SFERA) funded by MCIN/AEI/10.13039/501100011033 and "ERDF A way of making Europe". Authors thank the Catedra de Inteligencia Artificial aplicada a la Administracion Pblica of Universitat Politecnica de Valencia (UPV).

Análisis de autorías institucional

Martínez Plumed, FernandoAutor (correspondencia)Ferri Ramírez, CésarAutor o Coautor

Compartir

11 de marzo de 2025
Publicaciones
>
Conferencia Publicada
No

Automatic PDF Document Classification with Machine Learning

Publicado en:Lecture Notes In Computer Science. 15346 447-459 - 2025-01-01 15346(), DOI: 10.1007/978-3-031-77731-8_40

Autores: Llacer Luna, Socrates; Garigliotti, Dario; Martinez Plumed, Fernando; Ferri Ramirez, Cesar

Afiliaciones

Univ Bergen, Bergen, Norway - Autor o Coautor
Univ Politecn Valencia, Valencia, Spain - Autor o Coautor

Resumen

Universitat Polit`ecnica de Val`encia (UPV) faces challenges in managing its Alfresco document repository, which contains 600,000 PDF files, of which only 100,000 are correctly categorised. Manual classification is laborious and error-prone, hindering information retrieval and advanced search capabilities. This project presents an automated pipeline that integrates optical character recognition (OCR) and machine learning to efficiently classify documents. Our approach distinguishes between scanned and digital documents, accurately extracts text and categorises it into 51 predefined categories using models such as BERT and RF. By improving document organisation and accessibility, this work optimises UPV's document management and paves the way for advanced search technologies and real-time classification systems.

Palabras clave

Alfresco repositorDocument classificationMachine learningOcr

Indicios de calidad

Impacto bibliométrico. Análisis de la aportación y canal de difusión

El trabajo ha sido publicado en la revista Lecture Notes In Computer Science debido a la progresión y el buen impacto que ha alcanzado en los últimos años, según la agencia WoS (JCR), se ha convertido en una referencia en su campo. En el año de publicación del trabajo, 2025, se encontraba en la posición 70/78, consiguiendo con ello situarse como revista Q1 (Primer Cuartil), en la categoría Computer Science, Artificial Intelligence.

Impacto y visibilidad social

Desde la dimensión de Influencia o adopción social, y tomando como base las métricas asociadas a las menciones e interacciones proporcionadas por agencias especializadas en el cálculo de las denominadas “Métricas Alternativas o Sociales”, podemos destacar a fecha 2025-10-11:

  • La utilización de esta aportación en marcadores, bifurcaciones de código, añadidos a listas de favoritos para una lectura recurrente, así como visualizaciones generales, indica que alguien está usando la publicación como base de su trabajo actual. Esto puede ser un indicador destacado de futuras citas más formales y académicas. Tal afirmación es avalada por el resultado del indicador “Capture” que arroja un total de: 4 (PlumX).

Análisis de liderazgo de los autores institucionales

Este trabajo se ha realizado con colaboración internacional, concretamente con investigadores de: Norway.

Existe un liderazgo significativo ya que algunos de los autores pertenecientes a la institución aparecen como primer o último firmante, se puede apreciar en el detalle: Primer Autor (Llacer Luna, Socrates) y Último Autor (Ferri Ramírez, César).

el autor responsable de establecer las labores de correspondencia ha sido MARTÍNEZ PLUMED, FERNANDO.