Acerca de
Qué es el Observatorio Lázaro, cómo funciona y quién está detrás.
¿Qué es Observatorio Lázaro?
Observatorio Lázaro es un proyecto que analiza y extrae automáticamente los anglicismos aparecidos en las noticias del día de una veintena de medios españoles de prensa escrita, entre ellos elDiario.es, El País, El Mundo, ABC, La Vanguardia, El Confidencial, 20minutos, Agencia EFE, La Marea, El Economista, Marca, Fotogramas, Rolling Stone, Elle o El Mundo Today.
Cada día, Lázaro lee la prensa, detecta los préstamos no adaptados (fundamentalmente anglicismos), los registra en una base de datos y publica los datos en esta web, donde se pueden buscar, comparar y descargar libremente.
¿Cómo funciona Lázaro?
El núcleo del proyecto es un modelo de aprendizaje automático que detecta posibles extranjerismos (fundamentalmente anglicismos) en la prensa en español. Si bien el modelo ha sido entrenado para extraer anglicismos, también extrae ocasionalmente préstamos de otras lenguas.
El modelo de extracción de anglicismos de Lázaro es un BiLSTM-CRF que utiliza embeddings entrenados sobre texto bilingüe ES-EN, así como embeddings subpalabra (embeddings BPE y embeddings de caracteres). La información técnica sobre el modelo está disponible en este artículo científico. Una versión anterior del observatorio (operativa desde abril de 2020 hasta agosto de 2022) funcionaba con un modelo CRF; los detalles sobre aquel modelo se pueden leer en este documento.
El código del observatorio y el corpus de entrenamiento están disponibles en GitHub. El modelo ya entrenado y listo para reutilizar está disponible a través de HuggingFace y de la librería de Python pylazaro.
Dado que la extracción es totalmente automática, los datos pueden contener errores: palabras mal etiquetadas como anglicismos o anglicismos que pasan inadvertidos.
En esta charla del congreso Trabalengua de 2021 se explican los entresijos del proyecto:
Cómo citar
Si el Observatorio Lázaro o sus datos se utilizan en una investigación, se pueden citar así:
@misc{observatoriolazaro,
author = {{\'A}lvarez Mellado, Elena},
title = {Observatorio L{\'a}zaro: observatorio del anglicismo
en la prensa espa{\~n}ola},
year = {2020},
url = {https://observatoriolazaro.es},
note = {Accedido: 2026-06-23}
}
Para citar el modelo de detección, la referencia es el artículo de ACL 2022:
@inproceedings{alvarez-mellado-lignos-2022-detecting,
title = {Detecting Unassimilated Borrowings in {S}panish:
{A}n Annotated Corpus and Approaches to Modeling},
author = {{\'A}lvarez Mellado, Elena and Lignos, Constantine},
booktitle = {Proceedings of the 60th Annual Meeting of the
Association for Computational Linguistics
(Volume 1: Long Papers)},
year = {2022},
publisher = {Association for Computational Linguistics},
pages = {3868--3888},
doi = {10.18653/v1/2022.acl-long.268}
}
Publicaciones
- Álvarez Mellado, E. Lexical borrowing detection as a sequence labeling task: Data, modeling and evaluation methods for anglicism retrieval in Spanish, PhD dissertation, UNED, 2025.
- Álvarez Mellado, E., Lignos, C. Detecting Unassimilated Borrowings in Spanish: An Annotated Corpus and Approaches to Modeling, Proceedings of the 60th Annual Meeting of the ACL, 2022.
- Álvarez Mellado, E. Extracting English Lexical Borrowings from Spanish Newswire, Proceedings of the Society for Computation in Linguistics: Vol. 4, Art. 41, 2021.
- Álvarez Mellado, E. An Annotated Corpus of Emerging Anglicisms in Spanish Newspaper Headlines, 4th Workshop on Computational Approaches to Code Switching, 2020.
- Álvarez Mellado, E. Lázaro: An Extractor of Emergent Anglicisms in Spanish Newswire, MS thesis, Brandeis University, 2020.
Bot: @lazarobot
Los anglicismos nuevos que Lázaro encuentra (aquellos que el modelo no ha visto previamente) se publican a diario en Twitter y en BlueSky, junto al contexto de aparición y el enlace a la noticia.
¿Qué no es Lázaro?
El propósito del proyecto es observar, describir y analizar el uso de anglicismos en la prensa española. En ningún caso el objetivo es afear, señalar o criticar el uso de anglicismos, ni a quienes los usan. Tampoco es propósito de este proyecto proponer traducciones alternativas.
La motivación tras Observatorio Lázaro no es defender una supuesta pureza lingüística del español, sino estudiar el fenómeno del préstamo léxico en la prensa de forma empírica y desde una perspectiva basada en datos.
¿Por qué Lázaro?
El nombre del proyecto es un homenaje al filólogo español Lázaro Carreter, cuyas columnas sobre prescripción lingüística en los medios de comunicación (y muy especialmente sobre el uso de anglicismos) fueron muy populares en España en los años 1980 y 1990.
Reconocimientos
- Premio Adam Kilgarriff, concedido bienalmente a un lingüista de menos de 40 años por proyectos de lingüística de corpus, lingüística computacional y lexicografía.
- Premio Archiletras de investigación, otorgado por la revista Archiletras.
- Generation Google Scholarship, otorgado por Google.
- Premio HDH 2021 a la mejor herramienta o recurso, de la asociación de Humanidades Digitales Hispánicas.
- Outstanding Corpus Thesis Award 2021 (MS level), del Institute for Corpus Research de la Universidad Nacional de Incheon (Corea del Sur).
- Karen Spärck Jones 2020 Award for Outstanding Achievement in Natural Language Processing, de la Universidad de Brandeis (Massachusetts).
En los medios
- Entrevista en Un idioma sin fronteras, RNE.
- Radiografía del anglicismo en la prensa española, en Archiletras.
- Entrevista en La Tarde, COPE.
- 20 anglicismos nuevos cada día, reseña de Álex Grijelmo en El País.
- Julia en la Onda, Onda Cero [minuto 1:10:00].
- Con la lengua fuera, podcast de Macarena Gil y Nerea Fernández de Gobeo.
- En la punta de la lengua, Cadena SER Burgos.
Investigaciones que utilizan Observatorio Lázaro
- Luján-García, C. & Núñez Nogueroles, E. E. (2024), An Analysis of specialized sports-related Anglicisms: Their use in the European Spanish press nowadays, Revista de Estudos da Linguagem 31 (3), 1071–1115.
- Luján-García, C. & Núñez Nogueroles, E. E. (2024), The use of nicknames to refer to Premier League English Football Teams in Spanish digital press, Lengua y Sociedad 23 (2), 535–556.
- Luján-García, C. & Núñez Nogueroles, E. E. (2024), On Political dream teams and Financial killers: Sports Anglicisms and Metaphorical Uses in Spanish Digital Press, International Journal of English Studies 24 (1), 77–97.
- De Hoyos, J. C. (2023), Anglicismos en la lengua de la economía: entre el préstamo crudo y la adaptación léxica, CLINA 9 (1), 113–134.
- Luján-García, C. (2023), Adults only or pets welcome: Use of Anglicisms in the tourist domain in Spanish digital press, Lengua y Habla 27, 267–284.
- Luján-García, C. (2023), 'Drink for thought': Anglicismos en el campo de la bebida en la prensa digital española, Borealis 12 (2), 343–360.
- Luján-García, C. (2023), Anglicisms in Spanish gastronomy: new words for new eating habits, Sintagma 35, 51–69.
- Lillo, A. (2022), Anglicismos coloquiales en la toponimia española: Colloquial Anglicisms in Spanish toponymy, Lebende Sprachen 67 (1), 133–167.
- Núñez Nogueroles, E. E. & Luján-García, C. (2022), Percepciones y uso autodeclarado de anglicismos del campo de las TIC por parte de estudiantes universitarios españoles, Miscelánea 66, 41–67.
Créditos
Observatorio Lázaro es un proyecto de Elena Álvarez Mellado. El germen del proyecto fue concebido en el BLT Lab (Broadening Linguistic Technologies) de la Universidad de Brandeis (Massachusetts) bajo la supervisión de Constantine Lignos, y se desarrolló como proyecto de doctorado en el grupo de investigación de Procesamiento de Lenguaje Natural y Recuperación de Información de la UNED bajo la supervisión de Julio Gonzalo y Constantine Lignos.