Corpus de datos
El Corpus de datos es una colección categorizada con más de 10 años de información de prensa, TV, radio y medios digitales. Dirigido a empresas, investigadores y desarrolladores, facilita análisis avanzados, IA y procesamiento de lenguaje natural en el ámbito de noticias y medios.

¿Qué hacemos?
Investigación en desarrollo de modelos de IA para noticias
Acceso a investigadores y desarrolladores para construir y mejorar modelos de inteligencia artificial enfocados en la comprensión, clasificación y análisis de noticias.
Análisis de tendencias y opiniones en medios de comunicación
Datos estructurados para el análisis de tendencias, patrones de opinión y evaluación de la cobertura mediática en distintos periodos.
Colaboración en proyectos de investigación de medios
Enfocado a instituciones académicas y centros de investigación en proyectos relacionados con el análisis y evolución de la información en medios de comunicación.


Calidad del dato, metadatos y anotaciones
Nuestro corpus de datos ha sido debidamente clasificado y anotado por nuestros analistas especializados en diversos sectores: Política, Energía, Educación Finanzas, Deportes, Fashion, Retail, etc.
Además de los datos de la noticia como:
Titular, Nombre del Medio, Audiencia impactada
Región, Autor, etc
Contamos con anotaciones como: Sentimiento, Protagonismo, entidades, IPTC, closed caption, etc
Todas nuestras noticias cuentan con el archivo en:
- PDF para las noticias de prensa y revistas
- MP3 para los contenidos de audio
- MP4 para los contenidos de video
Características diferenciadoras
Exhaustividad histórica
Con más de 10 años de acumulación, el corpus ofrece una perspectiva histórica para análisis retrospectivos y estudios de evolución en la cobertura mediática.
Integridad y variedad de fuentes
La inclusión de datos de prensa, radio, televisión y online garantiza una visión completa y multifacética de la información, proporcionando un contexto amplio para el análisis.
Respeto por la propiedad intelectual
Comprometidos con CEDRO, los datos en el corpus son gestionados con los más altos estándares de respeto y protección de la propiedad intelectual.
¿Para qué sirve?
- Entrenamiento de modelos de IA, como clasificación temática, identificación de entidades y detección de sentimiento.
- Análisis de tendencias y opiniones en medios de comunicación.