Senior Data Engineer

San Donato Milanese, Milano
Tempo indeterminato
Full time

1 mese fa

Cerved è la tech company italiana che, grazie a segnali predittivi unici e a un patrimonio esclusivo di dati e analytics, supporta la crescita sostenibile, la gestione del rischio e la trasformazione digitale di imprese e istituzioni.Con Cerved Rating Agency, elaboriamo valutazioni sul merito di credito, rating ESG e analisi sulle emissioni di debito.Dal 2021 Cerved è parte di ION Group, uno dei più grandi operatori FinTech internazionali.In un contesto in costante evoluzione normativa e tecnologica, stiamo cercando un/a Data Engineer da inserire nell’area Data Management.Il/la candidato/a sarà parte attiva nella progettazione, sviluppo e ottimizzazione di pipeline dati robuste e scalabili, a supporto dei processi di business e delle iniziative di Analytics, AI e Machine Learning.Le principali responsabilità:Sviluppare, testare e mantenere pipeline di ingestione, trasformazione e distribuzione dei dati (ETL/ELT) utilizzando Python, Java, Apache Spark e Databricks;Implementare e ottimizzare Job Spark (batch e streaming) su Databricks, garantendo performance, affidabilità e copertura dei testIntegrare sorgenti dati eterogenee (database relazionali, API REST, file system, code di messaggistica) sfruttando i servizi AWS: S3, Glue, Kinesis, SQS, Lambda, Redshift;Scrivere codice di qualità production-grade in Python e/o Java, applicando principi SOLID, design pattern, code review e test automatizzati (unit, integration);Costruire e gestire workflow di orchestrazione con Apache Airflow o Databricks Workflows, assicurando monitoraggio, alerting e gestione degli errori;Applicare tecniche di data modeling e trasformazione con Databricks (Delta Live Tables, Databricks SQL, Auto Loader), garantendo la tracciabilità e la qualità dei dati lungo tutto il flusso (data lineage, data quality checks);Collaborare con i team di Data Architect, Data Science e BI;Contribuire all’adozione di best practice DevOps/DataOps: versionamento del codice (Git), CI/CD per pipeline dati, Infrastructure as Code (Terraform) e ambienti containerizzati (Docker, Kubernetes);Preparare e ottimizzare i dati a supporto di modelli ML e soluzioni AI: feature engineering, costruzione di Feature Store, pipeline di embedding e RAG per applicazioni di Generative AI.I requisiti:Esperienza di almeno 3 anni nello sviluppo di pipeline dati e soluzioni di data engineering in contesti produttivi;Laurea in Informatica, Ingegneria Informatica, Matematica o discipline affini; certificazioni AWS (Cloud Practitioner, Developer, Data Analytics) o Databricks sono apprezzate;Solide competenze di programmazione in Python (pandas, PySpark, asyncio, FastAPI) e/o Java (Spring Boot, Maven/Gradle); capacità di scrivere codice pulito, testabile e documentato;Esperienza con Apache Spark (RDD, DataFrame API, Spark SQL, Structured Streaming) e con la piattaforma Databricks (notebooks, jobs, Delta Live Tables);Conoscenza pratica dei servizi AWS per i dati: S3, Glue, Athena, Redshift, EMR, Kinesis Data Streams/Firehose, Lambda, Step Functions, IAM;Esperienza con le funzionalità avanzate di Databricks per la trasformazione e qualità del dato (Delta Live Tables, Databricks SQL, Auto Loader, Delta Lake) e con formati di storage columnar (Parquet, Delta, Iceberg);Familiarità con sistemi di orchestrazione (Apache Airflow, Databricks Workflows) e messaggistica event-driven (Apache Kafka, Amazon Kinesis, SQS);Buona padronanza di SQL avanzato (window functions, CTE, ottimizzazione delle query) su database relazionali e analitici (PostgreSQL, Redshift, Athena);Esperienza con pratiche DevOps/DataOps: Git, CI/CD (GitHub Actions, GitLab CI, Jenkins), Docker, Kubernetes; conoscenza di base di Terraform o CloudFormation è un plus;Conoscenza di base di tecniche ML/AI applicate ai dati: feature engineering, pipeline di preprocessing per modelli, Vector Store e architetture RAG per Generative AI costituisce un vantaggio;Propensione al lavoro in team Agile, attitudine alla collaborazione cross-funzionale, curiosità tecnologica e orientamento alla qualità del codice e alla continuous improvement.💻 Modalità di lavoro: ibrida, con ampia possibilità di smart working.📍 Sede di lavoro: Milano, Padova, Roma o Mangone (CS).#LI-HybridCerved Group garantisce (ai sensi del D.Lgs 198/2006, D.Lgs.215/2003 e D.Lgs.216/2003) pari opportunità di accesso al lavoro a tutt* i/le candidat* e si impegna a favorire il rispetto delle diversità e l’inclusione sul posto di lavoro.

Cerved

Candidati