Een data warehouse, een data lake en een data lakehouse zijn drie verschillende benaderingen voor het opslaan, beheren en analyseren van grote hoeveelheden gegevens.
Een data warehouse is een centrale opslagplaats voor gestructureerde, geordende gegevens die afkomstig zijn uit verschillende operationele systemen van een organisatie. Deze gegevens worden vaak gebruikt voor rapportage en analyse. Om die reden worden de gegevens van tevoren gestructureerd. Data warehouses zijn doorgaans gebaseerd op relationele databases.
Een data lake is een opslagplaats voor ruwe, ongestructureerde en onbewerkte gegevens, zoals logbestanden, sensorgegevens, sociale media-inhoud en ongestructureerde tekstgegevens. Het idee achter een data lake is om alle gegevens op te slaan, ongeacht de structuur of het formaat, zodat het later kan worden verwerkt en geanalyseerd. Data lakes maken vaak gebruik van cloudopslag en big data-technologieën.
Een data lakehouse combineert de flexibiliteit van een data lake om ruwe, ongestructureerde gegevens op te slaan en de voorgedefinieerde structuur van een data warehouse. Het doel van een data lakehouse is om een enkele opslagplaats te bieden voor zowel gestructureerde als ongestructureerde gegevens, zodat organisaties flexibeler kunnen zijn in hoe ze hun gegevens opslaan en analyseren.