Database migratie met behulp van Apache Spark

stemmen
0

Ik moet migratie uit te voeren van de ene abstract database naar de andere (laten we bijvoorbeeld zeggen van Oracle naar Cassandra) en we willen Apache Spark Streaming gebruiken voor. Het is geen eenvoudige toewijzing typen db ene naar de andere maar ook complexe transformaties en validatie. Een typisch geval is voordat validatie / omzetting bepaalde toestand van onze gegevens RDD tot het zoeken naar een aantal relaties van deze waarde met waarden in het geheel (misschien ook anders) dataset (bijvoorbeeld gevallen waarin onze waarde uit RDD wordt gebruikt op een andere tafel en we willen om dit te controleren en uit te voeren een aantal acties voor elke gebeurtenis voorval).

Dus hebben we de mogelijkheid van het gebruik van Apache Ignite met zijn gedeelde RDD om dit probleem op te lossen. En als we dergelijke gegevens die de externe controle nodig van zijn correlatie met de andere gegevens van de gehele migratie scope dan zullen we gewoon naar te ontsteken (die zal worden gebruikt als een temprorary opslag voor dergelijke gevallen) zullen ontvangen, controleren correlaties en het uitvoeren van alle de benodigde acties met onze waarde.

Dus heeft smb hebben een dergelijke ervaring en wat typische problemen zullen we misschien ontmoeten. Is het een goede gewoonte om een ​​dergelijke architectuur te gebruiken of kunnen dit kan efficiënter worden gedaan en met een beter ontwerp in Spark?

De vraag is gesteld op 18/12/2017 om 09:42
user
In andere talen...                            

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more