Efficiënte extractie van regulatorische motieven in DNA-sequenties
Motieven vinden in een string of een verzameling verwante strings is een zeer belangrijk probleem in de bio-informatica en andere gerelateerde velden. Als het zoeken naar motieven gebeurt in DNA- of eiwitsequenties, dan wordt naar deze techniek verwezen als “motif finding”. De motieven corresponderen dan met functionele elementen in de biologische sequenties, met eventuele bijkomende beperkingen zoals positionering, multipliciteit en spatiëring tussen de motieven.
Het doel van deze masterproef was de efficiënte extractie van zulke motieven of combinaties ervan in verwante DNA-sequenties. De oplossing van dit probleem werd opgebouwd op een bestaande implementatie van het MotifSifter- en het MotifGenerator-algoritme. De performantie hiervan werd verbeterd door het programma parallel uit te voeren, gebruikmakend van de Message Passing Interface (MPI). Eens de parallelle implementatie voltooid was, werd het programma grondig getest. Zo werd de versnelling gemeten en werd nagegaan of zelf gedefinieerde motieven teruggevonden werden in artificiële sequenties.