Hoi,
Ik heb dit alles nog in de shell van sqlite3 gedaan, dus nog niet vanuit een programma.
Met langzaam bedoel ik echt langzaam. Ik had de query gestart in de sqlite3 shell afgelopen dinsdag middag en vanochtend was hij nog bezig en was misschien op een kwart. Dit op een xeon machine met 12 Gb ram
Ik heb al verschillende dingen geprobeerd, waaronder inderdaad een join. Dit maakt het niet zichtbaar sneller, al heb ik niet meer 36 uur gewacht voordat ik het afbrak.
De tabel is :
CREATE TABLE CALLS (
snp INTEGER,
sample INTEGER,
call TEXT);
CREATE INDEX snpindex ON CALLS (snp);
CREATE INDEX sampleindex ON CALLS (sample);
CREATE INDEX callsindex ON CALLS (call);
De gegevens zijn gemakkelijk zelf te genereren. Er zij 17 samples die steeds weer bij elke snp terug komen en heel veel snps (1 miljoen). Bij calls is er een variatie van strings te zien, zoals bij de output in mijn eerdere post. Ik probeer in mijn query de snps te vinden waarbij sample 1 en sample 3 verschillen in de call kolom en geen van beide 'NON' hebben in call.
Bij de query probeer