[opgelost]RegEx probleempje

Hoi,

Ik heb een probleempje met regex en groepen. Misschien zoek ik het te moeilijk, maar als iemand een beter idee heeft hoor ik dat graag.
De bedoeling is dat ik met python en de re module een string uitrafel (en nee, het is geen schoolopdracht, school ligt al 20 jaar achter me

)

Allereerst wat wel lukkt.
Er zijn een hoop regels in een file met een gelijkwaardig format:

Citaat

>sp|Q6V4H0|10HGO_CATRO 8-hydroxygeraniol dehydrogenase OS=Catharanthus roseus GN=TEST PE=1 SV=1

Ik wil hier graag de losse onderdelen van hebben. Dit kan ik met de volgende regex doen.

Code: [Selecteer]

>> import re
>> a= '>sp|Q6V4H0|10HGO_CATRO 8-hydroxygeraniol dehydrogenase OS=Catharanthus roseus GN=TEST PE=1 SV=1'
>> r = re.compile(r'>(?P<db>.*)\|(?P<uni>.*)\|(?P<last>.*?) (?P<descr>.*) OS=(?P<OS>.*) GN=(?P<GN>.*) PE=(?P<PE>\d) SV=(?P<SV>\d)')
>> m = r.search(a)
>> m.group('GN')
TEST
>> m.group('descr')
8-hydroxygeraniol dehydrogenase OS=Catharanthus roseus

Dit werkt dus. Maar nu komt mijn moeilijkheid. Het stukje "GN=(?P<GN>.*)" is niet altijd aanwezig. Dus de regel kan ook zo zijn:

Code: [Selecteer]

>sp|Q6V4H0|10HGO_CATRO 8-hydroxygeraniol dehydrogenase OS=Catharanthus roseus PE=1 SV=1Dit betekent dat mijn regex statement niets vind en mijn python script met veel geschreeuw de pijp aan maarten geeft.
Ik wil dan wel gewoon de rest kunnen uitlezen en de GN leeg laten. Dit lukt mij niet. Ik heb wel een regex gemaakt die gewoon GN negeert en dus de andere groepen gewoon leest, maar het lukt me niet om GN wel uit te lezen als die aanwezig is. Dus:

Code: [Selecteer]

>> import re
>> a = '>sp|Q6V4H0|10HGO_CATRO 8-hydroxygeraniol dehydrogenase OS=Catharanthus roseus GN=TEST PE=1 SV=1' # met GN component
>> b = '>sp|Q6V4H0|10HGO_CATRO 8-hydroxygeraniol dehydrogenase OS=Catharanthus roseus PE=1 SV=1'  # zonder het GN component
>> r = re.compile(r'>(?P<db>.*)\|(?P<uni>.*)\|(?P<last>.*?) (?P<descr>.*) OS=(?P<OS>.*) (GN=(?P<GN>.*) |)PE=(?P<PE>\d) SV=(?P<SV>\d)')
>> m = r.search(a)
>> n = r.search(b)
>> m.group('GN') # string bevat wel GN
''
>> n.group('GN') # string bevat geen GN
''

Zo een heel ingewikkeld verhaal.

Weet iemand hoe ik die laatste regex string zo kan aanpassen dat ik wel een waarde voor GN groep krijg als het aanwezig is en anders de GN groep leeg laat?

Ubuntu Nederlands

Nieuws:

Auteur Topic: [opgelost]RegEx probleempje (gelezen 1442 keer)

MKe

[opgelost]RegEx probleempje

MKe

Re: RegEx probleempje