Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Modkit calling methylation on incompatible nucleotide #286

Open
Ge0rges opened this issue Oct 20, 2024 · 17 comments
Open

Modkit calling methylation on incompatible nucleotide #286

Ge0rges opened this issue Oct 20, 2024 · 17 comments
Labels
question Looking for clarification on inputs and/or outputs

Comments

@Ge0rges
Copy link

Ge0rges commented Oct 20, 2024

Hi @ArtRand,

Let me preface this by saying this may be a mistake on my end. However after checking, I have a suspicion that modkit is setting an incompatible methylation call/nucleotide pairing.

Here's my example.

Consider the following (concatenated, filtered) bed file of a certain example regions:
Region 1:

contig_60201		 3259	3260	a	13	-	3259	3260	255,0,0	13	0.00	0	13	0	1	3	3	0
contig_60201		 3259	3260	a	26	-	3259	3260	255,0,0	26	3.85	1	25	0	0	3	0	0
contig_60201		 3259	3260	a	17	-	3259	3260	255,0,0	17	0.00	0	17	0	0	6	1	0
contig_60201		 3260	3261	a	4	-	3260	3261	255,0,0	4	0.00	0	4	0	3	0	13	0
contig_60201		 3260	3261	a	1	-	3260	3261	255,0,0	1	0.00	0	1	0	11	0	12	0
contig_60201		 3261	3262	a	15	-	3261	3262	255,0,0	15	0.00	0	15	0	1	3	1	0
contig_60201		 3261	3262	a	18	-	3261	3262	255,0,0	18	0.00	0	18	0	0	6	0	0
contig_60201		 3261	3262	a	21	-	3261	3262	255,0,0	21	9.52	2	19	0	0	8	0	0

Region 2:

contig_60201	3680	3681	21839	16	-	3680	3681	255,0,0	16	0.00	0	16	0	0	0	4	0
contig_60201	3680	3681	21839	38	-	3680	3681	255,0,0	38	2.63	1	37	0	3	2	36	0
contig_60201	3681	3682	21839	29	-	3681	3682	255,0,0	29	3.45	1	28	0	3	1	46	0

Here's the sequence of this contig:

>contig_60201
AAGTTGCCATATATGTAGTAACTAAAGCTCTGTCCCACCACGGACTTAATGCTATAAATAATGTCAAAGCACCCACTACA
AAAGCTGAACGTATTCCTCCAATTATATATCCAGCACCCATAACCAAAACAAATGTTGCAACAATAGGCATACGTAAATA
AGAAGCACGCATAGGCTGCAATACATCTACTATTAACCATGTATTAAAAATTTTTAAAGTTTGAAAGAAAGTATCCCAAA
TCCAATCAACACCTTTGTTCCAAAAATCTGCTGTTGATATTCCCTTGTTATGTGGAATTTCATATAAATAATTAAAACCT
TCTTTAAAATAAAAAGATCCTGCATAAGCAAATATGATTCCAATCAATATTGCACCAGAAAAAAATAATGTATTTTTATA
TCGCTGAAAAAAAGTTAGGTTACCAAAATAATCTATTTGTTTATTTGCCCAAGCTAAAGATAATTTATCTAGCAATATCG
CAATTAAACTAATACATAAACCTGCTTCTAATGCCAATCCGATATTCAACTGATTTAAAGCTAATAACAAATTAAATCCT
AAACCTTTGGCACCTATAAACGCTGAAATTACTGCCATAGAAAAGCACACCATGATAACTTGATTTACTCCAATCAAAAT
ATCTCTTCTTGCAGTTGGAATTAGTACTTTAAACATAAGCTGTAAATTATTACATCCACTCATTTTTCCAGCTTCAATAA
CTTCAGGAGATACTCCTCTGAGACCTAACAAAGTCAGTAGTATCATTGGTGGGACAGCTACAACCATAGTTATGATTACT
CCAGCATGATCACCAACACCAAAAAGAACAATTGCAGGAACCAATACTGCGTATTGAGGCATAGTCTGCATAACTAAAAG
TATTGGATATAAAGCTTTCTCCACACGTTTACTTTTGAATGCTGCGATCCCTAAGCTCAAACCAAAAATAAAAGATAGTG
GTGCTGCAACCAATATAAAAGAAAGTGTTTGCATCGAAGGTTTCCATTGACCAAAAATAGAAATATAAATCATGACTATA
GCAGCGAATAGCGCTAAACCTTTGCCACTTAATTTATATCCAAGTATTGCTGCACCTGCTGCAACAATTGTCCAAGGTAG
TCCTGGCAATTCTGCCCATGAATTTTCACTTATCCAATCCCAACTTGTAAATGCAACAATAGTTTCAACACCACCTAATA
AAATCTCTCTAATTAATTCTATGAGAAATGTTATAAATGAGGTTAAATTTCTTGTTATTTGTAAAACTAGAGGTCGGGTT
TTAAATTCTTGAGTGTCTTCATTCCAAAATTCTATTGGCATCCAATCATTCATTAAAAAAAATAATGAATCATTTATCCA
TATAGGTAACCATCCAAGTAAAGGAGGTAGTCTCCAAAAAACATCAAATGCATAATACCTTACTTCTGCACCAAAGAGTG
TGTAAGTGCTTTGATTTGGATCTTTAATAAATTCTGCTTGACCTCTAATAAATTTATAAGTTTCTGGAACATCAATTGCA
AAATATAAAGTAAAAAAAGCAATTAACAAAAATAACCATTGGAATACTTTTGGATATTTTTTTAATAATTCCATATTTTA
ATCATTATTTTTTTTTCCACCAAAAACTGTATGTATTATTTTTGATGGATGAACAGTGCCAACAATTTGATTATTTTCAT
CAATTACAGATACTGACTTTTCTTGAGTTAAGATTTTTTCAGCAACATTTTCAATTATTTCATTTCTTAAAACTTTTAAA
TCACTTAAATTTTCATTATTTGGTTTTTCCATCACATCTTCTATTTTTAAAACCTTCTCTCTAGGAACTTCTTCAGTAAA
TTTTTTTACATATTCTGTTGCTGGATTTAACACAATGTTAGCTGGGGTATCCAGTTGTTCAATTATACCATCTTTCATTA
TTGCAATACGGTCAGCAAGTTTTAAAGCTTCATCAAAATCGTGTGTAATAAACATAATTGTTTTTTGTAATTTTTCTTGA
AGTCTCAAAAATTCATCCTGCATCTCTTTTCTAATTAATGGATCTAATGCAGAAAATGGTTCATCTAAAAACCAAATATC
AGGTTCAACAGCTAATGATCGAGCAATACCTACTCTTTGCTGTTGTCCACCAGAAAGTTCTCTTGGAAAATAATTTTCTC
TACCATCAAGACCAACAAGCTTTACCATTTCCATTGCTTTATTGATGCTATCTTTAGTTTTAATGCCTTTGATTTGAAGT
GGGAAAGCAATATTTTCCACAACTGTTTTATGAGGAAGCAAAGCAAAACTTTGAAATACCATTCCCATTTTATTTCTTCT
AAGTTCAATCAGTTCTTTATTACTTAATGAAAGTAAATCTTGACCTTCTATAAAAATTTTTCCAGCAGTTGCATCTGTTA
ATCTAGAAATACATCTTAACAATGTTGATTTTCCTGAGCCTGATAAACCCATCACAACTAACATTTCACCTTTTGAAACC
TCAAAAGAGGCATTATTCACACCCACTATACATCCGTTTTCTTGAAATGTTTTAGCATCTACATTTCCATTTGCATCTTG
AAGCATCTTTTTGGCATTTGTTCCAAAAATTTTATAAACAGATTCACATTTGATTACTGTATCGGTCATAATGTTTTAAT
AAGTTATACGAAATAAAAATAAAAAACACTTTTTATATTATTTATACTTATCGTTTTTCTCCTTAAAAATTTTTAATAAA
ATAAACTCTTGTATCAATTCCAGTACTTAAAAAATTTAAAACCTCTCCTTTAACAGTAATTTTTTCATCTACCCCAACAT
TATTTCCACTAACTGTAAAACCTGCAAAGCATTTATTATTTTCCTTATTCCATTTAACAAACGTTTCATCAATTTTATTT
CCATTAATAGTATAAATATGATGTGCTCTAAAATTCAAAAAATTGGCACCCATAATTGCACGCTGAGGAATAATCTTTGT
TGCGTTGCAGACTTTTTCATATTGCTCTAAAGACAACTTATAATGATCAGTTCCATCATAAAATACTAAAATTCCTGATG
GCAAACTTGAAATCAGTTCATTTTGCTTTCTTGTCTCTGCAATTCTTTCTTCTTCTTTTTTCATTTTAGCAATTAGTTCT
TCACCCTCACCAAAAATATTATTTAAGATAGCAAAGGAAAAAATTACAATAATTATTAAGATGATAAGACCTCCAAATTG
TCTAACTGGCTCAGATATCTTCTTTAATTTATTTAAATATATATTTTGTAACATTTTTATCTATTCTTGAAATTTGCCAT
TTTTCCAAATTCCTTTTTTTTCTTTTCCATCGGACCATGTAAATGTTCCCTCTCCATTCATAAACCCATTGGCCCATTCC
CCATCATAAGTTGCACCGTTTGGAAAGGTCAAAATACCCTTTCCACTCCACACACTATTTTTAAACTCACCTTTATAAAT
ATATCCATTAGGCCAAGTCTCAACTCCTTGTCCTTGTTTTTGTGTGCCAATCCAATTCCCTTCGTATGTTGTTTTGTCAG
TGTAAGTCCATTTACCAAAGCCATCTTTACAGTTTCCTTCACAACCTGTCTTTCGAGCTGATACTGATGTTGCAACTAAA
AAACTTAAAGCTATATAAAATAAATATTTTTTCATTTTTTTAAATTTAGCTACATAAGTAAAAAGAAATATTTTTTTCAA
GATTATCACTTTTTATACCTATTGTAATTTCGTGAACTAATTCACCTGATTTTCTGTTAATTATACCTGATTCTGAGTAA
TTTTTTCCTTCATCAAAAGCTTTGAATAAAACTATGTCTTTATTTACAACTTTTACTTCAAATTTTGCAGTTTGTGAGAG
GAACATTGATAACCCATTAATCAAAAGTTTTTCTGGTTGTTTTGCATCGATTTCAAATTTATCTAAATTTTGATCATCTA
AATCTTTTGCTAAAAAAGTTTTATAATTATATTCTGAGTTCTTGAGTATTTTCTTTTCTAATTCACATACAAAACCAATT
TTAATATCCTCTTGTATGTCTATATTTTTTGCAAAAGAAGAATTAAAAACTAATAGACTGATAGATATATATAAAAAAAA
CTTTATCATTTAATTAATAAGTCCGTAATTTGAATTTGTGCGAAAGCACATTCTTTAAAAAAAATCCCCCCCAACATTGT
TGGGAGAGATTTCAATTTATTAACTGTTACCCTTATTTAGTAAAAGCTTGCCAAACACTCTTATTATCAGCTAACCATTT
TTTAGCTGCATCTTCATGAGTCAATTTGTCAAGGTCAACTAAAGCAGCCATTGCACCAATGTGACTTGTAGAGAATGACA
TTTTTTTAAATGCCGCTGCTGCTGCTGGATGAGTTTTTGGAAAGTCTGCATTTACAGCTTTTTTCAAATAACCATCTGGC
GAACCACATTTTCCATCACCACCATCTTCTGGTCTACAACCAGCTGAATATGGAGGGAAGTCTATAAAAGTAAAACCAGC
ACCATCTGTAAAGTTTGGTGTCCAGTTGAATATTATAGTTCCTCTTCCTTCTTTTTCAGCAGCTTTAAGTTCTGCCCAAA
GTGCGTCTGCACTTCCAGCAAATTTAACAGTCCAAAGATCTCCTAAGCCCTAAGAGCATCAACTCTCTGAGGTATTAAAT
CTCCATGCCAACTTTGTGGACCTTCTAACATTCTTCCTTTTCCATCTGAATCAGGTGTTGTAAAGTTTGCAGCACATTCA
GGATTTTTTAATGCAGTCCAATCTGGAAGACCTGGACATAATCCTTTATCAGTAACCCAGTTTGGATATCCCATATCCTC
AAGAGTTCTTGCTTCGTGATCACCCCAGTCAACTATACCACCTTTATCAAGTGCTGTAGTGAATGATTTACCAAAAGCAG
ATTCCCACACTTCATGAGCTAGAGTTACATCTCCAATACGAATAGATTCATACACAGCTTGTGAGTCAGTGTTTACATAG
CTTACATTGTTTCCCATGCTTTCAAAAATTCCACCAATAACATGAGCCATTACAATTTGGCTTGACCAGTTATGAGTAGC
AATAGTTATAGGCTGAGCGCTATCACCACCTTTTTTGGCAGTTTTATCCCCTCCTTGCATGAAGAACATTGCGATAGCAA
TAACTACCACCGCACCGATAATTAACGGTAATTTATTTTTCATATTTCTCTCTCCCTTAATATTAAGTTAAGTAAGCATG
TTCTCATTTATTAAATTTATAGTCAATGGCCTTTGATTATATTAAGCTAAGACTTAAATTATTAAAATTTATACTGGCAA
TGCTACATACTAGTAACGATATAAGAAATCCTGGCTTAAGAACTTTACCACCTGGAGTTGAAAGATATTTTGTAAGAGGT
GGTGGACTTTCTATAATAGAAGTTTTGCCAGAAGATAAAATAGAAATCATTAATGAAGAAGGAAGACAAATTTGTGAAAT
AATTGTTTTTAATTCAAAAGGTAAATCTGATTTATCTATTTTAAATTTAAAAGAAAATGCTAATGCAGATTTTTCAAAAA
AAACTATTGCTAATGATGAAAAAATTTCAAAGCTGCTAAAGAAAAAAAACCTTGATTTAAATAATGCTAAATCATCAATT
ATTTTTAATGAATGATTGTTTGATGGGTGAAAAAATAACATTAACCTCAAAAGATAAATGTGTGGTTATGATTGCTGCAC
CTGGTGATGCAATGAATGTTCATGAACAAAATCCACCAACAGATTTAACTATTTTTTTAAATAAAGCTAAATTTATTGAA
ACTGATGAACAATTTATTTTGCCAGATCCGCTTAGTGATCCAATTATTGAACAGCTTGTAAAAAGAAGAACTGCTGAAAC
TTATGAGGTAAAAGCTGGTGAATATATTCAGATAATTGATCCAGGTGGAAGGCAATGTTCTGATTTTCTAGCTTTTGATA
CACAAAAATTAAATGACGGCATTGAAAGTATTATTGATGATAAAGCAACACGAACTTTTATGGGTGGTGCTTACCCTGGG
CCTGGTTTGTTTTCAAAGTTTTATGATGGTGATCATGAAGCTATGATTGAAGTTGTAAGAGATACAGTTGGAAGACATGA
TACTTTTAATCTTGCTTGCACATCAAAATATTATGAAGATATGGGTTATATGGGTCATATTAATTGTACTGACAATTTTA
ATAATAGACTAGATAAATATGACATCAATTCTAGAAAAAGTTGGTCTGCAATAAATCTTTTTTTTAATACTGCAATTGAT
GCTAATAATGTTGCATCTTTTGATGAACCTTGGTCAAGACCTGGAGATTATGTTTTATTTAGAGCTTTAAAAGATCTAAC
ATGTATATCATCAGCTTGTCCTTGTGATGTTGATGGTGCAAATGGCTGGAATCCCACTGATATTTTTGTTAGGACTTATT
CAAAGGAAAAAAAGTATTCAAAAGCAATAGCATTTAGAATGAAAACAAACTCAGAACCTAAACTAACTCAAGAAACAGGT
TTCCATAAAAAAACTTCAGAGCTAACAAGAAACTTTGTTGAGTATAAAGGTTTTTGGCTTGCTAATAATTTTACAAATTC
AGGAACTATAAAAGAATATACAGCTTGTAGAGAAAGTGCGATTGCAACAGACTTATCACCTCTTAGAAAATTTGAAATTC
TTGGACCTGATGCAGAAAATTTAATGCAATACACACTTACTAGAAATGTAAAAAAATTATCTATAGGGCAAGTTGTTTAT
ACAGCCATGTGTTATGAAAATGGGTGCATGTTAGATGATGGTACTTTATTTAAATTAGGACAAGATAATTTTAGATGGAT
TGGTGGAGATGAATACAGTGGTGAATGGTTAAAAGAACAAGCTAAAAAGAAAAATTATAAAGTTTGGATTAAATCTGCAA
CAGATCATATTCACAACATTGCAGTTCAAGGACCAAATAGTAGAAAAATTTTAGAAAAATTTGTATGGACGCCTCCTATA
CAACCATCCATCACTGAACTTGAATGGTTCAGATTTAATATTGCAAGAATAGATCATGAAACAGGTACACCAATTGTTAT
TTCAAGAACAGGTTACACTGGTGAACTTGGCTATGAAATTTGGTGTCATCCAAAAGATGCTGCAGAGGTTTGGGATAAAG
TTTGGGAAGCTGGTAAAGAGTTTGATATTACTCCATTAGGCTTAGAAGCTTTAGACATGGTTCGTATTGAAGCTGGACTA
ATTTTTTATGGTTACGAGTTCGATGATCAAACAGATCCATTTGAAGCAGGTATTGGTTTTACAGTTCCACTTAAAACTAA
AGAAGATGATTTTATAGGTAAAGAAGAGTTAATTAAAAGAAAAGCAAATCCACAAAAAAAATTAGTTGGTTTGGAATTGG
TTGGTCATGAACCAGCAGTAAATGGAGATTGTGTTCATATTGGTCGTGGTCAAGTGGGTGTAATAACAAGTGGAATGCTA
TCACCTAAACTTGGAAAAAATATTGCACTTTGTAAAATTGATGTAAAATATTCTGAAATAGGAACGGAAGTTGAGATTGG
TAAGCTTGATGGTCATCAAAAAAGAATTGGTGCAAAAGTTGTTCCCTTCCCTTTCTATGATCCAACAAAATCAAGAGTTA
GAGCATAATAAAATGCCCGATAACAGCAAAGATCTTTTAAATTTTTGGGAAGACCAGATGAAGCAATCACATACATCTAG
TAACTATTTTTTTAGAAAATCTCCTTCACATTATCATATGATGTTACTTGTAATGTCAGCGCATAAACTTAATGAAAAGC
TTTCTGTTGAAGGGCTAAAAACAAAATTATTTAAAACCTCTAGGCCAAAATCTGCTTTGATAATTAATGAGGCTTGTGAA
AAAGGATTCTTTCGTTTGGAAAAAACTTCAACTGATCAGCGAATAAAAAATATTATACCTACTGAGACTTTTATTAATGA
GTTTAAACAATACCTGGTCACTTTAAAAAAGCTAAGCTATTAGCACCTAATTCAACAATCTCTTTAAGTTGATATCTTTT
ATATATAAAATTTAGTTATAAATATAATTATATTAATTACTTTTTAGAAAAAATAATGTTTTCATATGTCAACACTACCA
ACTAAAGCTAAAGTAGTAATCATCGGAGGCGGAATTCATGGCCTAAGTACAGCTTGGAAACTTTCAGAAACTTATAAAAA
TCCTGGTGACATTGTAATTCTTGAAAAAAAAGATACTGCAGCAGGTGCAAGTGGAATTGCTTGTGGTGTTATAAGAAATA
ATTATTTTCAACCAGCTATGAGAGAGTTAATGGCTCATTCTGTATCAGTATGGGAAAGTGATCCAAAAGCTTGGAAATAT
AATGCTGTAGGGTATTTACAAATATCTCCAGAGGTTATGCACGAAGATGTTGCTACAATTTATGAACAACAAAAAGCTAT
TGGTTACGAATCAGAATTTATAGAAGGTGAAAAAGAATGTACTAAATACATGAAAGGTATGTTTGATGATTGGCAAGCAC
AAGGCATCACATCCATACTTCATGAAAAAAAAGGTGGTTATGCATTCAACAAAGCTTCCATAAAAGCTCTAGAAGAAAAA
TCTACTACAAATGGTGTTGAGGTTATTAAGGGTGTGACGGTTACAGGATTTAAAAGAGGAAGCAATAGCAAAGCTGTTAC
AGGTGTTGAAACAGATAAGGGAATTATTGAGTGCGAACAAGTAGTTGTTGGTGCTGGTCCTTGGGTTAGAGATTTTTGGA
ACATGTTAGATCTTCCAAAAGTTGCAAATATTAAAGGACAAGATGGAAAATTTCATAAAGAAGATATGTGGAAATATTGG
ATGCTACAAGAAGGTGTTATTGGTGTTGATAAAGATTTTTTAAGAATGAATGATGGTGGTCAGCCTCCTGTAATGCATGT
TGACTTAACTGCCCCACTATATTCTGACACAACTAAAAAATTAATTACAGATGAACTTTGGGGAATTTATTATAAGCCAG
ACATTGAAGGTCTTGGTGTTCAAGGTGGAACATCTCCTTACATAGTTGATAAACATTTTGATAAAGTAAATGTTGATCCT
TATGGACTTGAGTCTCCTGAATTTCAAACTACAGAAGCATTTAATGATATGTGGTGTTCAGCTTTAGCTCATTGTCAAAA
AAGATTTGAAGGTAAATCTGATTTATATAGAAAAGGACCATCAGGTGGTCTTGGATGTATGACACCAGACTAATTTTCCA
ATCTTTGATAGATTTTTAGAAAATGTTTACATGATTGCAGATGCTAACCATGGATACAAAATGATTGGTGTAGGTGAACT
TGTTGCACAAGAAATTCTTGGAACTGAAAGTGAATTATTAAAACCGTTTAGATTCAACCGTTACGAGAAGGGTGAACTTC
ATCCAACTTCTAACAGTCCATTCCCTTGGAGTTAAACTTCAAGCCTAGACACAAATAATTTTTTCAGTTACGGTTCCTTA
AATAAAAATTCATTAGAGGGAGAGATAATGACAGATTTAGACAAGCACGTTAGCACAACCTGGTAGAGACAAGTTAGTAA
AACAAGTTAGAGCTAAAATTAACGAGCTAGGTGTTGAATATATTTATTTTCAATTTATTTCTGTAACTGGAAGAGTTGTA
GGAAAAGGTATTCCTACTGATCATTGGGAAAGAACTTGTGAAAAAGGATTTCAATTAGTTTACGGTGCTACAGCAAACTT
ATTTGTTGATCGTCATGGAGATTATATTGGTTATGGACCAGAAGCTAAAGAGCTAGTTGGTATACCTGATCCTGAAACAT
TTTGTCAGCTTCCATGGGATAAAAAAGTTGCAAGAGTATTTGTTACTTGCTTTAGAAATAGAGAAGAAAGAGATAATCCA
GGTGCACATTTAACATCAGATTGTCGTGGAAATTTAAGAATACATGCTCAAGAATTTAAAAAGAAACATGGCTACCAATT
AAGAGTTGGAACAGAGCCAGAAATGATGTGGTTAACTAAAAATGAAGATGGTTCACCTACTGGTAAAGGTTTTTCTAAAC
CTTATTGCTATCATATAGATCAATTTGAATCGTTAAGACCAGTTTTCATGCAAGTTTTTAAATACGCAAGAGCAATGGGT
TTTGACATGATTTAAGGTGATCATGAAGATGCACCAGGACAATTAGAATTAAACTGGATGTATGATGATGTTTTAAGAAA
TGCAGATAGACTTTCAACTTATAGACAAATTTGTGCACAGGTTGCTAGAGAGTTTAATTTGATAGCTTGCTTTATGACAA
AACCTTTTATGGGTGTGTCTGCAAGTGGTTGTCATACAAATATGTCTTTATGGAAAGGTGGAAAAGATAAAATTAATAAA
TTATCTCATAAATCTATACCAGCGATGGATGATGTTTTTACTTATGTTGAAGGTGGAACTAATTATTTTATGCCTGACAC
TAAAGATATTCAATTACCTGGTAAAGTTGGATTAAAAGCGATTGGTGGAGTAATGAAACATTTGGGTGCACTGACTGCAA
TTGGTTCTTCAACTGTTAACTCATATAGAAGATTATGGGATACAGGATTTTGGGCGCCCGTTTATGCTGACTGGGGATTT
CAAAATAGAACTTGTGGTTTAAGAGTTTCTGCTCCAGGTAGATTTGAATATCGTTCAGTTGATTCAATGCATAATCCATA
TTTAATGGGTTCTGGATTATTAAAATGTTTTGATGATGGAATAACAAATAATATTGATCCAGGAAAACCTGAGTCTAGAA
GTATGTATGAAGCTCAAGCTGCTGGAAAAATAGTTAAAAAACTACCAATGAGTCTTGGTGAAGCTTTAAATCGTTTAGCA
GAAGATGAGGTTATAAAATCAGCTATGCCAGACGAAATGTATAAAGTTTTCCATTGGTATAAAAATGATGAATGGGAAAA
ATTTTTAGGTGCAACAACTCAGTGGGATCTAGATACGTATCTGGACTGCCTACCATAATCTTTAATAAAAATAGGGGAAA
TATATGTGTGGAATAGCGGGATTAATTCATAGAGGTAAATCAGTCAAATGTAGGAAGTGAACTACAGGGAATGCTTCAAG
CATTAAAGCATAGAGGAGAAGATTCTACTGGTTACGCTTTATATGGAGATACAGATGGTAAAAATTTTATTATGCGTTTT
AAAGTTGGAGAAAATGTTGGTGAAGGAAGTTCATCAATAATGGAGGATGTTTCTGTATACGATCAAAGAAAGAAAATTGT
TGATCAGTATTTATCTGAGTTAGGTGCCAAAATAGTTAAAGAAGAAAGAATTCTACCCTACTCCTTAAGATATGAGCTTG
CTTATGATGTAAAGGATCTATTAGAGTTTTCACAAAAGATTGAAAGTATTCCAGGAGTTGAAATTCTTTCCATGGGAAAA
TCATTAGAGGTAATTAAAGATCTAGGTAATGCTAAAATGGTTTGTGATAGATATAGTTTAGATAAAGTGGTTGGAACACA
TGCAATTGGTCATGCTAGAATGGCTACAGAATCTGGTGTTGATATTAAGTCTGCTCACCCTTTTTGGGGTTATCCTTTTA
GTGATGTATCTGTGGTTCATAATGGTCAGTTAACTAACTATTGGAACAACAGAAGAATGCTTGAAAATAAAGGTATGAGA
TTTATGTCTGAATGTGATTCAGAATTAATCGCCGTTTATATTGCTCAAAAAATGAGAGAAGGAGCATCTCTTGAAGAAGG
CATGAAGGCATTCTTTAACAGGTCTTGATGGAGTATTTACATATTTTGTTGCAACTAAAGATTCTTTAGGAATGGCAAAA
GATACTATGGCTGCAAAACCTTTGGTTCTTTATGAATTAGATGATTTAGTAGCAATGGGTTCAGAAGAAATAGCAATCAG
ATCAGTTCTACCACAAGAGATAGATACATATGATCCATATGATGGAGAGGTAAAAGTATGGCAAATTTAAAGACTACAGA
AAAAAAAACAAAGTCCCAGTCAATGGGTATGCACACAGAAGTTTTAACAGGAAGAACTCAGCAAAAGTTTTTTAATCCTG
ACGAAGGTGAAAATCTTTATTATTTTGGAACTTATGATGTAGATTTTAATAAAAGAACAGAGCTAGATGTTAAAGAAATG
ACAGCTCCAGAAGCTAATAAAGAAATTGATAATTTAATGAGCCAAGGTTTTGGAACAATTGTTATTAAAAACCCTCAAGG
AAAACATAGTTTAGGTGTTGGTATTTTAAATAAATTAAACTTAATTTTTGAAGGAAGTTTGGGTTATTTTGGTATGGGTT
CTTGTGATGGACCTACTGTTAGAATTAATGGTAGAGTTGGCTGGTCTTGTGCTGAAAACTTAATGGCAGGAAAAGTTGTT
ATAGAAAAAAATGCAGGATCTTGCTTTGGTGCCGCTATAAGAGGTGGTGATTTAATTTGCAAAGGAAGTGTTGGTGCAAG
AACTGGTATTGACATGAAGGGTGGAACTATCATTGTTGGTGGTGATGCTGGAGCTTTTACTGGTTTTATGATGCAAAGAG
GAAGAATTATTATTCTAGGTGATGTTGGAATAAATTTAGGTGACTCTAATGTATGATGGAACAATATTCATTGGTGGAAA
AATAGGATCATTTGGAAGTGATGCTGTTCCATCAGATCTTACAGACAGTGATCAAGACTGGTTAAAAAGAAAATTAAAAG
TTGCAGAGATAGGTGAAAAATTTGATGTCAGTAAAATGACAAAAATAGTCGCAGGGAAAAAACTTTGGAACTATGATAAT
CTAGAACCTCATGAAAAGAAAGGAGCTATCTAATGGCTAAAAAGAAAGTTAAAAAAAATAGTAAAAAATTAAAAAAAACT
AATGGAAGTGTTGGTGGTAAAGCTGATGTTCATGCACACGAAGAAGGCAAAAGAAACAAAAGTCTATTAGGTCACAACGC
TATTTTTACTCCTGAAGTTATAGACGATATTCATATTAAAGCTCAACTTGGAAGATACAGAATGCGTGGAATGGCATTAA
TGAAAAAAATTCCTACATTTGATGATTTAGTATTTTTACCAGGAACTCTTACAAGATTTGTAATTGAGGGTTATAGAGAA
AAATGTGAAACAAAAACTATTATTGGACCAAATTGTGAAAACCCAATTGAACTAGATATACCAGTATATATTACAGGTAT
GAGTTTTGGAGCACTTTCTTATGAAGCAAAAACTGCTTTAGCAAGAGGAGCAACAATGGCTGGAAGCGCAACATGTTCTG
GTGAAGGTGGAATGATTCCAGATGAGAGAAGATATTCTGAAAAATGGTATTACCAATGTATCCAATCAAGATATGGTTTT
AATCCTCATCACGCTCAACTAGCTGATGCAATTGAAGTATTTATTGGTCAAGGACAAAAAGTTGGAATGGGTGGACATTT
AATGGGTCAAAAAGTTACTGATCAAGTTGCAGAAATGAGATCTCTACCATCTGGTATTGATCAAAGATCTCCAGCAAGAC
ACCCAGACTGGTTAGGTCCAGATGATCTAGCTTTAAAAGTTGAAGAATTAAGACAACTTACAAAAAATAAAGTACCAATT
CAGTTAAAACTAGGTGCATCAAAAGTTTATGACGATGTTCGTATGGCTGCAAAATGTAATCCAGACTCAATATTTTTAGA
TGGTATGGAAGGTTCAACAGGAGCCGGTCCTCACATAGCTGCTGCAAATACTGGTATTCCAGGAATTGCTGCAATCAGAG
AAGCTAGAAGAGCTATTGATGATGTTGGTAAAACTGGACAAGTAACTTTAATTTATGCAGGTGGTGTTAGAGATGGTGCT
GATATGGCGAAGGCTTTAGCCCTAGGTGCTGATGCAATAGCAATTGGGACTGGTGCTTTAATGGCTTTAAACTGTAATAA
AGATATACCAGAAGCAAACTTTGAAAAAGAAATGGGTGTAAAAGCTGGTGAATGTTATCACTGTCATACTGGTCGTTGTC
CAGTTGGTGTTGCAACACAAGATCCTAAATTAAGAGCTAGATTAAATCCTGATGATGCTGCATTAAGAGTTTATAATTAC
CTTCATGCAATGACATTAGAGGCTCAACTTTTAGCAAGAGCTTGTGGTAAAACTAATATTCACTCTTTAGAGCCTGAAGA
TTTAGCTGCTCTAACAATGGAATCATCTGCATTAGCTAAAGTTCCGTTAACAGGAACTAACTTCACTGTTGGTGTTGATA
ACTATCACAAAATATAAGGAGGTATTTATGGTTAAGAAAAAAACAAAAACAAAAGTAAAAAAAGAAAATCTAGGTGGAAA
ATCTAAAGAGACTGCTAGAGAAAAAATGATTGGGCAACATATCGGTTATAGATATGACGTTAACCTATTACCTGATTATA
AGAAGATGACTCCATTCTTAAAAAAATATGTAGAAGCTATGGGATGGGATGATCTTAACTGGTTAGAAGATATTCATATG
GGTTATGAAGAGGATAGACCTGCTGTATTTTGTAGAAATGCAAATGGTTGGGTTACAATTCCAAAATCAATCAAATTACC
AAACAACCAACAAGACAGAGATATGATTGCAAGAGAGCTTTTAGTTAAGTTTCAAATGTCTAAAAAGCACCCTCTTGTTG
ATTTGAAAAAAGCTTACCTTAAGTTTTAGTCCGTCAATCAAAGGTTGATTATTTTTTAAAACTCATTGCGTCGTTACTTG
TTTATTTAAGCAATGTATAGTTTGTCACACCTATTATAAATTTTATAGTCTTTCCTAAAACTAATAGGAGAGAGAGATTA
TGGATGATCAATTAGGCGCTCTTACAGTTATATTTACAGAATTTTACTACTGGGTAACAGTAGTATTAATGTTCCTGATT
CACGTCGGGTTTTGTATGTATGAAGTTGGAGCCTCACGATATAAACATCACCAACATACTTTAATGAAAAATACCATGGT
AATACCATTAGTAACGGTAACCTGGTTTTTCTTTGGTTGGTGGATTTACTGGGCATTCCCAACAGGACCGGGAATAGCAC
CTTCAATAATGAATGAGAGTTCAGCATTAATTACTGACGAAAGTACTTTTAGTGCGAAATGGTATGTAGCAAATACTGAA
TTTATGGCTGTCAACTTAGGTGACCGTATAAGTGGAGTATTCTGGGCTGCATTCTTACTATTTTCATGGACAGCTGCTTC
AATTGTTTCTGGAGCAATCATTGAAAGAATTACAACTTTTGCATTTGGTATTTTAGCAATTGCAATTGGTTCGTGCTTCT
GGGTAATTGATGCTGCTTGGGGATGGCACTTTGATGGATGGATGCTTAAAATTTTAGGATATCATGACGCTTACGCATCA
GGAGTAATTCACGCAATTGCGGGTGGGTTTGCTTTAGGTGTTCTAATCGTTTTAGGACCTAGAATTGGAAAGTTCTCATC
AAGTGGTGAACCAAGAAATATAGGACCAAGAAACCCATGGCTAGTTACAGTTGGATTATTTTTAATCTATACTGGTTTCT
GGGGATTTTATGCGGCATGTAATATACCGATATTTGATCTTGGACCTGAATATGGAATGGAAGGTGTAACGTACTGGACA
GCAACAAACATATATGTAACCCCAACCACACTGAGTGGAATAACCTATAACTTCCTGATGTCATTATCAGGTGGATTATT
GGCTGGATACGTGGTCGCTAAAGGTGATCCATTCTGGACTTACTCAAGTGGACTAGCTGGGATCATCTGTGCATCTGCAG
GTAATGATTTGTATCACCCGATACAAGCAATGCTTATTGGTGCGATCGGTGTTGTTATAGCATACAAAATGCATTACTGG
GTTGAACGTAAGTTCAAAATTGATGATGCAGTTGGTGCAGTAGCAGTACATGGTTATGCAGGAGTTGTTGGTCTTATAAT
TTGTGGATTTGTTTTAAATGGTTACCCAGCATCTGGATATAATGTTGGAGCTATGTGGGACGGATCAACTTATGCATCAA
TCAATCCACTGGGACAATTCCTTGGAGCAATTATAATGTTCGGAGTTCTTGGAATGTTACCAGGCTACGTTATTGCTAGA
ATACTAAGCGCTTTTGGTAAATTAAGAATACCGCGTGAAGTTGAAATAGCAGGACTAGACTATGAAATAATGGAGGACGA
TAGAGAAGCTGAAAAAGCGGTCGCCTCTTCAACTAGGTAAAGGAGAAAAAATATGGCTACAGTTACAAACTGGATAGATC
ATTTAAGTGCAAAAGAGGTTGTCGGAGCAGTTTATCCGGGAGCTGGATCCACTGAAACTTTACTAGTTATTCTTGGTGTA
GTTTTTTGGATTGGCTGGCATGTTTTAACTGCTAGATCTGAGAGTGAAAAACTTTCAAGATTAGCAAGAAAAAGACATGG
TGCTAATGATCATAAGAGCAATATTACCGACTGGTAATATAAAATAAAAATTTGGGCGCTACTTAATTGTGGCGCCCTTT
TTTATATAAAAATATCAATCATGGACTGAAAATAATAACGAAGATCAAAGACCAAGCAAAATGATTGGTGTAGTTTTTCC
AAAAGCAAAGTATGGAGTGATAGCGGCTATTATCATCATTGTGGTAGGAAATATTTTCTACTATAAAGATTTTCTACTGT
CTCTAATAAAATAAACTTAAAAAAATTTATGTGTGGAATTGTTGGCATCTACTTAAAAACTAAAAAATTTGAAAAAAATT
TAGGAAAGATGCTGTCAGGTATGCTTAATAATATGGAATCTCGTGGACCAGATAGTGCTGGCTTTGCAATTTACAAAGAT
GAAAGTAAAAAAATATACAAGTTTTCTTTATGTATTAATGATTTAAACTTTAATAGCTTTAAGAAAGAAATAACTAAAAA
AATTAAAAAAGCTAAACTTACTCAAATCTCAGATCATGTAATTCTAAAAACTCTAGAGCAGCCAAAGAAAGTAATTGAAA
TAATTAATTCTAATTTTCCTAAAGTATCTATAGTTGGGTATGGTCGATCAATAGAGATATTTAAACAAGTTGGTAATCCT
AAAGATGTAGTAAAAAAATTTAAATTAGATAGTTTTAGTGGCACTCATGGAATAGGCCATACAAGAATGGCTACGGAAAG
TGCAATAACTACTGATGGATCTCACCCCTACTCGACTGGTGAAGATGAGTGTTTGGTTCATAATGGATCATTATCAAATC
ATAACAATTTAAGAAGAGAGCTCACTAAAAAAGGTAACGTCTTTAACTCTGAAAATGATACTGAAGTTGCAGCAGGATAT
GTTTCTAACAGTTTATCAAATAATAAATCTTTAAAAGATACCCTTACATCGGGTCTTAAAGATTTAGATGGTTTTTATAC
ATTTATTACAGGAACTAGAAAAGGCTTTGCAGTTGTTAGAGATGAAATAGCGTGTAAACCTGCAGTAATAGCAGAAACAA
AAAACTATGTTGCAATAGCATCAGAATTTCAAGCCATGGCACATTTACCAGATGTAAATAGTGCAAAAATTTTTGAACCT
GAGCCTGGTATTGTTTACTCGTGGGGAAATTAATGAAATTAGATTTAAAAAAAAAGAAATTAAGAGAAATTAATAATACT
TTACAAAATTTAGATAATAAAAAAAATGATAGAGACTTTGTGATTATAAATCCTGAGGGAAGCCATGCATTATGTGCTGG
GTTAAATCAGGAAATGAAAGTTTTAATCAAAGGCCATGTTGGCTATTATTGTGCAGGAATGAACCAAAAAGCACATGTAA
CAATAGATGGAAATGTTGGAACAGGTGTTGCTGAAAATATGATGTCTGGAACAGTACATGTTAAAGGTAATGCTTCACAA
TCTGCTGGCGCAACTGCTCATGGTGGATTACTTGTAATTGATGGAGATGCTAGTTCAAGATGTGGTATTTCAATGAAAGG
AGTTGATATTGTGGTTAAAGGTTCGGTTGGTCATATGTCTGCATTTATGGCTCAATCTGGAACAATGTTAGTTTGTGGTG
ATGCTGGTGAAGCTTTGGGTGATAGTCTTTATGAAACAGATATTTTTGTTAAAGGATCAGTTAAATCTTTGGGTGCAGAT
TGCATAGAAAAAAAAATGGAAAAGAAGCATTTAAATAAAATTTCAGCTCTTTTAAAAAAAAGTGAAATAAAAAATATTAA
ACCAGATAGTTTTAAGAGATATGGTTCGGCACGAAAACTTTATAACTTTAATATCGATAATGTATCAAGCTATTAATAAT
GTCAGATAATAAAAAAACTCATCCTCGTATATCATGGACTTTTGATGAGTATACAAATTCAGAAATAAGAAGAGCAGCAG
CAACTGGAATTTATGATATTAGAGGTGGAGGTTCAAAAAGAAAACTTCCTCACTTTGATGATTTACTTTTTCTTGGTGCT
TCAATGTCTAGATATCCTTTAGAAGGATATAGAGAAACTTGTAATACAAAAGTAACTTTAGGAACACGTTACGCAAAAAA
ACCTTTGGAACTAGATATCCCTATTACAATTGCTGGAATGAGTTTTGGTGCATTATCAGGAAGAGCTAAAGAAGCTTTAG
GACGTGGAGCAAGTATGGCTGGTACATCTACAACTACTGGTGATGGTGGGATGACACCAGAAGAGAGAGGACAGTCTAAA
AATTTAATCTATCAACTTTTACCTTCTAGATATGGAATGAATCCTGATGACCTTAGAAAAGCAGATGCTATTGAAATTGT
TATAGGACAAGGTGCAAAACCAGGTGGTGGTGGAATGTTATTAGGTCAAAAAATTAGTGATCGTGTTGCAGAAATGAGAA
CTTTACCCAAGGGTATAGATCAAAGATCTGCATGTAGACATCCTGACTGGACAGGTCCTGATGACTTAAAGATCAAGATT
TTAGAAATAAGAGAAATTACAGGATGGAAGGTTCCAATATTTATTAAAGTTGCAGGGGCAAGACCATATTATGATACTGC
TCTTGCTGTTAAAGCTGGGGCTGATGTTGTTGTTTTAGATGGAATGCAAGGTGGAACAGCTGCTACTCAAGAAGTATTTA
TAGAAAATGTAGGTCAACCTACTTTAGCATGTATTAGACCTGCCGTAGATGCACTTCAAGATTTAGACCAACATAGAAAA
GTTCAATTAATTATATCTGGTGGAATTAGAAATGGTGCTGATGTTGCTAAGGCAATGGCTCTTGGAGCAGATGCAGTTTC
AATTGGTTCTGCTGCAATGATTGCTTTGGGAGATAATGATCCTAAGTGGGAGAAAGACTATAATAAATTAGGAACTACTG
CAGGAGCTTACGATGATTGGCATGAGGGAAATGACCCAGCAGGAATTACAACTCAAAAACCTGAACTAATGAAACGCTTT
GATCCTATTGCTGGTGGACGACGTTTATCAAATTATTTAAAAGTAATGACACTTGAAGCTCAAACAATAGCTAGAGCTTC
TGGTAAAAATGATTTACATAACTTAGAACCTGAAGATTTATGTGCACTTACAGTTGAATCTGCTGCTATGGCCAGAGTTC
CACTAGCAGGAACTAGCTGGATACCAGGGTTAAAAGATAAAAAATAGTATTGTTAAGATTAATTAACAGTTGTAAATTAA
ATAATAAACATGCCTAAAAATTTATCTAAAATTGCTAAAGCTAAAAAAGATTAAATATTTTTTGATTAGTTTTGTAGATT
TTTTTGGTGTCTTAAGATCAAAATTAGTACCAGCACGAAGCAATTGCAGACATGCAAAAAAATGGTGCAGGTTTTGCTGG
TTTTGCAACTTGGCTAGATATGTCTCCTGCAGATGGAGATATGTTTGCTCTACCAGATCCTGAAAGTTTAATTCAACTAC
CTTGGAATAAAGAAATTGGTTGGTTAGCTTCTGATTTATATATGTATGGTAAACCTGTTAAGGCTTCACCTAGAGTAATG
CTCAAAGAGCAAATTAATAAATTGAATAAAAAAGATTTAGTCATGAAATCAGGTGTAGAGTGTGAATATTTTTTGATATC
AGAAGATGGTAGCAAAATTGCTGATACTAGAGATACTCAATCAAAACCTTGTTATGATCAGTCTGCTTTAATGAGGAGAT
ATGATTTAATTAAAGAAATTTGTGATAGCATGATTACTATGGGTTGGAACCCATACCAAAATGACCATGAGGATGCTAAT
GGACAGTTTGAAATGAATTGGGATTATACATGATTGTTTAACTACAGCTGATAGACATGTATTCTTTAAGTATATGGTTA
AATCATTAGCTGAAAAACATGGTTTAAGAGCAACATTTATGCCAAAACCTTTTAGTAATCTAACAGGTAATGGTTGTCAT
GCTCATATTTCTCTTATGGAATGGAAAAATTAATAAATTTTTAGATAATGGAGATAAATTAGGTTTGAGCAAATTAGCAT
ATAATTTTCTAGGTGGAATTATGAAACTTACTCAGCCTTTAACTGCATTTTTTAATCCAACAATTAATAGTTATAGAAGA
ATAAATGCACCACCAACAAAATCTGGTGCTACATGGTCACCTAGTAGTATTTCTTATACAGGAAACAATAGAACTCATAT
GATAAGAATTCCAGATAAAGGTAGATTTGAATTAAGGTTAATGGATGGAGCAGCTAAATCCTTATTTACTTCAAGCTGGT
AGTAATAGCTGCTGGATTTACATGGAATAAATAATAAAATTAGATCCTGGTGAACCTTTATCTTGTAATATGTACACTGA
TCATAAAAATTACCCTAATCTAAAAAAATTACCTAACGATAATTGAGGATGCATTAGATCAACTAGAAAATAGTAAAGAA
ATTAAGGAAGCATTTGGTAGATGATGCTATTAACAAGCTATCATAAAATTAAAAAGATCTGGAAATTAAAGATTTTAATC
AAAGAAGAAAAATTTGATAAGAAAAGCTCAGTAACTCACTGGGAAAAAAATAGCACTCTTGATTGTTAATAAAAATGAAA
TCAATCCTTCAGAAAGACCTTTGGTCCATTACATCTTTTTTAGAAAATAAAGAGTATAATTTTAATAAAGAAAATATACT
CACTCAATTACCAGAAAAATTTATAGATGAAGCGATATTGGCTATATCTAGTTGGGATAACTACGCTCCTACTCCACTAA
TTAAATTAAACAAATTAAACGATGAATTAAAATTCAAAAATATTTACTACAAGGATGAAGATAAAAGATTTGAACTTAAA
TCATTTAAAGCGTTAGGTGGAGCCTTTGCTGTTTACAAAATTGCAAGTGAAAAAAAGAACATAACAGTTTCGACAGCTAC
AGCAGGAAATCATGGAAGATCAGTTGCATGGGGTGCACAAAGACTAGGTTTAAAATGTAAAATATTTATAAGTGAATTTG
TTAGCGAGTTTAGAGCTGAAGCCATGCGTAATCTGGATGCTGAGGTTATTAGAGTTAAAGGGAATTACGACAATTCATTA
AAGGAATGCATCAAACAATCTAATGCAAATAATTGGGAAATTGTACAAGATGTGTCTTGGGAAGGTTACAAAGAAGTACC
AAAATTGATTATGGCTGGGTACACAATAATGGTTAAAGAAATTTTAGATGAAATAAACTCAAATTCAATAACACACGTAT
TTCTTCAAGCAGGTGTTGGGGGAATGGCAGCGGCAATGATTGCTGGCTTTGCAAAATTATCTAAAAATATCCCAAAGTTT
ATTACTGTTGAGCCAGAAAATGCAGACTGTGTATTTCAAAGCATTAAGAATAATAAACCTACAACTGTTGATATAAAAAA
AGAAACAATAATGGGTGGAATGTCTTGTGGAGATGTTTCAAGTATTGCCTGGGAAATTTTAAAAAATTCTACTAACTACT
GCTTAACCGTACCTGATGAAGCAATCTCAACTACTGTTGCACTGCTAGCAGAAAAACATTTATCTGATGAAAAAATAATA
GCTGGTGAATGTGCTGTGCCAGGTATAATTGCGTTAATAGGCTCATTTAACAATAAAGAATACTTAGATAAGTTAGAGTT
AAATGAACAATCAAATGTACTTTTATTTGGTTGTGAGGGTTTAACTGATAATGCAATGTACCAAAAACTACTAAGCGATG
GATTGCAAAAAATCTAAGTAAATATGACAAAAAAAGCTGTTGTTTGGATAAGAGAAGATTTTAGAATTGAAGATAATGAA
GCCTTAGCTATTGCAACTCAAAATCATGAGTTTGTAAGTGCTCTTTATATTTATAACCCAAAAAATTTTGATAAAAAAAG
AGAAGCTCAAAAATGGTGGATCTCTAAAGCTTTAGAAAATTTTAACCTAGATCTAAAAAAGTTAAATATTACATTGGAAG
TTCAATTAGGTGATGAACTAGAGATATTGTCAAATTTAAAGAAGAAAGATGATGTTACTGTTTATTGGAGTAAAGTATAT
GAACCAGATGTAATTAATAAAGGTAAAAAAATAAGAGATCAATTCATTAAAAATGAAATTCAATATAAATATTTTAAAGG
AAATATTCTTGTAGAGTTTCAGGAAATGACTAAAGATGATGGCACACCTTATAAAGTATTCACTCCTTTTTGGAAAAAAA
CTGAGCAACTTTATATCTCAAAAATACCTTCTAAATTTATAAAAGTTAAATCAAAAGTAAAAAAAATAAATATATTTAAA
AAATCAATTTCTATAAAAGAAATTTTACCTAAAAAAGATTGGCATAAGAAATTTGAGAAATATTGGATACCATCTGAACA
AGAAGCTAAAAAATATTTACAAGAATTAATAAATAATAGAATTGAGGGCTACGGTGAAGCACGAGATATTCCAGGTGTTA
ATGGAACCTCCAAGTTATCTCCTTTCTTAAAATTTGGCCAAATACATGTGGAGACAATTTGGAAGAAATGCCAAGACATT
AAAATTAAAAAAATGGGATATAGAAAGTATATTAATGAATTAGGATGGAGAGAGTTTTCTCATAGTTTAATTAATTACTT
CCCACAAATGCTAAAAGGCAACCTTAGAAAAGATTTTGATAATTTTCCTTGGGTTAAAAATGAGAAGTTTCTTAAAGCTT
GGAAAACAGGTATGACAGGATATCCCATTGTTGATGCTGGGATGAGAGAACTGTACGAAACAGGATGGATGCACAATAGG
GTAAGAATGATTGTTGCTTCATTTCTTGTAAAGCATTTAAGAATTCATTGGAACGAGGGTGAAAAACATTTTAAAAATTG
TTTGGTTGATTATAATGAAGCTAGTAACGTTGCCCAATGGCAATGGGTTGCAGGCTGTGGTGCCGATGCAGCTCCTTATT
TTAGAATATTTAACCCTATTCTTCAGGGTGAAAAATTTGACAAAGATGGAATTTATACAAAGAAATGGGTTCCAGAACTT
AAAAACATGCCTAATAAATTTTTATATAAACCATGGGAACTAGAAAACAAATACCAAGAGCAGATTAAAGTTATTGTAGG
TGTCAGATTATCCAAAACCAATTGTAGACCACGCTGAAGCAAGAAATGCTGCATTAGACGCTTTTAAAACAATTAAGAAA
AGCTAATCACCTAAATAATGAAGAACAATCAATCTGTTTTGTTTCTCAATTCTATGCTCAAAAAGATATAACCCCTGCCA
AGTTCCAAGTAATAACTCATTAGTTTTTAACACTCAAAGAGATTTGATTATTAGTTAACGCGGACTTAATGTGTGCAGGC
ATGTCATCTTTTCCTTCAGCTGTATGGATATAAAGGGAATTATCCATTGGCACGAGCTTATTAAAAAAATTTATTAAGTC
AGTTTGAACATCTGGGTCAGCATTCTCTTGAATTATTAATGAAGCACTAGTGTGTTGAATGCTTATATTGATAATTCCAT
TATTAAACTCATTATCACTAACCCATTGATTTGTTTGGTTGGTAAATTCATAAAGACTTCTGTCCATTTGTATTCAATTC
TAAATTAAAAAATTCTTGTCTCATAGCTTGTTATATTTGATAGATGTTAATTCATATAATCGACTAATAGTTCTTTTAAA
TATTTTTTTTAAATCCTCTGAGGAACTTAATAAATCTAATTGTAATTGAGATGATATCATTAAAGGTATATTTTTTTCAT
AAAGAATATCAATTAGTGTAATAAATCTTTGTTGTTGATTAGAATTATCAATATTAAAGATAGGAATATTTTCTATAACA
ATAAAATTACACACTTCAGCTATTTTTATATAATCCTCTGCTCCAATATTTTTAGAACATAATTCTTTAAAATCAAAACG
TGCTATTCCATTAAAATAATTCTTAATAATAAACTTTCTACCTTTAATAATTAAGGTCATTTCTTTGTTAGGATAGATTT
TTTGTTATTTTTCTAAAAAACTTATTAAGTTTAAAATTTATTGTTTCATTTAATGGAAAAAAATATCTTTCATTTTTATT
TTTCAAAGATTTTCTATAGTCTTCTTCAATAATTAACTTTGCTTGAAAACATCTTTCTTTCATTATTTTAATAAAGGGAA
GAAATTGATCTCGTTGCAATCCATCTTTGTAAAGATCATTTAATTTAGCATTTGATGTAAATAAAACTTTTATATTCTCA
TCAAATATTTTTTTGAATAAGCTACCCAAAATCATAGCATCTACAATGTTGGTGACCTGAAACTCATCAAAATAAATTAA
CTTAGATTTACTTTTTAATTTTTTAACAAATTTATCTATAATATTTTCTTGGTTATTTTCTTTATTTTTAAAAACAAAAT
CATGAAAACTAATCATAAACTCATTAAAGTGAAATCTTTGTTTAGTTTTATCAAAATTATTATAAAAAAAATTCAATATC
ATGGTTTTACCCACACCCACATCGCCCTGTAAATAAAATCCTGTTTTAGAATTCTGTTTAGTAAATATTTTTTTTAAAAG
TGATTTATTGAAGTTCTGATTGTAAAATAAATTCAGCTCTTCTATTAAGTCTAGTTGATTGGGATTAATTTCTAAATTAT
TTTTTTTACAATAATTTAGAAATGATTTATTTAAATTCATTTTTTTGTTTTAAAATCTATACCATACTCTGACCTAGGCC
CTTTTCTTAATCCAAAGGGTCCAGATATAAACAGTGTAAGAGGTTTTGTTCCTGGTTTAAGATCAACTCTATGCAAATTG
TTTGCTGACCTAAAACCAATATATCCAGCTGGTCGCCAAAATCTTCCAGAACTTAATGTTTCCCAATAACCTCCTCTTAA
TATGATAGTTATATATGGAAATGTATGGTTATGAACACCTTCCCCATGATCATCAGCTAACATTTCATGTAATAGAATAT
TAAATGGAAACCATTTTGGCCTATGTCTTAATAAGACATAATATCTATTCATCCAAGGTTTGGCTTCGTTGAATTTGGGG
TGAGAAGGTCCTCGATCTAAAACAACTTTTTTTCTTCCTAATTTATCAAGTAACTTAAGAAGCATTACTAATTAAATTTA
ATAATAGAACCATTGCTTATTAAAAAAAGATTATTTTCATTTATAAAGGGCTGTAAAATTTTGCCTCCTGAGATTTTTAC
TACATTCAAGATATTACCTTCGTTACTATTTACAATAATTAATTTTCCATCACTATTAGTTAAGTATATTTTATTCAAAG
CTATAAAAAAACCTGTTGGTTTTATCTGTTTTCTTTTTTTATCTTTATAATCTTTAAATAAATCATTAATTCTGATTATA
TTTCCTGATTTTTTATCAACTACATATAAATATCCTTTTTCAGATATAGTTATTACAAGGTTGCCAATAACGACAGGTTT
AAGGTCTGAACTAATTTCAGTTTTCCAATTAATTAATCCTGTTGCAGTATCAATAGAGTAAAATTCATTTTTATTATTAG
AAAAGAATATTGTATTTTCATTGATCACCAATTCTGAATTTGATAATTGAAATGCATTTTGACTAATATTGTTATTTTGT
GTGGGTAGCTGCCAAACAAGTTGGCCAGATTTTATATCTACAGCTGTGATATCTCCAATAGAATTATTAAAATAAATATT
TTTTTTATCAAGAGCAATGGATATCTTTGTATTTGATTTTGTTAAAGATTCTTCAGTCTTTAAATTCCATATTTCTGATC
CATCTTGTATTGATATTGATCTTAGAATATTTTTATAATCTACTACATAAAAAACATCGTCTTTAATTTTAATGTTAGAG
TTAAAAGGAACTATATTTGTTTTTGTCCATAATAGTTCACCTGTATCAATATTAATTGCATAATATTTTGCCACATCATC
TGTTACAATTAATATATTATTTTTTACTGCAAAATTTAATCTTGGTTTAATTTTCTTTTCACTTTTATTGTAAAAGTTAT
TTTTCCATAGTATTTTTTGGTTTTCATCATAAAAAGTTATTGCACCCTTATTGTCATAAAAAACTAAATTTTTATTATAA
AATAAAGGATTAGGATTTATAAAATCAAAATCATTAAATTTAGAAAAATTATATTTTCCAATTTTTTCTAAGACACCCTC
ATAAGCTAGCTCACCCGTATCATTTTGATTATTCAAGCTATTTTGATTAAACTTTCCATTAGATATTTTAACGTAAAGAT
TTGAATTAAACTCTTCTTCCAGTCTTACTTGTTTAGTTAAAATAGTTTTAGTATTTTCGATTTGGTGCTTGATCTTTGTC
ATCTTTATCCCAAAAACCTACTTTTTTACTTGCTGAACAGTTGTTTAAGATTAAGAAAGATTAAGACTGATAATAGTACT
TTATTCACCAAGATCTCTATTTAGTCTCTTTTGTGACTCAGTTTTAATTGTGCTGTTAGCATTAGGTAAAACTAAAATCT
GGTTAAAAAACTCTTTAGCTTTTTGTTTTTCATCTTTTGAGTAAAAAAATTCTGCCAGTAAATATAATGCGTGGGATTTC
CAAATACTTTCAGAATTAATCACTGGATTAAGTATTTTTAATAATTCATTTTCACTTACAAAGTCTGAATTAAATAATGC
TTTTTTATATATAATTAAATTCTTGATTTCATTTTCAAGGTTTGTTTTTTCAATCAATTCATTAAATAAGATATTTATCT
CTTCATTATTCTCTAATAAATTATTGTCTAACAAATGGTATAAGGCTAGTGGAGAATATGTTGCATCATTACTTTTTACA
ACGTTGACCATTTCATTAATTGTTTTTTGTTTATTATCTGGATTAAGATCTATTAAAGCTAAGTTATATTGATTTGCTAA
TTTAATTTTGGTTCTTTCTTTAGATTTTTCAAATGAAAGATACCCAATTATAATTACTAATATTATTGAGACAGTTATTA
TAAGTTTTTTTTTATTATTTATAAAAAAATTCTTTATTCTTTCATTTCTTGTGTTTGAATCTATGATTGTAATTTCTTCG
TCCATTTTTATATCATATTCCTTAATACATATTGAAGTATTCCACCATTTTTATAATACTCTAATTCGTTTTTAGTGTCT
ATTCTACATAGAGTTTTAATTTTTTTAATATCTCCAGAGGCATATTTTATTTCAACCTGAACATGATCTGATGCATTTAT
ACCCTCTTCTATTTGAAGAACGGTTATTAACTCTGATCCAATTAATTTTAAGTTTATCCTATCGTTTCCTTCAGTAAATT
GAAGTGGTAAAACGCCCATTCCAATTAAATTAGATCTATGAATTCTTTCAAAGCTTTCTGCTATTACAACTTTTACACCT
AATAACTTTGTTCCTTTGGCAGCCCAATCTCTTGACGATCCTGTTCCATATTCTTTTCCACCTATAACAGCAAGGTCTGT
TCCTCTTTTTTTATATTCCTCTACAGCATTATAAACTGGCATCACTTTTTCTTCTGGATAAAGTTTTGTAAACCCACCCT
CTGTTCCAGGCGCCATTTCATTTCTTATTCTAATATTTGCAAAAGTTCCTCTCATCATTACTTCATGATTGCCTCTTCTT
GATCCATAGGAGTTATAATCTGCTGGAAGTATTTGATGTTCCATAAAATACTCACCTGTTGGGCTTTCTTTTTGAATATT
TCCTGCTGGAGAAATATGATCAGTTGTAACCATGTCTCCTAAAATCAAAAGTGGTCTTGCATCTTTAATGGGCTTAAATC
CCTCTGGTTGATCTGGTAAATTTTCAAAGAATGGTGGTTTCTTTACATAAGTTGAACCAGAATCCCAATTGTAAATACTT
GTATTTTCAGTTTTAATTTCTTGCCACTGCTTAGGGCCCTCTGAAATATTTGAATACCTTTTAACAAACATCTCTGCGTT
AAGAGACTCCCTTAATGTGTCTTCAATTTCTTTATTTGATGGCCAAATATCTTTTAAAAATATATCCTTACCATCTTTGC
TTTTTCCTAAAGGTTCCTTGTATAAATCAAATTCCATATGACCAGCAAGTGCATAAGCTACTACAAGTGGCGGTGAAGCT
AAATAATTAGCTTTTATATGTGGAGATATTCTTCCTTCAAAATTTCTATTTCCTGATAAAACTGATACAGCGTAGATGTT
TTCCTTGTCTATGGCTTGAACAATTTCTTCCGGTAAAGGTCCTGAGTTTCCTATACAAGTTGTGCAACCATATCCAACCA
AATTAAAACCAAGTTTATCTAAAAATACATTTAGTCCTGCTTTTGCTAAATAGTCGGTAACCACTTGTGAGCCTGGTGCT
AATGATGTTTTTACCCATGGTTTAGTTTGTAAACCAAGTTCAACTGCTTTTTTTGCTAATAATCCAGCTCCAATTAATAC
ATTTGGATTAGATGTATTAGTACATGAAGTGATAGCTGCAATTAATATTGAACCATCTTTAATTTCATAATCTGTTCCTG
ATACTTTTGAAACATGTTGCTCTTTTCTACTAGTAGCATCCTCAAAAACTTTTTTAAATCCAGTAGATGCATCTGTTAAT
AAAACTTTATCCTGAGGTCTCTTAGGTCCTGAAATAGTTGGAACAACTGTAGACATGTCTAATGATAAAGTATCTGTAAA
TTCAACTTGATCATTAGCCCACAAACCTTGTTCTTTTGCATACTTCTCAACTATATTAACTGTATTCTCATCTCTTCCTG
AAAATCTTAAGTATTTTAATGTCTCTTCATCAATTGGAAAGAAGCCACATGTTGCTCCATATTCTGGTGCCATATTCGCA
ATTGTTGCTCTATCAGCAAGAGTTAAATTCTTTAAACCTTCTCCATAAAATTCAACAAATTTTCCAACAACCCCTTTATC
TCTTAACATTTTTACAACTGTTAAAACTAAATCTGTTGCAGTAGTGCCTTCTGGCATTTTATTTGTTAACTTCAAATCCA
ATTACTTCAGGAATTAACATTGAAATTGGTTGGCCTAACATTCCAGCTTCAGCTTCAATTCCACCAACACCCCATCCAAG
AACAGATAATCCATTAACCATGGTAGTATGACTATCAGTACCAACTAAGGTGTCAGGAAATAAATAGTCCTCATTTTGAA
ATTTTTCAGACCAGACTACTTTTGATAAATATTCTAAATTAACTTGGTGACAAATCCCAGTTCCAGGAGGAACAATTCTA
AAGTTATTAAATGCTTGTTGACCCCATTTTAAAAAAGAATATCTCTCACCATTTCTTTTAAATTCAATATCAACATTTTT
TTCAAATGAGTCTTTATTTGCTGATTTATCTACCTGTACAGAATGATCAATAACTAGATCAACTGCAGAAAGTGGATTGA
TTGTATTTGGATCTTTATTTTTTTCTTTAACCGCTTCTCTCATAGCCGCAAGATCAGCTACCGCTGGTATTCCTGTGTAA
TCCTGTAACAAAACTCTAGCTGGTCTATAAGCTATTTCAGTTAATGATTTTTTTGTCTTCAACCATTCCTTAATTGCTTC
TATTTGGCTTTTGGTAACAGATAAATCATCTTCATATCTTAATAAATTTTCTAATAAGACTTTAAGAGATTTTGGAAGTT
TTGAAATTCCATCCAAACCATTTTTTTCTGCTTCTGATAAGGAATAATATTTGTACTCAGTATCATTTATACTGATAGAT
TTTAATGAATTATATGAATTTTTATTTCCTGGTTTCATTTAGTTTTAGATGTAGAACCCTATTATACAAACGATAAGTAG
CAATGACATAGCATAATTAAATCGTTTAATAAAATTATTATTTGTAGCAAATTTCCTTAAAAACTTACCTAAAAATGTCC
ACGAAGTGATACTTAAAAATGCTGTTACACTACAAACTACAATTACCCAAATAGAGTGATTCAAGTAGTTTTCCCCTTGT
TCTACAAAATTTGAACTCAATGTAATTCCAGCCATTACTCCTTTTGGATTTATAAATTGAAAGATAAATTTATCAAAAAA
CTTTACTGGATTTTCTGTTTTCCCATCTGAAGAAATTTTTGAAAATGAAATTTTATAAGCTAGATAAATTAAAAAAATTG
TTCCAAGAACTCTGATAATTTCCTGAATGATTGGGTAATTTTTGAAAGTTGATATTAAAACAAAATTAATTAATATAATT
AAAGTTGTATAACCAAAGCCAACTCCTAAAATTAATGGTAAAGTTTTTCTGATACCAAAATTAAAACCTGAATATGCAGC
AACAGCATTATTTGGTCCTGGTGTAAATCCCAATGATAGAGAAATTCCTATTAATAATAATAATTCTGGATGCATAAAAA
AATTAAGCTATTGGAAGACCGTTTTCAGATTCTTGAGATGGATGAACTAATATAACTTTTCCTTCTTTATCAATTGAACC
TAAAATAAGAACCTGTGAAACTATTCCTGCAATATTTTTCTCAGGAAAATTACAAATTCCCACAACTTGTTTTCCTTTTA
AATTTTCCTCATTATAATAATGGGTAATTTGTGCTGAAGACTGCTTAATTCCAATTTCTTTACCAAAATCTACTTCAATA
ACTAAAGAAGGTTTACGCGCTTTTTCATTTTTTTTTACAGATATTACAGTTCCAACTCTAACATCTACTTTATCAAAGTC
ATCATAGGTAATTTGTTCTTTCATATATTTAATATATAATGGTTGATAAATATGAGTACAGAAAATAATTCAGAGCTATT
GTATGATAATTCAGTTCAAATTTTAAAGGACTTAATAGCTTTTAAAACTATTTCAGGAGAAGATAATAGCTCATTAATTG
ATTATTGTGATGATATCTTAAAAAAGTTAGGTGCTACTTCTTTTAGAACTTATGATGATGAAAAAAAAAGAGTAAATTTA
TTTGCTACACTAAAAGCTAAAAATTCAAATAATAAGAAGCCAATTATTTTATCAGGTCACACTGATGTTGTTCCTGTGTC
AAAGGGTTGGAGTTCTGATCCTTTTACTGCAACTATTAAAGGTGATAAATTATATGGGAGAGGTTCATGTGACATGAAAG
GTTTTATTGCTTGTGCTTTAGCTTATGCACCTGTTTATTCTAAATCAAATTTAGATAGAGACATTCATTTTTCATTTACA
TTCGATGAAGAAACGGCATGTCAGGGTGCACCTATACTAATAGAGGAATTAAAAAAAAGAGATATTAAGGATGGTATTTG
TATTATTGGTGAACCAACTAATATGAAAATTATTGATGCTCATAAGGGATGTTATGAATACACAACTTATTTTAAAGGTT
TAGCGGGACATAGTTCGGCACCTCATAAAGGTGTAAGTGCTGTTGAATATGCATCACGATATGTAAATAAATTAATTGAA
CTTAGAGAGAAACTTAAAAGTAGAGCACCTAAAGACTCTATTTTTGACCCACCTCACTCTACCCTTTCTATTGGTGGTGT
GTTTGGTGGTATTGCTCACAATGTAATAGCAGACAAATGTCATGTTAATTGGGAAACACGACCAGTTGTTAAAGAAGATG
GTGTATTTTTAAATCAAGAAATTGATAAGTATGCAAATGAAGTGTTATTACCTGAAATGAAAAAGGTTTTTCCTAATGCC
TCAATTGAAAAAGATATTATTGGTGAAATAGTTGGGTTTGATAGAGAAGATAAGTCAGATGCTTGTGAATTAATTTCAAG
TTTGACAGGTGATAATTCTAGACAAGTTGTTTCATTTGGAACTGAAGCAGGCTTATTTCAAGAAATTGGGATTAGTACAG
TGGTCTGTGGTCCAGGATCAATTGATCAAGCTCATAAAATTGATGAGTTCATTGTTTTAGATGAACTTAAAAAAATGTTT
AAACTTGCTTGATGGCATCAAAGTAGAGTCTGTTTCAAATTAATAAATTGTTAAACAATACAAAGTAAATTATAATTTTT
TATGTCTAAAAAAAATCCAAGAGATATGATTGGGTATGGCTCCAAAGATCAAAAAATTAAATGGCCTAATAATGCACGTA
TTGCTGTTCAAATAGTTTTAAATTATGAAGAAGGTGCTGAAAATTGTGTTTTAAATGGTGATAATAACTCAGAAGTTTTC
TTATCAGAAATCATTGGTGCTCAGCCTGTAAAAGGTAGACATATAAATATGGAGTCTCTTTATGAGTATGGTTCAAGAGC
AGGATTTTGGAGATTACATAAACTATTTCAAGAAAAGAAAATTCCAATAACAGTTTTCGGAGTAGGTATGGCTTTAGAGA
AAAATCCTGAAGTTTGTAAAGCTATAATAGAAGCTAATTATGAGGTTGCTTGTCATGGGTGGAGATGGATTGACTATCAA
AATATTAAAAAAACAGAAGAAAAAAAACATATGAAGCTTGCTATTCAAGCTCATACAAAAATTTTTGGAAACAGACCTGA
TGGTTGGTATACAGGTAGATGTAGCCCTAATACTAGAGACCTAGTTATGGAAGATGGTGGTTTTTTATATGATAGTGACT
CGTATAGTGATGACTTACCATACTGGGAAACTAGAAATAAGAAAAAACAATTAATTATTCCTTATACTTTAGATAACAAC
GATATGCGATTTGCAACCAATCAAGGGTTTAATACAGGTGATCATTTTTTTTCTTATCTAAAAGATAGCTTTGATGTTTT
ATACGAGGAAGGAAAAACAAACCCCAAGATGATGTCAGTAGGATTACACTGTAGATTAATTGGAAAACCTGGTAGAATTC
AATCTTTAAAGAAATTTCTAGATTATATTCTTAAACATGAAGATGTGTGGATATGTAAGAGAATTGATATAGCCAAACAT
TGGATTAAAAACTATTCTAAATAATGTCAAAAAAAATTATTTTTACAAATGGTCTTATTGATTTAGCTCAACCTAGATTG
GGCACTAAGGTTATATTTAAAACTGATGACTTTTTTGCTTCAGCTAATAGAATTATTAATCCCTTGCCAGCAATTTTTAA
AGATGGATTGTTTGATAAAAATGGTAAATGGATGGATGGATGGGAGTTTAGAAGAAAAAGAACTAAAGGGCATGATTACA
TAATTTTAAAATTAGGAAAACCTGGTTCTATTAAAAAAGTTGATGTTGATACATCGCACTTTAATGGAAACCAGCCAGCA
ATGATTTCTATTGAAGGAACAAACTCAAGTTCAAATAAAATAAGTCAATTAAAGTGGGAACCATTACTTTCTAAGAAAAA
AACTAGAGCAAATAGCCATCACTTCTTTACTATAAATAGTAAAAAAAAATATTACACATATAAAATTTAATATTTTTCCA
GATGGTGGGGTTGCTCGATTGAGATTATTTGGCTCAATTGCTAAATCTAATAAATTAAAAAATAAGAAAACAAATCTTGC
ATCACTATTAGATGGTGCTTCTGTTATTGCTTGCAACAATGAGCACTTTGGTAAAGCTGAAAATATTTTAGCCCCAGGTA
AAGCTAAAAATATGGGAGATGGATGGGAAACAAGGAGAAGACGTGGCCCAGGATTTGATTGGTTAATATTAAATTCTTTA
GATGGAAAAGAAATTGATAAAATTGAAATTTCTACTCATCATTTTAAAGGTAACTTTCCTAGCCATTGTTCATTACAAGC
TGCTTATTTGCCAACAATAAAAAGCTCTAAACAAATTGTAAATTCTTCAATCAAATGGAAGTATCTATTAAAAGATGCAA
AATTATCCTCTAATAAAGTACATATTTTTAAAAATAATCTAATGAAAAAAGATAAAATTAATTTTATAAAAATTAATATT
TTTCCAGATGGTGGGATATCTCGATTTAGAATTTATGGAAAAAATGTATGACCAACTTAGTGATCAAACCTAAGCCTATT
AATAAAGAAAATTTTAAAAAGTTTGGAGATATGATCACAACAGATGATATTAAACCTATTAGAAATTAATGATGGTTATG
CAAAACGATATGATGGAATAGCTAACCTAGATGCTAAAGAAAGATGATGGAGAATCTACTAATTAGTATTTTTTCTGCTT
TAAAAAGATCTTTTCCTATGAAAGTTGATATGATGGAAAAACATCCACTTGGAAGCCAAGCCTTTATCCCAATGAAAGAA
ACTACTTTTTTAGCTTTTGTTGCTCCTGAAGGTGATAAGCCTGATTTAAATAAAGTAGAGGCTTTTATTATTCCAAAAGG
AATTGGTGTTAATTATAATGCTGGAATTTGGCATTTTCCTTTAATTGCAACTGAAGATATGAATTTTTTAGTAGTTGATA
GAAAAGGTGAAGGTGACAATCTTAGTTCTTCATGATTTAGATAAAGAAAATATCACTTTAGAATTTTAAGCATAAAAAAA
GCCCACCAATAAATTGATGGGCTTTTAGTTATAAACTTTATTTATCTTTTAGATATAGCTAAGTGAACTACAGCACCTAA
TGATGCTCCAATTATCCAAGCATATCCTCCACCACCACCTAAGTTAGCAAAGAAATCATCTAAACCTAAAAATAAGATGT
TTGGCCATACAGATCCTACAGCAATATAACCTGAAATAATCCAAGCTATCATTCCTTTGTAATTAAAACCACCATTGTAA
TGATACTTAGCATTTGGACTATGCATCAAACAAATGCGTCTACATCAATTTTTTCTTTTTTGATAATGTAGTAATCAACC
ATCATGATACCAAATACAGGTGCAAGAATTGCTCCTAAAGTATTAACAAATGGAAATAAACCCATTTGAGTAATAACAGC
AACCCACATACCACCAATAATAAAACCAAAACCAGCTGTGATTAATCCACCAGTTTTAAAGTTAATTTTACTTGGCATTA
AATTGGCTAAGTCATACGCAGGAGGTATAAAGTTTGCAACCATATTGATTCCAACTGTCGCTGCAAAAAATGCAAATGCA
GCAATAATTGTTAAACCTAAGTTGTCTACTTTAGCAACCATCTCTGTTGGACTTGATACATATTCACCAAAAATTGCGAT
TGTTCCACCAGTAATCATTAAAGTAATGAAAGAGAATAAAATTACGTTTCCTACTAATCCCCATAGGTTACCTTTTCTCA
TTTCATCTTCATTTTTAACAAATCTAGCGAAAGTCACCAAAGTTAATTACAACTGCAGCAAAGTATCCAACCATAATTGA
AAATACAGCTATGAAAGCTCCTATTGTTCCTAGACCTTCAAAGCCACCAGTTCGTTCTCCACCAGAAAATATAGTTCCTA
CTTCTGAAAAAAGTCCTCCACCTGCTTTAACCCAAATAACGATCATTAAAAAAATCATTACTGCATAAACTGCTGGTCCT
GCAAAGTTTAAAAACTTTTTGATAAGATCTACACCTTGCCAAAATAGATAAACTTGGAATGCTGATACAAATATGAAAGA
AACCCACATTACACCTGTCATACCAAGAAGCATAACTTCACCTTCCATTCCTGTAACACCAGTAATTAAAAGTGCTACTG
CAGTTGATGCAGCATAAGTTTGTGCTCCATACCAAAACATTGCAACAAGACCTCTAGCCATTGCTGGAAAGTTTGCTCCA
AATACACCCATACTTACACGAGCAAATACTGGATATGGTATTCCATGTTTTACACTTGGTTTACCTGAAAGATTGACTAG
CCACATTATAAAAAATCCTGCAAGAATTAATGCAGCAAATACAGCCCAACCATTTAGTCCTGATGCTAAAAATAATGATG
CTGCCAAAGTATAACCAAATAAACTTTGAACATCATTAGCCCACACGTTAAAGATTTCGAACCATCCCCAATTTTTTTTA
TTACTTGGAGTTGGAGCTAAATCTGAATTGTAGAGTTTTGACGATCTACTCATATTATTTCTCCC

So, the region is on the negative strand, so I first slice the sequence to seq[3259: 3262] obtain TCT, whose complement is then AGA for region 1. Region 2 I get AT.

@ArtRand
Copy link
Contributor

ArtRand commented Oct 21, 2024

Hello @Ge0rges,

Could you send me an IGV shot of "Region 2" (contig_60201:3680-3682)? Looks like you're getting 4mC calls there, it's possible that you have A->C transversions there, but you shouldn't get 4mC calls on adenine bases. Is it possible that this bedMethyl is a concatenation of more than a single run? Edit: re-read the issue and you mentioned that this is a concatenation. So multiple entries for the same position is expected. But having such consistent A->C is unusual. IGV should help figure it out.

Maybe email me a modBAM of the reads that align to that region so I can check the tags (modkit summary ${bam} --region contig_60201:3680-3682 would also tell you).

@ArtRand ArtRand added the troubleshooting workflow and data preparation questions label Oct 21, 2024
@Ge0rges
Copy link
Author

Ge0rges commented Oct 21, 2024

Oh, great idea to use IGV. I kept worrying my code to look at the sequence might be wrong. Here's a screenshot.
Screenshot 2024-10-21 at 08 14 23

I'm regenerating the modems (I usually keep just the pileup) and will get back to you with the summary (and/or can email it to you if more helpful).

Edit: I will note that IGV shows the first nucleotide on position 1.

@Ge0rges
Copy link
Author

Ge0rges commented Oct 21, 2024

Here's the summary. Ranmodkit summary ${bam} --region contig_60201:3680-3682 on all my modbams.
summary.txt

@ArtRand
Copy link
Contributor

ArtRand commented Oct 21, 2024

@Ge0rges

Thanks. The summaries look fine, you're not getting 4mC on A bases in the tags. My current hypothesis is that you have a lot of reads with cytosines mapping to a reference adenine and bringing along the 4mC call.

For the IGV shot, could you add the modBAM of alignments?

@Ge0rges
Copy link
Author

Ge0rges commented Oct 21, 2024

Here it is. Looks like perhaps this is more of an issue with my assembly than modkit?
IGV.pdf

@ArtRand
Copy link
Contributor

ArtRand commented Oct 21, 2024

@Ge0rges

Looks like there is a pretty consistent T->G (reverse mapped A->C) transversion there. You have a couple more in this screen shot. That's actually pretty interesting. Have you tried polishing the assembly with medaka's new --bacteria option? My guess is there's a MTase in there producing a consistent sequencing error. Try coloring them by strand, a strand-biased error is usually a strong indicator.

@Ge0rges
Copy link
Author

Ge0rges commented Oct 21, 2024

I have not tried the new polisher. Not against trying it. I can't really tell if the error is strand-biased, maybe a little?
IGV.pdf

Do you have any understanding of how the polishing performs in these methylated cases? I could run this one through the polisher as a test.

@ArtRand
Copy link
Contributor

ArtRand commented Oct 21, 2024

Yeah, I agree, it's not completely strand-biased but that doesn't mean it's not a methylation-induced error. The new medaka model is designed to fix cases where methylation causes errors, it's pretty quick - so it might be worth a shot. Plus you could look back at this position and see if the assembly changes.

@Ge0rges
Copy link
Author

Ge0rges commented Oct 21, 2024

Alright, I'm running it. So if I'm following you, the modkit output assuming this reference is correct?

@ArtRand
Copy link
Contributor

ArtRand commented Oct 22, 2024

Correct. You'll have to re-align the reads to the polished assembly (I think medaka might do this for you). Then use those alignments in modkit. But first I'd just look at this region on IGV and see if the assembly has changed.

@Ge0rges
Copy link
Author

Ge0rges commented Oct 22, 2024

So modkit doesn't strictly require the reference to have a compatible base then? I'm trying to understand how to interpret this output while I wait for the medaka result.

@ArtRand
Copy link
Contributor

ArtRand commented Oct 22, 2024

So modkit doesn't strictly require the reference to have a compatible base then?

As you've seen modkit pileup (default) reports all genomic positions with a modified base passing the threshold, even if the reference base is not compatible with the modification (i.e when there is a mismatch). A couple things could happen, the polished assembly may have a compatible base (e.g. a C) where there was previously an A>C mismatch. The polished assembly may change enough in the local region such that the reads align differently as well. Although in the screen shot you've sent - this doesn't seem overly likely.

@Ge0rges
Copy link
Author

Ge0rges commented Oct 22, 2024

Got it. So if I had continue this analysis with the current assembly, a simplification would be to pass a filter over the pileup to enforce the modification/base to match. I'm interested to see how Medaka performs! It might take 48h still as I don't have a GPU to run it on. Will keep you posted here.

@ArtRand
Copy link
Contributor

ArtRand commented Oct 22, 2024

Sounds good. I've considered adding an argument to pileup that would require a read base to match the reference. I've been reluctant because there could be some sharp edges. You may never have discovered this otherwise... Maybe adding a column that indicates when the reported modification is a mismatch.

@Ge0rges
Copy link
Author

Ge0rges commented Oct 22, 2024

Yeah I definitely don't think it should be a default. That column might be a good in-between. For the longest time I was doing analyses that weren't sequence aware, which is why I only recently found this (I started looking at methylation around start codons).

@ArtRand ArtRand added question Looking for clarification on inputs and/or outputs and removed troubleshooting workflow and data preparation questions labels Oct 22, 2024
@Ge0rges
Copy link
Author

Ge0rges commented Nov 8, 2024

Still working on this but short update in the meantime. Here's the a histogram of data points at each positions around start codons in my dataset.

The top plot shows a sudden drop off in data points on the start codon. The only filtering I've done on top of default modkit pileup here is that Nvalid_cov should be greater than or equal to 5.

I'm wondering if this might be due to the same problem seen above with the transversions. I've since run medaka on the metagenome and then recurated the MAGS, modkit is now running on it so we should see whether it made a difference soon.

Screenshot 2024-11-08 at 15 15 21

The data is from every gene in my genome, and the bottom plot just shows the nucleotide frequency in the assembly at those positions.

@Ge0rges
Copy link
Author

Ge0rges commented Nov 11, 2024

So after running medaka, it looks like at least at the position considered above there was no change.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
question Looking for clarification on inputs and/or outputs
Projects
None yet
Development

No branches or pull requests

2 participants