feat: add script to get organisms and genomes from ncbi api (#159) #160

hunterckx · 2024-11-07T04:28:08Z

No description provided.

hunterckx · 2024-11-07T04:29:13Z

files/build-genomes-files-from-ncbi.py

+    "taxon": genome_info["organism"]["organism_name"],
+    "taxonomyId": genome_info["organism"]["tax_id"],
+    "accession": genome_info["accession"],
+    "isRef": (not (refseq_category is None)) and ("reference" in refseq_category),


Is there a more appropriate way to derive isRef?

hunterckx · 2024-11-07T06:11:44Z

files/build-genomes-files-from-ncbi.py

+  assemblies_df = pd.DataFrame(requests.get(ASSEMBLIES_URL).json()["data"])[["ucscBrowser", "genBank", "refSeq"]]
+
+  gen_bank_merge_df = genomes_source_df.merge(assemblies_df, how="left", left_on="pairedAccession", right_on="genBank")
+  ref_seq_merge_df = genomes_source_df.merge(assemblies_df, how="left", left_on="accession", right_on="refSeq")


Do pairedAccession/genBank and accession/refSeq actually correspond like this? Do we need to be using both pairs?

hunterckx commented Nov 7, 2024

View reviewed changes

hunterckx marked this pull request as ready for review November 8, 2024 23:11

hunterckx added 4 commits November 15, 2024 16:03

feat: add script to get genomes from ncbi api (#159)

b0e23c9

feat: add ucsc browser url to genomes built from ncbi (#159)

9acf716

feat: export organism list from ncbi api (#159)

c731871

docs: add build-files-from-ncbi to readme (#159)

eb0d485

hunterckx force-pushed the hunter/159-genomes-from-ncbi-api branch from 27112d0 to eb0d485 Compare November 16, 2024 00:03

hunterckx added 2 commits November 15, 2024 16:09

refactor: make isRef calculation more specfic (#159)

6e36129

feat: derive taxon list and custom tags from spreadsheet (#159)

cd14339

hunterckx changed the title ~~feat: add script to get genomes from ncbi api (#159)~~ feat: add script to get organisms and genomes from ncbi api (#159) Nov 16, 2024

NoopDog self-requested a review November 16, 2024 01:03

NoopDog approved these changes Nov 16, 2024

View reviewed changes

NoopDog merged commit 61413a2 into main Nov 16, 2024
1 check passed

NoopDog deleted the hunter/159-genomes-from-ncbi-api branch November 16, 2024 01:04

github-actions bot mentioned this pull request Nov 16, 2024

chore(main): release 0.1.0 #173

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

feat: add script to get organisms and genomes from ncbi api (#159) #160

feat: add script to get organisms and genomes from ncbi api (#159) #160

hunterckx commented Nov 7, 2024

hunterckx Nov 7, 2024

hunterckx Nov 7, 2024

feat: add script to get organisms and genomes from ncbi api (#159) #160

feat: add script to get organisms and genomes from ncbi api (#159) #160

Conversation

hunterckx commented Nov 7, 2024

hunterckx Nov 7, 2024

Choose a reason for hiding this comment

hunterckx Nov 7, 2024

Choose a reason for hiding this comment