<meta charset="utf-8"><div>I&#39;ve been wanting to get the open source community more involved with some of the problems that we&#39;re tackling. Open Source code is *so* much better than code reviewed by only a few eyes. And, this would also give everyone a chance to see what a simple bioinformatics problem would be like.</div>
<div><br></div><div>There may be some *real* bioinformaticians on this list (I don&#39;t yet consider myself on that level yet -- although that&#39;s what I get paid for and I&#39;m getting there). So, if you&#39;re a real bioinformatician, this may be a trivial problem for you. But, if you want to come and help explain things/help others work this out, that&#39;d be cool!</div>
<div><br></div><div>I&#39;d like to get together (on a weekend, possibly) and hack on this problem. I will describe the things that I think you need to know:</div><div><br></div><div>* What is FASTA format (<a href="http://www.ncbi.nlm.nih.gov/blast/fasta.shtml" target="_blank">http://www.ncbi.nlm.nih.gov/blast/fasta.shtml</a>)</div>
<div>* An brief introduction to BioPython (<a href="http://biopython.org/">http://biopython.org/</a>) -- you can use your own language and library, we&#39;ll be using python to explain</div><div>* What is a genome </div><div>
* What is a gene</div><div>* What are amino acids (contrasting against DNA data)</div><div>* What is a &#39;percent identity&#39; between genes</div><div>* What is a species</div><div>* What is a strain (loosely defined because it seems to be very loose in this problem)</div>
<div>* The term taxa (plural) and taxon (singular)</div><div>* How can genes vary and still be the same gene</div><div>* How errors can exist in different databases</div><div>* An introduction to the JGI (<a href="http://www.jgi.doe.gov/" target="_blank">http://www.jgi.doe.gov/</a>) database</div>
<div>* An introduction to the UniProt (<a href="http://www.uniprot.org/" target="_blank">http://www.uniprot.org/</a>)</div><div><br></div><div><br></div><div>With this introduction, you should have a theoretical understanding of all that you need to solve this problem -- the rest is coding. (That is, if I do my job and explain things well -- and don&#39;t fall into pot holes of information that I don&#39;t know).... Also, I over simplified things that you don&#39;t need to know for this problem (e.g., We won&#39;t talk about open reading frames at all or what that means. Since we&#39;re already given amino acids, we don&#39;t care).</div>
<div><br></div><div>The problem is: </div><div><br></div><div>I will give you a file in FASTA format of the genes for a particular species (let&#39;s say: Chlamydophila pneumoniae). That file will contain a list of genes, one after the other, again in FASTA format. The file will have the JGI unique identifiers. However, we also want the UniProt identifier for this same gene.</div>
<div><br></div><div>Now, this should be as simple as: &quot;Take the gene from the JGI database, look-up the same gene in UniProt, record the number, dust off your hands - you&#39;re done&quot; -- There are lots of little tedious problems, however, that keep it from being this easy.</div>
<div><br></div><div>For example, if two genes are absolutely identical (they have the same amino acid sequence) except for in a single position, are they actually identical? What if the sequence found was in a strain instead of from the original exact species? What if it&#39;s an identical ortholog?</div>
<div><br></div><div>Let me ask another question: If you were to somehow magically sequence your personal entire genome (everything - not just genes) from a cell in your toe and also sequence your entire genome from a cell from your nose, would they be identical?  I bet not... I&#39;ll explain why. Now, we expect less differences in actual genes (not in other parts of your genome), but even then, there can be some variation... </div>
<div><br></div><div>These are the types of questions/problems that we&#39;ll be getting into if you&#39;re so interested...</div><div><br></div><div>Who&#39;s up for this?  We&#39;ll get date and time once we have a set of interested people...  </div>
<div><br></div><div>This particular problem is basic compared to many that we deal with. But, it shows you the kind of tediousness - and the kind of data that is out there.</div><div><br></div><div><br></div><div>Cheers,</div>
<div><br></div><div><br></div><div><br></div><div>Glen</div>-- <br>Whatever you can do or imagine, begin it;<br>boldness has beauty, magic, and power in it.<br><br>-- Goethe <br>