Bioinformatik Sequenzen an der Universität Hamburg

Karteikarten und Zusammenfassungen für Bioinformatik Sequenzen an der Universität Hamburg

Arrow Arrow

Komplett kostenfrei

studysmarter schule studium
d

4.5 /5

studysmarter schule studium
d

4.8 /5

studysmarter schule studium
d

4.5 /5

studysmarter schule studium
d

4.8 /5

Lerne jetzt mit Karteikarten und Zusammenfassungen für den Kurs Bioinformatik Sequenzen an der Universität Hamburg.

Beispielhafte Karteikarten für Bioinformatik Sequenzen an der Universität Hamburg auf StudySmarter:

Beschreiben Sie grob die Schritte des „shotgun-sequencing“ und häufig auftretende Probleme, welche diese Art der Sequenzierung und die folgende Assemblierung erschweren.

Beispielhafte Karteikarten für Bioinformatik Sequenzen an der Universität Hamburg auf StudySmarter:

2.       Warum ist die Länge der reads begrenzt?

Beispielhafte Karteikarten für Bioinformatik Sequenzen an der Universität Hamburg auf StudySmarter:

      Beschreiben Sie die Berechnung des „Phred quality score“ und seine Darstellung in einer FASTQ-Datei.

Beispielhafte Karteikarten für Bioinformatik Sequenzen an der Universität Hamburg auf StudySmarter:

Beschreiben Sie die Unterschiede zwischen dem „Overlap-Graph“ und dem „de Bruijn Graph“- Ansatz. 

Beispielhafte Karteikarten für Bioinformatik Sequenzen an der Universität Hamburg auf StudySmarter:

  Der „de Bruijn-Graph-Ansatz“ ist i.d.R. schneller und braucht weniger Arbeitsspeicher als der „Overlap-Graph-Ansatz“. Warum?

Beispielhafte Karteikarten für Bioinformatik Sequenzen an der Universität Hamburg auf StudySmarter:

Was bestimmt der Parameter k beim „de-Bruijn-Graph-Ansatz“? Welche Probleme entstehen, wenn k zu klein oder zu groß gewählt wird?

Beispielhafte Karteikarten für Bioinformatik Sequenzen an der Universität Hamburg auf StudySmarter:

Gegeben sind folgende contig Längen

2,3,4,5,6,7,8,9,10.    

 Berechnen Sie die L50 und N50 Werte. –> Damit berechnet man Qualität einer Assemblierung

Beispielhafte Karteikarten für Bioinformatik Sequenzen an der Universität Hamburg auf StudySmarter:

Genetische Variationen und Sequenzierfehler erzeugen bei der Assemblierung ähnliche Muster. Mit welchem Ansatz könnte es möglich sein zwischen diesen zu unterscheiden?

Beispielhafte Karteikarten für Bioinformatik Sequenzen an der Universität Hamburg auf StudySmarter:

Gegeben ist eine n-fache „coverage“ eines Genoms. Wie wird die Wahrscheinlichkeit, dass eine Base m- Mal „gesehen“ wird, beschrieben

Beispielhafte Karteikarten für Bioinformatik Sequenzen an der Universität Hamburg auf StudySmarter:

Es soll das wahrscheinlichste „reading frame“ eines DNA-Abschnitts gefunden werden. Inwiefern sind Längen von Proteinen hier nützlich? Welche weiteren Eigenschaften können genutzt werden, ohne auf Homologie zurück zu greifen?

Beispielhafte Karteikarten für Bioinformatik Sequenzen an der Universität Hamburg auf StudySmarter:

  RNAseq ist eine indirekte Art und Weise die Expression eines Proteins zu schätzen. Inwiefern ist sie „indirekt“?

Beispielhafte Karteikarten für Bioinformatik Sequenzen an der Universität Hamburg auf StudySmarter:

  Wie viele Bits pro Symbol sind notwendig um DNA-Sequenzen mit den mehrdeutigen Symbolen N, (puRine) und (pYrimidine) zu speichern?

Kommilitonen im Kurs Bioinformatik Sequenzen an der Universität Hamburg. erstellen und teilen Zusammenfassungen, Karteikarten, Lernpläne und andere Lernmaterialien mit der intelligenten StudySmarter Lernapp. Jetzt mitmachen!

Jetzt mitmachen!

Flashcard Flashcard

Beispielhafte Karteikarten für Bioinformatik Sequenzen an der Universität Hamburg auf StudySmarter:

Bioinformatik Sequenzen

Beschreiben Sie grob die Schritte des „shotgun-sequencing“ und häufig auftretende Probleme, welche diese Art der Sequenzierung und die folgende Assemblierung erschweren.

  • Art von Probe aus dem Genom sequenzieren und assemblieren
  • Genom mittels Polymerasekettenreaktion vervielfältigen
  • Amplifizierte Genome fragmentieren (in kleine Stücke zerteilen)
  • viele Fragmente werden sequenziert
  • Qualitätskontrolle: wie gut sind die reads? Diese müssen eventuell am Anfang und Ende gekürzt werden
  • Mittels Graphverfahren das Genom assemblieren


Probleme: 

  • Repeats: Zur Bestimmung der Länge einer repeat-Sektion, müssen die reads länger als die repeat-Sektion sein. Bei zu kurzen reads, wird die repeat-Sektion auf die kürzeste Version geschrumpft und die tatsächliche Länge ist nicht bekannt.


  • Sequenzierfehler: Substitutionsfehler, manchmal Insertions und Deletions
  1. Zufällig: treten immer und überall auf
  2. Systematisch: immer an einer bestimmten Position oder nach einer bestimmten Base tritt mit einer erhöhten Wahrscheinlichkeit ein Fehler auf 


Bioinformatik Sequenzen

2.       Warum ist die Länge der reads begrenzt?


Weil mit steigender Länge der reads, die Genauigkeit der Sequenzierung sinkt.


Bioinformatik Sequenzen

      Beschreiben Sie die Berechnung des „Phred quality score“ und seine Darstellung in einer FASTQ-Datei.

Sequenziergeräte können eine Wahrscheinlichkeit für die Fehlbestimmung der Base pro Position liefern. 

Q = - log10P à der Wert wird zur nächsten Ganzzahl gerundet, diese kann in einer FASTQ-Datei ausgegeben werden.

FASTQ-Aufbau:

1. Kommentarzeile mit Metainformationen

2. Zeile mit tatsächlicher Sequenz

3. Kommentarzeile

4. der Phred-Quality-Score ist mit Hilfe von Ascii-Zeichen kodiert (geben numerischen Wert an)

Bioinformatik Sequenzen

Beschreiben Sie die Unterschiede zwischen dem „Overlap-Graph“ und dem „de Bruijn Graph“- Ansatz. 

Overlap:

  • Maximale Überlappung (in beide Richtungen) zwischen allen Paaren von reads bestimmen
  • Graph erstellen:
  • Knoten: reads
  • Kanten: Überlappungen zwischen den reads (Mindestgrenzwert wird gesetzt à Mindestüberlappung)
  • Pfad: Besucht so viele Knoten wie möglich, jeder Knoten darf maximal einmal besucht werden (Ideal: jeder Knoten ein Mal)
  • Aus Pfad wird anhand von Überlappungen die Sequenz konstruiert

 

De Bruijn:

  • Alle Reads werden in überlappende kleinere Subsequenzen (k-Mers) von der Länge k zerteilt
  • Graph erstellen:
  • Knoten: K-Mers
  • Kanten: K-1 Überlappungen (fast vollständige Überlappungen zwischen allen Knoten)
  • Pfad: Besucht so viele Kanten wie möglich genau ein Mal (Ideal: jede Kante ein Mal)

Meist schneller und verbraucht weniger Arbeitsspeicher

Bioinformatik Sequenzen

  Der „de Bruijn-Graph-Ansatz“ ist i.d.R. schneller und braucht weniger Arbeitsspeicher als der „Overlap-Graph-Ansatz“. Warum?

Overlap-Graph-Ansatz: 


  • Alle reads müssen miteinander verglichen werden, alle müssen auf Overlap zwischen Präfixe und Suffixe verglichen werden = O(n2)


De Bruijn: 

  • Lineares Verfahren: Komplexität: O(n)
  • Durch die reads gehen, K-Mers bauen, eine Tabelle für K-Mers bauen, mit Hashing-Tricks bestimmen wo N-1 Überlappungen vorliegen

Vermeidet durch clevere Tabellierung alle K-Mers und alle reads miteinander zu vergleichen, ist deshalb ein schnelleres Verfahren und eignet sich deshalb besser für größere Genome

Bioinformatik Sequenzen

Was bestimmt der Parameter k beim „de-Bruijn-Graph-Ansatz“? Welche Probleme entstehen, wenn k zu klein oder zu groß gewählt wird?

K ist die Länge der K-Mers, also der Subsequenzen, in die wir die reads einteilen.

Zu kleines k: man bekommt zu viele Kanten und zu viele potentielle Pfade durch den Graphen, die nicht die richtige Sequenz ergeben.

Zu großes k: man bekommt mehr contigs, dadurch wird das Assemblierungsproblem schwieriger, vor allem wenn man kein Referenzgenom hat.

Bioinformatik Sequenzen

Gegeben sind folgende contig Längen

2,3,4,5,6,7,8,9,10.    

 Berechnen Sie die L50 und N50 Werte. –> Damit berechnet man Qualität einer Assemblierung

Die Contig-Längen werden der Länge nach angeordnet. Zunächst berechnet man die Länge des assemblierten Genoms, in dem alle Contig-Längen summiert, hier: 54

Wir wollen die Hälfte der Länge mit möglichst wenig Contigs abdecken, hier: 54:2 = 27

N50: bezeichnet eine Länge (die Länge des kürzesten der langen Contigs); hier: 8

L50: bezeichnet eine Anzahl; hier: 3

Bioinformatik Sequenzen

Genetische Variationen und Sequenzierfehler erzeugen bei der Assemblierung ähnliche Muster. Mit welchem Ansatz könnte es möglich sein zwischen diesen zu unterscheiden?

Wenn wir bei der Assemblierung einen Graphen mit Subpfaden zu einem größeren Pfad haben und wir eine Diskrepanz an einer Stelle haben, dann schaut man sich an wie der Graph an dieser Stelle aussieht. An der Stelle der Abweichung wird geschaut, wie das Verhältnis von Abweichung zu Positionen im Einklang mit der Stelle ist. Wenn es nur wenig Abweichung an einer Stelle gibt im Vergleich zu allen anderen Pfaden, dann handelt es sich wahrscheinlich um einen Fehler. Je eher das in Verhältnis in RIchtung 50/50 geht, desto wahrscheinlicher handelt es sich um eine natürliche Variation.

Ab was für einen Grenzwert es sich um einen Fehler oder eine Variation betrachtet hängt vom Programm ab.

Bioinformatik Sequenzen

Gegeben ist eine n-fache „coverage“ eines Genoms. Wie wird die Wahrscheinlichkeit, dass eine Base m- Mal „gesehen“ wird, beschrieben

Einfachste Variante: mit Poisson-Wahrscheinlichkeitsverteilung (in der Praxis ist es etwas komplizierter)

Bioinformatik Sequenzen

Es soll das wahrscheinlichste „reading frame“ eines DNA-Abschnitts gefunden werden. Inwiefern sind Längen von Proteinen hier nützlich? Welche weiteren Eigenschaften können genutzt werden, ohne auf Homologie zurück zu greifen?

  • wenn wir reading frames suchen, sollten wir immer die reading frames nehmen, die die längste hypothetische Proteinlänge haben, den längsten hypothetischen Abschnitt vom Startcodon bis ein Stoppcodon kommt.
  • Codon-Usage: nicht alle Aminosäuren kommen gleich häufig in Proteinen vor. Glycin, Valin, Alanin kommen häufig vor; Tryptophan, Arginin kommen weniger häufig vor. Wir können über bekannte Proteine die Häufigkeitsverteilungen über alle Aminosäurearten bestimmen Pobs*pexp (erwarteten Häufigkeitsverteilungen und die tatsächlich beobachteten Häufigkeitsverteilungen in einem reading frame miteinander multiplizieren und das ganze über alle Codons macht à Score für wie wahrscheinlich ist, dass dieser reading frame, der korrekte reading frame ist. Für alle 6 Optionen vergleichen und dann reading frame mit höchstem Score nehmen)

Bioinformatik Sequenzen

  RNAseq ist eine indirekte Art und Weise die Expression eines Proteins zu schätzen. Inwiefern ist sie „indirekt“?

Indirekt, weil wir nicht die Proteine selbst messen, sondern RNA über sehr viele indirekte Schritte

  1. RNA aus Probe extrahieren und anreichern. RNA die wir nicht messen wollen, wird entfernt.
  2. RNA wird in cDNA umgewandelt, amplifiziert, fragmentiert und dann über die bekannten Sequenziertechniken gemessen.

Bioinformatik Sequenzen

  Wie viele Bits pro Symbol sind notwendig um DNA-Sequenzen mit den mehrdeutigen Symbolen N, (puRine) und (pYrimidine) zu speichern?


  • Rechnung: 


 


  • Alternativ: 23= 8 ≥7 à 8 


Melde dich jetzt kostenfrei an um alle Karteikarten und Zusammenfassungen für Bioinformatik Sequenzen an der Universität Hamburg zu sehen

Singup Image Singup Image
Wave

Andere Kurse aus deinem Studiengang

Für deinen Studiengang Bioinformatik Sequenzen an der Universität Hamburg gibt es bereits viele Kurse auf StudySmarter, denen du beitreten kannst. Karteikarten, Zusammenfassungen und vieles mehr warten auf dich.

Zurück zur Universität Hamburg Übersichtsseite

Neuroscience

Was ist StudySmarter?

Was ist StudySmarter?

StudySmarter ist eine intelligente Lernapp für Studenten. Mit StudySmarter kannst du dir effizient und spielerisch Karteikarten, Zusammenfassungen, Mind-Maps, Lernpläne und mehr erstellen. Erstelle deine eigenen Karteikarten z.B. für Bioinformatik Sequenzen an der Universität Hamburg oder greife auf tausende Lernmaterialien deiner Kommilitonen zu. Egal, ob an deiner Uni oder an anderen Universitäten. Hunderttausende Studierende bereiten sich mit StudySmarter effizient auf ihre Klausuren vor. Erhältlich auf Web, Android & iOS. Komplett kostenfrei. Keine Haken.

Awards

Bestes EdTech Startup in Deutschland

Awards
Awards

European Youth Award in Smart Learning

Awards
Awards

Bestes EdTech Startup in Europa

Awards
Awards

Bestes EdTech Startup in Deutschland

Awards
Awards

European Youth Award in Smart Learning

Awards
Awards

Bestes EdTech Startup in Europa

Awards