Bioinformatik Sequenzen at Universität Hamburg | Flashcards & Summaries

Lernmaterialien für Bioinformatik Sequenzen an der Universität Hamburg

Greife auf kostenlose Karteikarten, Zusammenfassungen, Übungsaufgaben und Altklausuren für deinen Bioinformatik Sequenzen Kurs an der Universität Hamburg zu.

TESTE DEIN WISSEN

2.       Warum ist die Länge der reads begrenzt?

Lösung anzeigen
TESTE DEIN WISSEN


Weil mit steigender Länge der reads, die Genauigkeit der Sequenzierung sinkt.


Lösung ausblenden
TESTE DEIN WISSEN

      Beschreiben Sie die Berechnung des „Phred quality score“ und seine Darstellung in einer FASTQ-Datei.

Lösung anzeigen
TESTE DEIN WISSEN

Sequenziergeräte können eine Wahrscheinlichkeit für die Fehlbestimmung der Base pro Position liefern. 

Q = - log10P à der Wert wird zur nächsten Ganzzahl gerundet, diese kann in einer FASTQ-Datei ausgegeben werden.

FASTQ-Aufbau:

1. Kommentarzeile mit Metainformationen

2. Zeile mit tatsächlicher Sequenz

3. Kommentarzeile

4. der Phred-Quality-Score ist mit Hilfe von Ascii-Zeichen kodiert (geben numerischen Wert an)

Lösung ausblenden
TESTE DEIN WISSEN

Beschreiben Sie die Unterschiede zwischen dem „Overlap-Graph“ und dem „de Bruijn Graph“- Ansatz. 

Lösung anzeigen
TESTE DEIN WISSEN

Overlap:

  • Maximale Überlappung (in beide Richtungen) zwischen allen Paaren von reads bestimmen
  • Graph erstellen:
  • Knoten: reads
  • Kanten: Überlappungen zwischen den reads (Mindestgrenzwert wird gesetzt à Mindestüberlappung)
  • Pfad: Besucht so viele Knoten wie möglich, jeder Knoten darf maximal einmal besucht werden (Ideal: jeder Knoten ein Mal)
  • Aus Pfad wird anhand von Überlappungen die Sequenz konstruiert

 

De Bruijn:

  • Alle Reads werden in überlappende kleinere Subsequenzen (k-Mers) von der Länge k zerteilt
  • Graph erstellen:
  • Knoten: K-Mers
  • Kanten: K-1 Überlappungen (fast vollständige Überlappungen zwischen allen Knoten)
  • Pfad: Besucht so viele Kanten wie möglich genau ein Mal (Ideal: jede Kante ein Mal)

Meist schneller und verbraucht weniger Arbeitsspeicher

Lösung ausblenden
TESTE DEIN WISSEN

  Der „de Bruijn-Graph-Ansatz“ ist i.d.R. schneller und braucht weniger Arbeitsspeicher als der „Overlap-Graph-Ansatz“. Warum?

Lösung anzeigen
TESTE DEIN WISSEN

Overlap-Graph-Ansatz: 


  • Alle reads müssen miteinander verglichen werden, alle müssen auf Overlap zwischen Präfixe und Suffixe verglichen werden = O(n2)


De Bruijn: 

  • Lineares Verfahren: Komplexität: O(n)
  • Durch die reads gehen, K-Mers bauen, eine Tabelle für K-Mers bauen, mit Hashing-Tricks bestimmen wo N-1 Überlappungen vorliegen

Vermeidet durch clevere Tabellierung alle K-Mers und alle reads miteinander zu vergleichen, ist deshalb ein schnelleres Verfahren und eignet sich deshalb besser für größere Genome

Lösung ausblenden
TESTE DEIN WISSEN

Was bestimmt der Parameter k beim „de-Bruijn-Graph-Ansatz“? Welche Probleme entstehen, wenn k zu klein oder zu groß gewählt wird?

Lösung anzeigen
TESTE DEIN WISSEN

K ist die Länge der K-Mers, also der Subsequenzen, in die wir die reads einteilen.

Zu kleines k: man bekommt zu viele Kanten und zu viele potentielle Pfade durch den Graphen, die nicht die richtige Sequenz ergeben.

Zu großes k: man bekommt mehr contigs, dadurch wird das Assemblierungsproblem schwieriger, vor allem wenn man kein Referenzgenom hat.

Lösung ausblenden
TESTE DEIN WISSEN

Gegeben sind folgende contig Längen

2,3,4,5,6,7,8,9,10.    

 Berechnen Sie die L50 und N50 Werte. –> Damit berechnet man Qualität einer Assemblierung

Lösung anzeigen
TESTE DEIN WISSEN

Die Contig-Längen werden der Länge nach angeordnet. Zunächst berechnet man die Länge des assemblierten Genoms, in dem alle Contig-Längen summiert, hier: 54

Wir wollen die Hälfte der Länge mit möglichst wenig Contigs abdecken, hier: 54:2 = 27

N50: bezeichnet eine Länge (die Länge des kürzesten der langen Contigs); hier: 8

L50: bezeichnet eine Anzahl; hier: 3

Lösung ausblenden
TESTE DEIN WISSEN

Genetische Variationen und Sequenzierfehler erzeugen bei der Assemblierung ähnliche Muster. Mit welchem Ansatz könnte es möglich sein zwischen diesen zu unterscheiden?

Lösung anzeigen
TESTE DEIN WISSEN

Wenn wir bei der Assemblierung einen Graphen mit Subpfaden zu einem größeren Pfad haben und wir eine Diskrepanz an einer Stelle haben, dann schaut man sich an wie der Graph an dieser Stelle aussieht. An der Stelle der Abweichung wird geschaut, wie das Verhältnis von Abweichung zu Positionen im Einklang mit der Stelle ist. Wenn es nur wenig Abweichung an einer Stelle gibt im Vergleich zu allen anderen Pfaden, dann handelt es sich wahrscheinlich um einen Fehler. Je eher das in Verhältnis in RIchtung 50/50 geht, desto wahrscheinlicher handelt es sich um eine natürliche Variation.

Ab was für einen Grenzwert es sich um einen Fehler oder eine Variation betrachtet hängt vom Programm ab.

Lösung ausblenden
TESTE DEIN WISSEN

Gegeben ist eine n-fache „coverage“ eines Genoms. Wie wird die Wahrscheinlichkeit, dass eine Base m- Mal „gesehen“ wird, beschrieben

Lösung anzeigen
TESTE DEIN WISSEN

Einfachste Variante: mit Poisson-Wahrscheinlichkeitsverteilung (in der Praxis ist es etwas komplizierter)

Lösung ausblenden
TESTE DEIN WISSEN

Es soll das wahrscheinlichste „reading frame“ eines DNA-Abschnitts gefunden werden. Inwiefern sind Längen von Proteinen hier nützlich? Welche weiteren Eigenschaften können genutzt werden, ohne auf Homologie zurück zu greifen?

Lösung anzeigen
TESTE DEIN WISSEN
  • wenn wir reading frames suchen, sollten wir immer die reading frames nehmen, die die längste hypothetische Proteinlänge haben, den längsten hypothetischen Abschnitt vom Startcodon bis ein Stoppcodon kommt.
  • Codon-Usage: nicht alle Aminosäuren kommen gleich häufig in Proteinen vor. Glycin, Valin, Alanin kommen häufig vor; Tryptophan, Arginin kommen weniger häufig vor. Wir können über bekannte Proteine die Häufigkeitsverteilungen über alle Aminosäurearten bestimmen Pobs*pexp (erwarteten Häufigkeitsverteilungen und die tatsächlich beobachteten Häufigkeitsverteilungen in einem reading frame miteinander multiplizieren und das ganze über alle Codons macht à Score für wie wahrscheinlich ist, dass dieser reading frame, der korrekte reading frame ist. Für alle 6 Optionen vergleichen und dann reading frame mit höchstem Score nehmen)
Lösung ausblenden
TESTE DEIN WISSEN

  RNAseq ist eine indirekte Art und Weise die Expression eines Proteins zu schätzen. Inwiefern ist sie „indirekt“?

Lösung anzeigen
TESTE DEIN WISSEN

Indirekt, weil wir nicht die Proteine selbst messen, sondern RNA über sehr viele indirekte Schritte

  1. RNA aus Probe extrahieren und anreichern. RNA die wir nicht messen wollen, wird entfernt.
  2. RNA wird in cDNA umgewandelt, amplifiziert, fragmentiert und dann über die bekannten Sequenziertechniken gemessen.
Lösung ausblenden
TESTE DEIN WISSEN

  Wie viele Bits pro Symbol sind notwendig um DNA-Sequenzen mit den mehrdeutigen Symbolen N, (puRine) und (pYrimidine) zu speichern?

Lösung anzeigen
TESTE DEIN WISSEN


  • Rechnung: 


 


  • Alternativ: 23= 8 ≥7 à 8 


Lösung ausblenden
TESTE DEIN WISSEN

Beschreiben Sie grob die Schritte des „shotgun-sequencing“ und häufig auftretende Probleme, welche diese Art der Sequenzierung und die folgende Assemblierung erschweren.

Lösung anzeigen
TESTE DEIN WISSEN
  • Art von Probe aus dem Genom sequenzieren und assemblieren
  • Genom mittels Polymerasekettenreaktion vervielfältigen
  • Amplifizierte Genome fragmentieren (in kleine Stücke zerteilen)
  • viele Fragmente werden sequenziert
  • Qualitätskontrolle: wie gut sind die reads? Diese müssen eventuell am Anfang und Ende gekürzt werden
  • Mittels Graphverfahren das Genom assemblieren


Probleme: 

  • Repeats: Zur Bestimmung der Länge einer repeat-Sektion, müssen die reads länger als die repeat-Sektion sein. Bei zu kurzen reads, wird die repeat-Sektion auf die kürzeste Version geschrumpft und die tatsächliche Länge ist nicht bekannt.


  • Sequenzierfehler: Substitutionsfehler, manchmal Insertions und Deletions
  1. Zufällig: treten immer und überall auf
  2. Systematisch: immer an einer bestimmten Position oder nach einer bestimmten Base tritt mit einer erhöhten Wahrscheinlichkeit ein Fehler auf 


Lösung ausblenden
  • 188156 Karteikarten
  • 3777 Studierende
  • 243 Lernmaterialien

Beispielhafte Karteikarten für deinen Bioinformatik Sequenzen Kurs an der Universität Hamburg - von Kommilitonen auf StudySmarter erstellt!

Q:

2.       Warum ist die Länge der reads begrenzt?

A:


Weil mit steigender Länge der reads, die Genauigkeit der Sequenzierung sinkt.


Q:

      Beschreiben Sie die Berechnung des „Phred quality score“ und seine Darstellung in einer FASTQ-Datei.

A:

Sequenziergeräte können eine Wahrscheinlichkeit für die Fehlbestimmung der Base pro Position liefern. 

Q = - log10P à der Wert wird zur nächsten Ganzzahl gerundet, diese kann in einer FASTQ-Datei ausgegeben werden.

FASTQ-Aufbau:

1. Kommentarzeile mit Metainformationen

2. Zeile mit tatsächlicher Sequenz

3. Kommentarzeile

4. der Phred-Quality-Score ist mit Hilfe von Ascii-Zeichen kodiert (geben numerischen Wert an)

Q:

Beschreiben Sie die Unterschiede zwischen dem „Overlap-Graph“ und dem „de Bruijn Graph“- Ansatz. 

A:

Overlap:

  • Maximale Überlappung (in beide Richtungen) zwischen allen Paaren von reads bestimmen
  • Graph erstellen:
  • Knoten: reads
  • Kanten: Überlappungen zwischen den reads (Mindestgrenzwert wird gesetzt à Mindestüberlappung)
  • Pfad: Besucht so viele Knoten wie möglich, jeder Knoten darf maximal einmal besucht werden (Ideal: jeder Knoten ein Mal)
  • Aus Pfad wird anhand von Überlappungen die Sequenz konstruiert

 

De Bruijn:

  • Alle Reads werden in überlappende kleinere Subsequenzen (k-Mers) von der Länge k zerteilt
  • Graph erstellen:
  • Knoten: K-Mers
  • Kanten: K-1 Überlappungen (fast vollständige Überlappungen zwischen allen Knoten)
  • Pfad: Besucht so viele Kanten wie möglich genau ein Mal (Ideal: jede Kante ein Mal)

Meist schneller und verbraucht weniger Arbeitsspeicher

Q:

  Der „de Bruijn-Graph-Ansatz“ ist i.d.R. schneller und braucht weniger Arbeitsspeicher als der „Overlap-Graph-Ansatz“. Warum?

A:

Overlap-Graph-Ansatz: 


  • Alle reads müssen miteinander verglichen werden, alle müssen auf Overlap zwischen Präfixe und Suffixe verglichen werden = O(n2)


De Bruijn: 

  • Lineares Verfahren: Komplexität: O(n)
  • Durch die reads gehen, K-Mers bauen, eine Tabelle für K-Mers bauen, mit Hashing-Tricks bestimmen wo N-1 Überlappungen vorliegen

Vermeidet durch clevere Tabellierung alle K-Mers und alle reads miteinander zu vergleichen, ist deshalb ein schnelleres Verfahren und eignet sich deshalb besser für größere Genome

Q:

Was bestimmt der Parameter k beim „de-Bruijn-Graph-Ansatz“? Welche Probleme entstehen, wenn k zu klein oder zu groß gewählt wird?

A:

K ist die Länge der K-Mers, also der Subsequenzen, in die wir die reads einteilen.

Zu kleines k: man bekommt zu viele Kanten und zu viele potentielle Pfade durch den Graphen, die nicht die richtige Sequenz ergeben.

Zu großes k: man bekommt mehr contigs, dadurch wird das Assemblierungsproblem schwieriger, vor allem wenn man kein Referenzgenom hat.

Mehr Karteikarten anzeigen
Q:

Gegeben sind folgende contig Längen

2,3,4,5,6,7,8,9,10.    

 Berechnen Sie die L50 und N50 Werte. –> Damit berechnet man Qualität einer Assemblierung

A:

Die Contig-Längen werden der Länge nach angeordnet. Zunächst berechnet man die Länge des assemblierten Genoms, in dem alle Contig-Längen summiert, hier: 54

Wir wollen die Hälfte der Länge mit möglichst wenig Contigs abdecken, hier: 54:2 = 27

N50: bezeichnet eine Länge (die Länge des kürzesten der langen Contigs); hier: 8

L50: bezeichnet eine Anzahl; hier: 3

Q:

Genetische Variationen und Sequenzierfehler erzeugen bei der Assemblierung ähnliche Muster. Mit welchem Ansatz könnte es möglich sein zwischen diesen zu unterscheiden?

A:

Wenn wir bei der Assemblierung einen Graphen mit Subpfaden zu einem größeren Pfad haben und wir eine Diskrepanz an einer Stelle haben, dann schaut man sich an wie der Graph an dieser Stelle aussieht. An der Stelle der Abweichung wird geschaut, wie das Verhältnis von Abweichung zu Positionen im Einklang mit der Stelle ist. Wenn es nur wenig Abweichung an einer Stelle gibt im Vergleich zu allen anderen Pfaden, dann handelt es sich wahrscheinlich um einen Fehler. Je eher das in Verhältnis in RIchtung 50/50 geht, desto wahrscheinlicher handelt es sich um eine natürliche Variation.

Ab was für einen Grenzwert es sich um einen Fehler oder eine Variation betrachtet hängt vom Programm ab.

Q:

Gegeben ist eine n-fache „coverage“ eines Genoms. Wie wird die Wahrscheinlichkeit, dass eine Base m- Mal „gesehen“ wird, beschrieben

A:

Einfachste Variante: mit Poisson-Wahrscheinlichkeitsverteilung (in der Praxis ist es etwas komplizierter)

Q:

Es soll das wahrscheinlichste „reading frame“ eines DNA-Abschnitts gefunden werden. Inwiefern sind Längen von Proteinen hier nützlich? Welche weiteren Eigenschaften können genutzt werden, ohne auf Homologie zurück zu greifen?

A:
  • wenn wir reading frames suchen, sollten wir immer die reading frames nehmen, die die längste hypothetische Proteinlänge haben, den längsten hypothetischen Abschnitt vom Startcodon bis ein Stoppcodon kommt.
  • Codon-Usage: nicht alle Aminosäuren kommen gleich häufig in Proteinen vor. Glycin, Valin, Alanin kommen häufig vor; Tryptophan, Arginin kommen weniger häufig vor. Wir können über bekannte Proteine die Häufigkeitsverteilungen über alle Aminosäurearten bestimmen Pobs*pexp (erwarteten Häufigkeitsverteilungen und die tatsächlich beobachteten Häufigkeitsverteilungen in einem reading frame miteinander multiplizieren und das ganze über alle Codons macht à Score für wie wahrscheinlich ist, dass dieser reading frame, der korrekte reading frame ist. Für alle 6 Optionen vergleichen und dann reading frame mit höchstem Score nehmen)
Q:

  RNAseq ist eine indirekte Art und Weise die Expression eines Proteins zu schätzen. Inwiefern ist sie „indirekt“?

A:

Indirekt, weil wir nicht die Proteine selbst messen, sondern RNA über sehr viele indirekte Schritte

  1. RNA aus Probe extrahieren und anreichern. RNA die wir nicht messen wollen, wird entfernt.
  2. RNA wird in cDNA umgewandelt, amplifiziert, fragmentiert und dann über die bekannten Sequenziertechniken gemessen.
Q:

  Wie viele Bits pro Symbol sind notwendig um DNA-Sequenzen mit den mehrdeutigen Symbolen N, (puRine) und (pYrimidine) zu speichern?

A:


  • Rechnung: 


 


  • Alternativ: 23= 8 ≥7 à 8 


Q:

Beschreiben Sie grob die Schritte des „shotgun-sequencing“ und häufig auftretende Probleme, welche diese Art der Sequenzierung und die folgende Assemblierung erschweren.

A:
  • Art von Probe aus dem Genom sequenzieren und assemblieren
  • Genom mittels Polymerasekettenreaktion vervielfältigen
  • Amplifizierte Genome fragmentieren (in kleine Stücke zerteilen)
  • viele Fragmente werden sequenziert
  • Qualitätskontrolle: wie gut sind die reads? Diese müssen eventuell am Anfang und Ende gekürzt werden
  • Mittels Graphverfahren das Genom assemblieren


Probleme: 

  • Repeats: Zur Bestimmung der Länge einer repeat-Sektion, müssen die reads länger als die repeat-Sektion sein. Bei zu kurzen reads, wird die repeat-Sektion auf die kürzeste Version geschrumpft und die tatsächliche Länge ist nicht bekannt.


  • Sequenzierfehler: Substitutionsfehler, manchmal Insertions und Deletions
  1. Zufällig: treten immer und überall auf
  2. Systematisch: immer an einer bestimmten Position oder nach einer bestimmten Base tritt mit einer erhöhten Wahrscheinlichkeit ein Fehler auf 


Bioinformatik Sequenzen

Erstelle und finde Lernmaterialien auf StudySmarter.

Greife kostenlos auf tausende geteilte Karteikarten, Zusammenfassungen, Altklausuren und mehr zu.

Jetzt loslegen

Das sind die beliebtesten Bioinformatik Sequenzen Kurse im gesamten StudySmarter Universum

Bioinformatik

Universität Bonn

Zum Kurs
bioinformatik

Universität Potsdam

Zum Kurs
Bioinformatik

Universität Regensburg

Zum Kurs
Bioinformatik

Universität Bonn

Zum Kurs
Bioinformatik

Universität Erlangen-Nürnberg

Zum Kurs

Die all-in-one Lernapp für Studierende

Greife auf Millionen geteilter Lernmaterialien der StudySmarter Community zu
Kostenlos anmelden Bioinformatik Sequenzen
Erstelle Karteikarten und Zusammenfassungen mit den StudySmarter Tools
Kostenlos loslegen Bioinformatik Sequenzen