Bioinformatische Aufklärung monogener Krankheiten – Softwarepraktikum Bioinformatik Sommersemester 2024

Die AG Bioinformatik und translationale Genetik am Berliner Institut für Gesundheitsforschung/Charité beschäftigt sich insbesondere mit der Aufklärung monogener Krankheiten (Krankheiten, die durch DNA-Mutationen in einem einzelnen Gen ausgelöst werden). Dazu entwickeln wir benutzerfreundliche Software, die ohne IT-Kenntnisse verwendet werden kann. Unser Ziel ist es, dass die behandelnden Ärztinnen und Ärzte die Daten ihrer Patient(inn)en ohne die Hilfe von Computerspezialist(inn)en selber analysieren können.

Weitere Informationen:

Im Sommersemester 2024 bietet die Arbeitsgruppe wieder zwei Themen im Rahmen der Veranstaltung "Projektmanagement im Softwarebereich" an der Freien Universität Berlin an. Detaillierte Informationen dazu erhalten Sie nach einem Klick auf die Titel unten.

 

Am Donnerstag, 18.01.2024 um 17:00 Uhr findet eine offene virtuelle Informationsveranstaltung zu den zwei Themen statt. Eine Teilnahme ist ohne Anmeldung unter diesem Link möglich:
https://meet.jit.si/BTG_SWP_2024 (Update 11.01.2024: Link aktualisiert)

 

Das Praktikum findet vom 04.03.2024 bis 26.04.2024 überwiegend in Vollzeit statt. Teilnehmerinnen und Teilnehmer erhalten im Vorfeld weitere Informationen über den Ablauf.

 

Integrierte Analyse und Erweiterung von Splice-Analyse-Tools

Dozent: Oliver Küchler [ Schreibt mir gerne ]
Teilnehmerzahl: 1-3
Zeitraum: 04.03.2024 bis 26.04.2024
Ort: Charité Campus Mitte, Invalidenstr. 97 (Homeoffice möglich)
Schwerpunkte: Datenakquise & -auswertung, Set-up und Vergleich aktueller wissenschaftlicher Software
Qualitatives Profil:


Inhaltliche Beschreibung:

Bei der Suche nach Krankheitsmutationen in Exom- oder Genomsequenzdaten stellt die Auswertung regulatorischer Varianten eine Herausforderung dar. Innerhalb von protein-kodierender Gene ist hier vor allem das Splicing relevant, da sowohl intronische als auch synonyme und nicht-synonyme Varianten das Splicing beeinflussen können. Das hier vorgestellte Projekt ist in drei miteinander verbundene Teilprojekte gegliedert, die sich auf die umfassende Analyse und Erweiterung von Splice-Analyse-Tools konzentrieren.

Teilprojekt 1: Vergleich aktueller Splice-Prediction Software

Vorhandene Splice-Vorhersage-Tools basieren auf maschinellem Lernen, dabei hängt das Ergebnis des Lernprozesses stark von den verwendeten Trainingsdaten ab. Für das maschinelle Lernen werden sehr große Datenmengen benötigt. Da nur wenige Splice Sites tatsächlich punktgenau experimentell validiert wurden, sind in den Trainingsdaten in der Regel vorhergesagte Splice Sites annotiert. Dabei basiert die Vorhersage auf einem Alignment der mRNA/cDNA gegen die genomische Sequenz, gepaart mit einer Vorhersage von Genen und ihrer Exon/Intron-Grenzen die zum Teil durch weitere Inter-Spezies-Vergleiche gestützt sind.

In diesem Projekt sollen

  1. aktuelle Splice-Vorhersage-Programme identifiziert werden
  2. Identifizierung von “Real”-Datensätze aus Splice-Analyse-Studien, die nicht schon als Trainings- oder Test-Datensätzen der Vorhersage-Tools genutzt worden sind
  3. Test und Vergleich der aktuellen Splice-Vorhersage-Programme durch Nutzung der unabhängigen Splice-Daten, sodass eine detaillierte Auswertung der Stärken und Schwächen der einzelnen Tools erfolgt
Mit einem systematischen Vergleich verschiedener Vorhersage-Tools wollen wir eine umfassende Erfassung wichtiger der Attribute der einzelnen Programme erreichen:

Teilprojekt 2: SnakeSplice-Erweiterung: Variant-Calling & Phasing auf Transkriptom-Ebene

Zur gezielten Auswertung von Transkriptomdaten, wobei insbesondere das Splice-Verhalten betrachtet wird, wurde die Software-Pipeline “SnakeSplice” in unserer Arbeitsgruppe (AG Seelow) entwickelt. Die Pipeline basiert auf dem SnakeMake-Framework und ist modular aufgebaut. In ihrer bisherigen Fassung besteht sie aus 4 Modulen:

  1. Quality Controlling & Prepocessing
  2. Detektion von Genfusionen
  3. Analyse der Genexpression und Gene Set Enrichment Analysis
  4. Analyse des Splice-Verhalten

Eine gezielte Detektion genetischer Varianten ist wichtig für die funktionelle Analyse der Aktivität von Allelen und die klinische Interpretation des Genoms. Ein Modul, das die Funktionalität bietet, ist jedoch bisher nicht in SnakeSplice implementiert.

Deshalb wird in diesem Praktikum die Entwicklung eines weiteren (unabhängigen) Snakemake-Moduls zur gezielten Identifikation von Varianten in Transkriptom- (und Genomdaten) angestrebt. Die Implementierung der benötigten Software soll in Form eines SnakeMake-Moduls erfolgen, sodass eine direkte Integration in die schon etablierte Pipeline möglich ist.

Konkrete Ziele

Teilprojekt 3: SnakeSplice-Erweiterung: Analyse nicht-kodierender RNA

Neben Splice-Faktoren, die durch RNA-bindende Proteine gegeben sind, können auch weitere posttranskriptionelle Regulationsmechanismen in den Splice-Prozess eingreifen, um die Zellentwicklung und Gewebespezifität zu steuern. Insbesondere microRNAs (miRNAs), kurze nicht-kodierende (~22 nt) RNA-Moleküle, können, indem sie mit der 3’ untranslatierten Region (3’UTR) interagieren, die Translation von spezifischen mRNAs hemmen.

Neben dieser durch miRNA vermittelten kanonischen Art der posttranskriptionellen Regulierung haben in den letzten Jahren Studien auch die indirekte Modulation der Splice-Faktoren über die co-transkriptionelle Ebene aufgezeigt. Dabei wird durch Senkung der Dosierung mehrerer Splice-Faktoren eine gezielte Steuerung des Splicings erreicht, sodass alternatives Splicing gewebespezifisch ausgelöst werden kann.

In diesem Praktikum wird die Entwicklung eines weiteren (unabhängigen) Snakemake-Moduls zur Detektion von nicht-kodierender RNA in Transkriptomdaten angestrebt. Hierbei steht vorrangig eine explorative Untersuchung der Transkripte im Vordergrund. Dies ermöglicht den Anschluss weiterführender Analyse-Schritte, beispielsweise sind Korrelationsanalysen zu den identifizierten mRNA-Isoformen und ihren Expressionswerten denkbar. Dieses Modul wird ein tieferes Verständnis für das dynamische Zusammenspiel zwischen ncRNA und Splicing ermöglichen.

Gemeinsame Projektarbeit

Die Student:innen können wahlweise zu Hause oder in unseren Büros in Mitte arbeiten. Wir planen eine wöchentliche Fortschrittsbesprechung in unseren Büros mit den beteiligten Student:innen aus allen hier vorgeschlagenen Projekten.

Entwicklung eines ACME-Clients in C/C++ oder Bash

Teilnehmerzahl: 2
Zeitraum: 04.03.2024 bis 26.04.2024
Ort: Charité Campus Mitte, Invalidenstr. 97 (Homeoffice möglich)
Schwerpunkte: Praktische Programmierarbeit (66 %), Erwerb von Soft Skills (34 %)
Qualitatives Profil: Programmieren (★★★★★), Projektmanagement (★★), Biologie (★)

Inhaltliche Beschreibung:

Das Ziel dieses Praktikums ist die Entwicklung eines ACME (Automatic Certificate Management Environment)-Clients. ACME ist ein Protokoll zur Kommunikation zwischen Zertifizierungsstellen (z. B. Let's Encrypt) und Servern, die SSL-Zertifikate benötigen (z. B. für den Betrieb von https-Websites). Im Rahmen dieses Praktikums soll ein funktionsfähiger ACME-Client in C/C++ oder Bash entwickelt werden, der es ermöglicht, automatisiert Zertifikate abzurufen und zu erneuern.

Aufgaben:

  1. Einarbeitung in das ACMEv2-Protokoll: Studium der technischen Dokumentation des ACME-Protokolls, um ein tiefes Verständnis für dessen Funktionsweise zu entwickeln.
  2. Anforderungsanalyse: Gemeinsame Definition der Anforderungen und Funktionen des ACME Clients.
  3. Entwicklung: Implementierung des ACME Clients in der gewählten Programmiersprache (C/C++ oder Bash). Dabei sollen grundlegende Funktionen wie die automatische Anforderung, Erneuerung und Widerruf von SSL-Zertifikaten umgesetzt werden.
  4. Testen: Durchführung von Tests zur Überprüfung der Funktionalität des entwickelten Clients.
  5. Dokumentation Erstellung einer Dokumentation, die sowohl den Code als auch die Nutzung des ACME Clients beschreibt.

Erforderlich sind:

Das Praktikum wird von einem Diplom-Informatiker betreut. Während des Praktikums sind Studierende Teil der Arbeitsgruppe. Es wird Zugang zu einem Linux-Server und einer GitLab-Versionsverwaltung bereitgestellt. Wahlweise kann vor Ort am Charité Campus Mitte oder im Homeoffice gearbeitet werden. Das Praktikum ist nur in Vollzeit möglich. Es finden regelmäßige Termine zur Besprechung des Fortschritts statt.