Daten besser finden: Wie RightFind Navigate die 20 Millionen Synonyme von SciBite nutztBy Sam Shelton12 Dezember 2024Dieser Blogpost wurde übersetzt vom Velocity of Content Blog des CCC.Wenn Sie Ihre Reise in die Welt der FAIR-Daten (Findable, Accessible, Interoperable und Reusable) beginnen und nach besseren Möglichkeiten suchen, Ihre Daten zu suchen und zu analysieren, sind Sie zweifellos schon auf Ontologien gestoßen, da diese eine Voraussetzung für FAIR-Daten sind. Eine Ontologie ist eine Darstellung des Wissens innerhalb eines bestimmten Bereichs und bietet eine Konsensansicht, auf die sich Fachexpert*innen auf dem Gebiet einigen. Sie beschreibt die Schlüsselkonzepte und wie diese miteinander in Beziehung stehen.Die Heterogenität und Komplexität der Sprache in den Biowissenschaften haben die Entwicklung einer breiten Palette von Ontologien erforderlich gemacht, die Konzepte wie Gene, Medikamente, Indikationen und Nebenwirkungen abdecken. Der Schlüssel zur Dateninteroperabilität ist die Verwendung öffentlicher Kennungen innerhalb von Ontologien, die sicherstellen, dass Personen, die in verschiedenen Organisationen arbeiten, bei der Suche nach Inhalten oder der Aufzeichnung experimenteller Ergebnisse auf dasselbe Konzept verweisen.Ontologien bieten zwar eine Konsensansicht des Wissens in einem bestimmten Bereich, aber die Zuordnung unstrukturierter oder halbstrukturierter Daten wie wissenschaftlicher Literatur oder interner Berichte zu Ontologien und die Erstellung strukturierter und harmonisierter Daten ist nicht einfach. Die Beschleunigung der Datengenerierung und die Ausweitung des Quellenumfangs schaffen auch Herausforderungen bei der Aufrechterhaltung eines umfassenden und aktuellen Konsenses. SciBite wurde mit dem Ziel gegründet, die Hürden für die Implementierung von Ontologien zur Strukturierung von Daten zu senken und das Fachwissen und die Werkzeuge bereitzustellen, um dies effektiv zu tun. Das Ontologieteam von SciBite verfügt insgesamt über mehr als 100 Jahre Erfahrung in der Entwicklung von Ontologien und deren Verwendung zur Strukturierung von Daten. Dieses Fachwissen führt zu einer beschleunigten Implementierung von Ontologien für Kund*innen und Partner*innen und ebnet den Weg für robuste Suche, Analysen und KI/ML.Die VOCabs von SciBite sind in die RightFind Navigate-Software von CCC integriert und erweitern die Suchfunktionen, indem sie es Benutzer*innen ermöglichen, relevante Daten über die spezifischen gesuchten Wörter hinaus zu finden. Dies rationalisiert den Forschungsprozess, indem Informationen mithilfe biomedizinischer Vokabulare und semantischer Suchfunktionen kontextualisiert werden, was zu schnelleren Entdeckungen führt.Ontologie vs. VOCab?Was ist erforderlich, um eine öffentliche Ontologie zu nehmen und diese auf Ihre unstrukturierten Daten anzuwenden? SciBite begegnet dieser Herausforderung, von einer öffentlichen Ontologie zu strukturierten Daten zu gelangen, die sich an dieser Ontologie ausrichten, über einen Prozess namens Named Entity Recognition oder NER. Der NER-Prozess basiert darauf, eine Ontologie im Speicher zu behalten und umfasst das Durchsuchen eines Dokuments und das Identifizieren von Konzepten wie Medikamenten oder Indikationen. Nach der Identifizierung wird ein öffentlicher Identifikator aus der Ontologie zugewiesen, zusammen mit zusätzlichen Informationen, die in dieser Ontologie enthalten sind, wie Synonyme, Zuordnungen zu anderen Ontologien und Links zu öffentlichen Datenbanken. Öffentliche Ontologien sind eine reichhaltige und wertvolle Ressource, sind aber aus mehreren Gründen oft nicht ideal für diesen NER-Prozess geeignet. Erstens variieren Komplexität und Tiefe in Bezug auf Abdeckung und Synonymunterstützung stark zwischen Ontologien, wobei einige Ontologien wie MedDRA sehr groß und breit sind, aber Synonyme völlig fehlen. Den meisten öffentlichen Ontologien fehlen Synonyme, da Synonyme eigentlich für NER benötigt werden, was nicht der primäre Anwendungsfall öffentlicher Ontologien ist. Zweitens ist der Kontext, in dem eine Entität in einem Dokument vorkommt, entscheidend für die Genauigkeit der Entitätserkennung. Beispielsweise könnte „Igel“ eine Art oder ein Gen sein, und der Kontext des umgebenden Satzes ist entscheidend für die genaue Kennzeichnung des Konzepts und damit für die Genauigkeit der nachgelagerten Suche oder Analyse. SciBites NER-optimierte Version einer öffentlichen Ontologie heißt VOCab, und das Ontologieteam von SciBite unternimmt eine Reihe automatisierter und manueller Schritte, um von der öffentlichen Ontologie zu VOCab zu gelangen:1. Qualitätskontrolle und Validierung der zugrunde liegenden öffentlichen OntologieÖffentliche Ontologien werden von der Community bearbeitet und entwickeln sich ständig weiter. Daher gibt es verschiedene Versionen dieser öffentlichen Ontologien und sie enthalten oft Fehler oder Inkonsistenzen. SciBite verwaltet die Versionierung öffentlicher Ontologien und führt Qualitätskontrolle und Validierung durch, korrigiert Adressierungsfehler, wenn sie erkannt werden, und gibt Feedback zurück, damit sie in der Quellontologie behoben werden können.2. Unterteilung öffentlicher Ontologien in funktionale Einheiten, die sich an Anwendungsfällen orientierenEinige öffentliche Ontologien können sehr groß sein und ein breites Spektrum an Konzepten abdecken, die sich mit anderen Ontologien überschneiden können. Wenn diese in ihrer Gesamtheit implementiert würden, wären sie rechenintensiv und würden Konzepte abdecken, die besser von spezialisierteren Ontologien abgedeckt werden. Hier kommen SciBites Fachwissen und Kenntnisse über öffentliche Ontologien zum Tragen und SciBite kann Kund*innen und Partner*innen beraten, welche VOCabs für einen bestimmten Anwendungsfall zu verwenden sind.3. Halbautomatische SynonymerweiterungSciBite fügt den Quellontologien automatisch eine große Anzahl zusätzlicher Synonyme über Regeln hinzu, beispielsweise zur Unterstützung britischer und amerikanischer Schreibweise, Pluralisierung, Unterschiede in der Wortreihenfolge und häufiger Rechtschreibfehler.4. Manuelle Kuratierung durch Fachexpert*innenEin wichtiges Unterscheidungsmerkmal von SciBite ist unsere Expertise in den Biowissenschaften. Das Ontologieteam von SciBite kuratiert unsere VOCabs manuell und fügt Synonyme hinzu, die über das hinausgehen, was in den öffentlichen Ontologien enthalten ist. Darüber hinaus werden Regeln erstellt, um den Kontext zu berücksichtigen, in dem eine Entität auftritt, wodurch die Genauigkeit des Erkennungsprozesses verbessert wird.VOCab-PaketeSciBite bietet derzeit rund 100 VOCabs an, die auf öffentlichen Ontologien basieren und die eindeutigen Kennungen nutzen, aber für die Ausrichtung unstrukturierter Daten über Named Entity Recognition (NER) optimiert sind. Diese VOCabs sind in ergänzenden Paketen zusammengefasst, um bestimmte Arten von Anwendungsfällen zu unterstützen. Die VOCab-Pakete, die SciBite derzeit anbietet, sind Core, Biopharma, Clinical, Genotype/Phenotype, Business Intelligence, Clinical Data Interchange Standards Consortium (CDISC), Allotrope, Chemistry Manufacturing and Controls (CMC) und Agrochemical.Welche Anwendungsfälle werden vom Core VOCab Pack unterstützt?Wenn Kund*innen zum ersten Mal über die Verwendung von SciBite VOCabs nachdenken, ist der logische Ausgangspunkt das Core VOCab Pack. Dies ist das größte der SciBite VOCab Packs und auch das umfassendste in Bezug auf die Abdeckung biomedizinischer Konzepte. Das Core VOCab Pack deckt biomedizinische Konzepte ab, die die wissenschaftliche Literaturrecherche unterstützen würden, einschließlich biologischer Konzepte wie Anatomie, Enzyme, Proteine, Gene und Mikro-RNA, Geschlecht.Bezogen auf die menschliche Biologie deckt dieses VOCab auch Krankheiten und Pathogenese ab, einschließlich Indikationen, Arzneimittel, Wirkmechanismen, mikrobielle Arten und Metaboliten. Um die Beschreibung experimenteller Verfahren zu unterstützen, deckt das Core VOCabs Pack Konzepte wie Biochemikalien, Laborverfahren, Maßnahmen und Arten im Fall experimenteller Systeme ab.RightFind Navigate von CCC enthält über 20 Millionen Synonyme aus den biomedizinischen Vokabularen von SciBite und reichert Suchergebnisse semantisch über eine Vielzahl verbundener Datenquellen an, darunter PubMed, Europe PMC, NIH Clinical Trials, FDA@Drugs und über 40 weitere lizenzierte Datenquellen von Drittanbietern. Mit in Echtzeit angewendeten Vokabularen bietet RightFind Navigate mit semantischer Suche ein flexibles, skalierbares, offenes Ökosystem, das darauf ausgelegt ist, den Ertrag der Unternehmen aus ihren Inhalts- und Dateninvestitionen zu maximieren.Einige Beispiele für Anwendungsfälle, die das Kern-VOCab-Paket unterstützen könnte, sind die Überprüfung der wissenschaftlichen Literatur, um potenzielle Biomarker zu identifizieren, die mit einer bestimmten Indikation in Zusammenhang stehen. RightFind Navigate mit semantischer Suche konsolidiert verschiedene Inhaltstypen und nutzt das VOCab-Paket, um gezielte Erkundung und Vertrauen zu bieten, ohne dass umfassende Datenwissenschaftskenntnisse erforderlich sind.Die Suche in Inhaltsquellen in RightFind Navigate, wie dem RightFind-Katalog wissenschaftlicher Literatur, Medline oder Elseviers Science Direct, mithilfe des SciBite Core VOCab-Pakets würde es Forschern ermöglichen, Biomarker (Gene, Proteine oder miRNAs) zu identifizieren, die mit einer Indikation oder Untertypen einer Indikation in Zusammenhang stehen. So könnten Forscher*innen feststellen, welche Patient*innen auf ein bestimmtes Therapeutikum ansprechen könnten, was die Gestaltung einer klinischen Studie oder Untersuchung unterstützen würde. Diese Informationen könnten auch verwendet werden, um die potenzielle Marktgröße eines neuen Therapeutikums einzuschätzen. Ein weiterer potenzieller Anwendungsfall wäre die Identifizierung von Biomarkern oder Signalwegen, die mit der Behandlung selbst in Zusammenhang stehen, was Forscher*innen dabei helfen würde, potenzielle unerwünschte Wirkungen zu identifizieren und festzustellen, welche Signalwege moduliert werden.Das Core VOCab-Paket könnte auch verwendet werden, um die wissenschaftliche Literatur auf Wettbewerbsinformationen zu überprüfen und nach Therapien zu suchen, die auf dieselben Proteine oder Signalwege abzielen oder einen gemeinsamen Wirkmechanismus haben könnten. Die Überprüfung einer aggregierten Suche nach veröffentlichter wissenschaftlicher Literatur, Patenten und klinischen Studien in RightFind Navigate würde Informationen darüber liefern, was bereits auf dem Markt ist und was möglicherweise in Zukunft auf den Markt kommen könnte, mit dem Mehrwert von SciBite VOCabs zur Kontextualisierung von Suchergebnissen für Wettbewerbsanalyse-Workflows.Forscher*innen im Frühstadium können das Kernvokabularpaket in RightFind Navigate während der Arzneimittelentdeckungsphase nutzen, um Tests oder Techniken zu identifizieren, die zur erfolgreichen Bewertung ähnlicher Verbindungen verwendet wurden, wodurch ein Forscher*innen wertvolle Zeit bei der Entwicklung eines neuen Tests von Grund auf spart. SciBite-Ontologien können in Verbindung mit RightFind Navigate Forschern im Frühstadium helfen, schneller an die richtigen Informationen zu gelangen und die Angst vor dem Übersehen wichtiger Daten zu verringern. Dies könnte auch dazu beitragen, potenzielle Expert*innen oder wichtige Meinungsführer*innen auf dem Gebiet zu identifizieren. Wenn das Kernvokabularpaket auch zur Suche in internen Dokumenten wie ELN-Daten oder SharePoint-Laufwerken verwendet wird, könnte es auch dazu verwendet werden, internes Fachwissen zu einem bestimmten Test oder einer bestimmten Technik zu identifizieren und sogar die Duplizierung von Daten zu vermeiden, die bereits innerhalb der Organisation vorhanden sind. Und für alle diese regelmäßig stattfindenden Aktivitäten können die Warnmeldungen von RightFind Navigate verwendet werden, um neue Inhalte kontinuierlich zu überwachen und zu aktualisieren, sodass Forscher*innen dieselben Suchvorgänge nicht immer wieder manuell ausführen müssen.FazitZusammenfassend lässt sich sagen, dass das in RightFind Navigate integrierte Kern-VOCab-Paket von SciBite einen hervorragenden Einstiegspunkt für das Hinzufügen von Ontologien und semantischer Suche in einem breiten Spektrum biologischer Konzepte bietet. Die umfassende Synonymunterstützung und Kontextualisierung bedeutet, dass die Suchgenauigkeit und -abfrage im Vergleich zur Stichwortsuche erheblich verbessert werden. Das Kern-VOCab-Paket kann auch mit spezialisierteren VOCabs kombiniert werden, um ein breiteres Spektrum an Anwendungsfällen zu unterstützen. Wir werden einige der spezialisierteren VOCabs in weiteren Blogbeiträgen behandeln.Weiterführende Literatur:Vorteile der semantischen Anreicherung in der gesamten Arzneimittelentwicklungspipeline5 Fragen an SciBite
Vorstellung des RightFind Suite Growth Bundle – Literaturverwaltung für kleine und mittlere Unternehmen28 Januar 2025