Wie sehen die Basismodelle für KI aus?

URL kopieren

Ein Basismodell ist ein Modell des maschinellen Lernens (ML), das für das Ausführen verschiedener Aufgaben trainiert ist. 

Bis vor Kurzem waren Systeme der künstlichen Intelligenz (KI) spezialisierte Tools. Das heißt, ein ML-Modell wurde für eine bestimmte Anwendung oder einen einzigen Use Case trainiert. Der Begriff Basismodell (auch als „Foundation Model“ bekannt) kam auf, als Expertenteams 2 Trends auf dem Gebiet des maschinellen Lernens beobachteten:

  1. Eine kleine Anzahl von Deep Learning-Architekturen wurde eingesetzt, um Ergebnisse für eine Vielzahl von Aufgaben zu erzielen.
  2. Aus einem KI-Modell können neue Konzepte hervorgehen, die ursprünglich beim Training nicht vorgesehen waren. 

Die Basismodelle wurden so programmiert, dass sie mit einem allgemeinen kontextuellen Verständnis von Patterns, Strukturen und Abbildungen funktionieren. Dieses grundlegende Verständnis für die Kommunikation und das Erkennen von Mustern schafft eine Wissensbasis, die weiter modifiziert oder verfeinert werden kann, um bereichsspezifische Aufgaben für nahezu jede Branche durchzuführen.

 

Zwei entscheidende Merkmale, die das Funktionieren von Basismodellen ermöglichen, sind Transfer Learning und Skalierung. Transfer Learning bezieht sich auf die Fähigkeit eines Modells, Informationen über eine Situation auf eine andere anzuwenden und auf seinem internen „Wissen“ aufzubauen.

 Skalierung bezieht sich auf die Hardware, insbesondere auf die GPUs (Graphics Processing Units), die es dem Modell ermöglichen, mehrere Berechnungen gleichzeitig durchzuführen, was auch als Parallelverarbeitung bezeichnet wird. GPUs sind für das Trainieren und Bereitstellen von Deep Learning-Modellen, einschließlich Basismodellen, von entscheidender Bedeutung, da sie Daten schnell verarbeiten und komplexe statistische Berechnungen durchführen können.

Deep Learning und Basismodelle
Viele Basismodelle, insbesondere solche, die im NLP (Natural Language Processing), in der Bildverarbeitung und in der Audioverarbeitung verwendet werden, werden mit Deep Learning-Techniken trainiert. Deep Learning ist eine Technologie, die vielen (aber nicht sämtlichen) Basismodellen zugrunde liegt und viele Fortschritte auf diesem Gebiet ermöglicht hat. Beim Deep Learning, auch bekannt unter den Begriffen „Deep Neural Learning“ oder „Deep Neural Networking“, lernen Computer, Wissen durch Beobachtung zu erwerben. Sie imitieren also die Art und Weise, wie wir Menschen uns Wissen aneignen. 

Transformer und Basismodelle 
Obwohl nicht alle Basismodelle Transformer verwenden, hat sich eine Transformer-Architektur als beliebte Methode zum Erstellen von Basismodellen erwiesen, die Text beinhalten, wie beispielsweise ChatGPT, BERT und DALL-E 2.  Transformer verbessern die Fähigkeit von ML-Modellen, indem sie kontextuelle Beziehungen und Abhängigkeiten zwischen den Elementen in einer Datenfolge erfassen können. Transformer sind eine Art ANN (Artificial Neural Network, künstliches neuronales Netz) und werden für NLP-Modelle verwendet. Sie werden jedoch in der Regel nicht in ML-Modellen eingesetzt, die ausschließlich Modelle für maschinelles Sehen oder Sprachverarbeitung verwenden.

Nach dem Training eines Basismodells kann dieses auf das aus den umfangreichen Datenbeständen gewonnene Wissen zurückgreifen, um Probleme zu lösen – eine Fähigkeit, die für Unternehmen in vielerlei Hinsicht wertvolle Erkenntnisse und Beiträge liefern kann. Zu den allgemeinen Aufgaben, die ein Basismodell erfüllen kann, gehören:

Natural Language Processing (NLP)
Durch das Erkennen von Kontext, Grammatik und sprachlichen Strukturen kann ein in NLP geschultes Basismodell Informationen aus den Daten, mit denen es trainiert wurde, generieren und extrahieren. Eine weitere Feinabstimmung eines NLP-Modells durch Training, um Text mit einer Stimmung (positiv, negativ, neutral) zu assoziieren, kann für Unternehmen nützlich sein, die schriftliche Nachrichten wie Kundenfeedback, Online-Bewertungen oder Beiträge in sozialen Medien analysieren möchten. NLP ist ein weiter gefasster Bereich, der Entwicklung und Anwendung umfangreicher Sprachmodelle (Large Language Models, LLMs) umfasst.

Maschinelles Sehen
Wenn das Modell grundlegende Formen und Merkmale erkennen kann, kann es beginnen, Muster zu identifizieren. Die weitere Feinabstimmung eines Modells zum maschinellen Sehen kann zu automatisierter Inhaltsmoderation, Gesichtserkennung und Bildklassifizierung führen. Modelle können auch neue Bilder auf der Basis erlernter Muster erzeugen. 

Audio-/Sprachverarbeitung
Wenn ein Modell phonetische Elemente erkennen kann, kann es unsere Stimmen deuten. Dies kann zu mehr Effizienz und Inklusion in der Kommunikation führen. Virtuelle Assistenten, mehrsprachige Unterstützung, Sprachbefehle und Funktionen wie Transkription fördern Barrierefreiheit und Produktivität. 

Mit zusätzlicher Abstimmung können Unternehmen weitere spezialisierte maschinelle Lernsysteme entwickeln, um branchenspezifische Anforderungen zu erfüllen. Dazu gehören Betrugserkennung für Finanzinstitute, Gensequenzierung für das Gesundheitswesen, Chatbots für den Kundenservice und vieles mehr.

Machen Sie den KI/ML-Test 

Basismodelle bieten Zugang und ein Niveau an KI, das viele Unternehmen mit den eigenen Ressourcen nicht aus eigener Kraft erreichen können. Durch den Einsatz und weiteren Ausbau von Basismodellen können Unternehmen häufige Schwierigkeiten überwinden, wie etwa:

Begrenzter Zugang zu Qualitätsdaten: Basismodelle bieten ein Modell, das auf Daten aufbaut, zu denen die meisten Organisationen keinen Zugang haben.

Performance/Genauigkeit des Modells: Basismodelle bieten eine grundlegende Qualität als Basis, die eine Organisation erst nach Monaten oder sogar Jahren selbst erreichen kann. 

Wertschöpfung: Das Training eines maschinellen Lernmodells kann viel Zeit in Anspruch nehmen und erfordert viele Ressourcen Basismodelle bieten einen Ausgangspunkt für ein Training vorab. Anschließend können Unternehmen dann Feinabstimmungen vornehmen, um benutzerdefinierte Ergebnisse zu erzielen. 

Begrenzte Ressourcen: Basismodelle bieten Unternehmen die Möglichkeit, KI/ML zu nutzen, ohne dass sie viel in Data Science-Ressourcen investieren müssen. 

Kostenmanagement: Durch die Verwendung eines Basismodells wird der Bedarf an teurer Hardware, die für das initiale Training erforderlich ist, reduziert. Die Kosten für die Bereitstellung und Feinabstimmung des endgültigen Modells sind zwar immer noch hoch, betragen aber nur einen Bruchteil der Kosten, die für das Training des Basismodells selbst anfallen würden.

 

Es gibt zwar viele interessante Anwendungen für Basismodelle, aber es gibt auch eine Vielzahl potenzieller Herausforderungen, die zu beachten sind.

Kosten
Basismodelle erfordern erhebliche Ressourcen für Entwicklung, Training und Deployment. Die anfängliche Trainingsphase von Basismodellen erfordert große Mengen an allgemeinen Daten, konsumiert Zehntausende von GPUs und erfordert oft ein Team von ML-Engineers und Data Scientists. 

Interpretierbarkeit 
Der Ausdruck „Black Box“ bezieht sich auf den Fall, dass ein KI-Programm eine Aufgabe in seinem neuronalen Netz durchführt und seine Arbeit nicht zeigt. Dadurch kommt es zu einer Situation, in der nicht einmal die Data Scientists und Engineers, die den Algorithmus entwickelt haben, genau erklären können, wie das Modell zu einer bestimmten Ausgabe gelangt ist. Durch den Mangel an Interpretierbarkeit bei Black Box-Modellen kann es zu negativen Auswirkungen kommen, wenn diese für Entscheidungen von großer Tragweite genutzt werden, besonders in Branchen wie Gesundheitswesen, Finanzwesen oder Strafrecht. Dieser Black Box-Effekt kann bei auf neuronalen Netzen basierenden Modell auftreten, nicht nur bei Basismodellen. 

Datenschutz und Sicherheit 
Basismodelle erfordern den Zugang zu einer Vielzahl von Informationen. Manchmal gehören dazu auch Kundeninformationen oder geschützte Geschäftsdaten. Hier ist besondere Vorsicht geboten, wenn das Modell von Drittanbietern eingesetzt wird oder diese darauf zugreifen.

Genauigkeit und Verzerrung 
Wenn ein DL-Modell anhand von Daten trainiert wird, die statistisch verzerrt sind oder keine präzise Darstellung der Population bieten, kann es zu einer fehlerhaften oder verfälschten Ausgabe kommen. Bestehende menschliche Verzerrung wird leider oft auf künstliche Intelligenz übertragen und birgt somit das Risiko, diskriminierende Algorithmen und verzerrte Ausgaben zu schaffen. Der Einsatz von KI in Unternehmen zur Verbesserung von Produktivität und Performance nimmt stetig zu. Daher ist es entscheidend, dass dafür Strategien eingesetzt werden, um Verzerrungen zu minimieren. Dies beginnt bereits mit inklusiven Design-Prozessen und einer sorgfältigeren Berücksichtigung von repräsentativer Diversität innerhalb der erfassten Daten. 

Bei den Basismodellen liegt unser Schwerpunkt auf der Bereitstellung der zugrundeliegenden Workload-Infrastruktur. Dazu gehört auch die Umgebung, die das Training, die schnelle Abstimmung, die Feinabstimmung und die Bereitstellung dieser Modelle ermöglicht.

Als führendes Unternehmen bei Hybrid und Multi-Cloud-Container-Entwicklungsplattformen fördert Red Hat® OpenShift® die Zusammenarbeit zwischen Data Scientists und Softwareentwicklerinnen und -entwicklern. Red Hat beschleunigt die Einführung intelligenter Anwendungen in Hybrid Cloud-Umgebungen, vom Rechenzentrum über den Netzwerkrand bis hin zu Multi-Cloud-Umgebungen.

Mit Red Hat OpenShift Data Science können Unternehmen auf die Ressourcen zugreifen, die sie für das schnelle Entwickeln, Trainieren, Testen und Bereitstellen containerisierter ML-Modelle benötigen, ohne eine Kubernetes-Infrastruktur entwickeln und bereitstellen zu müssen. 

Die zuverlässige Basis von Red Hat OpenShift AI ermöglicht Kunden zuverlässiges Skalieren zum Trainieren von Basismodellen unter Verwendung der nativen GPU-Beschleunigungsfunktionen von OpenShift sowohl On-Premise als auch über einen Cloud Service. OpenShift AI ist auch für die Bereitstellung von IBM watsonx und Ansible® Lightspeed verantwortlich. 

Mit Ansible Lightspeed und IBM watsonx Code Assistant können Entwicklungsteams mithilfe eines generativen KI-Service effizienter Inhalte für Ansible erstellen. Die Lösung liest die von Nutzenden eingegebenen Informationen und interagiert dann mit den Basismodellen von IBM watsonx, um Codeempfehlungen für Automatisierungsaufgaben zu generieren, die dann zum Erstellen von Ansible Playbooks verwendet werden. Stellen Sie Ansible Lightspeed auf Red Hat Openshift bereit, um die schwierigen Aufgaben in Kubernetes durch intelligentes Automatisieren und Orchestrieren zu vereinfachen.

Weiterlesen

Artikel

Was sind Red Hat OpenShift Operatoren?

Red Hat OpenShift Operatoren automatisieren die Erstellung, Konfiguration und Verwaltung von Instanzen Kubernetes-nativer Anwendungen.

Artikel

Was für Red Hat OpenShift Serverless spricht

Red Hat OpenShift Serverless erweitert Kubernetes auf die Bereitstellung und Verwaltung serverloser Workloads.

Artikel

Warum Red Hat OpenShift Service Mesh?

Mit dem Red Hat OpenShift Service Mesh können Sie Anwendungen, die auf Microservices basieren, auf einheitliche Weise verbinden, verwalten und überwachen.

Mehr über OpenShift erfahren

Produkte

Eine Plattform, die es Ihnen ermöglicht, Anwendungen in Ihrem Unternehmen schnell und effizient über die von Ihnen gewünschte Infrastruktur bereitzustellen.

Softwaredefinierter Storage sorgt für einen permanenten Datenspeicher, während Container in mehreren Umgebungen hoch- und heruntergefahren werden.

Eine KI-Plattform, die Tools zum schnellen Entwickeln, Trainieren, Bereitstellen und Überwachen von Modellen und KI-gestützten Anwendungen bietet.

Eine zentrale Konsole mit integrierten Sicherheitsrichtlinien, mit der Sie Kubernetes-Cluster und -Anwendungen verwalten können.

Ressourcen

Training

Kostenloser Trainingskurs

Running Containers with Red Hat Technical Overview

Kostenloser Trainingskurs

Developing Cloud-Native Applications with Microservices Architectures

Kostenloser Trainingskurs

Containers, Kubernetes and Red Hat OpenShift Technical Overview