ID#73

06.08.2024

AI im Unternehmenseinsatz, KW 32: Siemens Industrial Copilot, Llama 3.1, AGI-Skala von OpenAI – ID#73

Zweite Folge unserer neuen Serie zum Thema AI im Unternehmenseinsatz. Wir wollen hier aktuelle News und auch jeweils ein Schwerpunktthema behandeln.

In dieser Folge: KI ist Technologiechef-Sache, Bundeskartellamt vs Microsoft, Siemens Industrial Copilot, Meta veröffentlicht Llama 3.1: Open Source und besser als GPT-4, SpreadsheetLLM: Microsoft-Methode für GPT4, Llama etc. & große Excel-Tabellen, Trend kleine Sprachmodelle
Schwerpunktthema: Die fünfstufige AGI-Skala von OpenAI: Wo stehen wir aktuell?

Im Gespräch: Jan Jikeli, Ansgar Knipschild
Länge: 30 Minuten

Links zu den News:

Transkript

Hallo und herzlich willkommen zu einer weiteren Folge unseres Podcasts. Mein Name ist Ansgar Knipschild und dies ist ID Industrieversicherung Digital mit einer weiteren Folge zum Thema AI im Unternehmenseinsatz. Mit mir an Bord ist wie immer mein Kollege Jan Ikeli.

Auch heute haben wir wieder News aus der AI-Nutzung in Unternehmen und wie immer auch ein paar technische Neuigkeiten. Bei unserem Schwerpunktthema diskutieren wir heute über die fünfstufige AGI-Skala von OpenAI, die wir vor kurzem publiziert haben. Bevor wir mit den News starten, hier noch ein kurzer Nachtrag zu unserer letzten Diskussion um PKI. Da kann ich mir noch gut dran erinnern, wie wir letztes Mal diskutiert haben, Jan. Interessanterweise hat das Handelsblatt in seinem KI-Briefing ein paar Tage später auch was zu dem Thema geschrieben und hat auch so die Pros und Cons um die Bewertung, sind wir jetzt bei dem PKI angelangt oder nicht, geteilt.

Ich lese das vielleicht mal kurz vor, weil es ist ganz interessant, wie die bzw. hier auch nochmal ein Experte das Thema sehen. Also, das Handelsblatt schreibt:

Oft ist von einer exponentiellen Entwicklung die Rede. Aber in den vergangenen Wochen ist die Taktung der wirklich neuen und aufregenden KI-Animation meiner Meinung nach langsamer geworden. Und die Sprachmodelle, so scheint es, entwickeln sich auch nur noch marginal. Haben wir bei der KI-Entwicklung vielleicht schon ein Plateau erreicht? Daniel Kremers, Professor für Bildverarbeitung und künstliche Intelligenz an der Technischen Universität in München, sagt auf dem Munich AI Day, nein, aktuell seien Menschen die besseren Generalisten, sagt Kremers. Sie könnten zum Beispiel mehrere Sprachen sprechen, Bälle jonglieren und Klavier spielen.

Eine Maschine zu finden, die all das könne, sei eine Herausforderung. Wenn man sich aber auf einen Bereich fokussiere, dann könne man eine KI entwickeln, die den Menschen schlägt. Kremers sagt ja wörtlich, ich sehe, dass das passiert, ich sehe, dass das wächst und da wird noch viel mehr kommen.

Also klares Bekenntnis, dass wir das Plateau noch lange nicht erreicht haben, sondern noch viel für uns haben. Er sagt auch ganz klar, es gibt keine Entschleunigung in der Entwicklung, denn mit den aktuellen KI Modellen könnten die Wissenschaftler viel mehr tun als zuvor. Wörtlich sagte er zum Schluss, die großen Sprachmodelle beschleunigen die Forschung, so nutzen auch viele seiner Studenten chat-GPT sowohl zu Forschungszwecken als auch zum Coden.
Fand ich nochmal interessant, dass hier aus der wissenschaftlichen Ecke eher der Standpunkt eingenommen wird, dass wir da also noch lange nicht beim Peak angekommen sind, sondern wahrscheinlich auch noch ein paar größere Innovationssprünge vor uns haben. So, dass das kurz danach klappt zu unserer letzten Diskussion, aber kommen wir nun zu unseren News und wir starten mit dir, Jan. Du hast auch schon mal wieder beim Handelsblatt was ganz Interessantes gefunden.

Ja, das passt genau zu dem, was du halt sagst. Also KI, die Grafik der Woche, die wir vorstellen wollen, KI ist Technologie-Chefsache. Und für mich ist die Frage, wer treibt eigentlich die KI-Revolution, oder die, wenn wir noch nicht auf dem Plateau sind und noch viel passiert, wer treibt diese Entwicklung?
Und da gab es eben eine Untersuchung von der Personalberatung Kinbaum. Und dort wurde herausgestellt, dass 48% der Unternehmen wird das Thema KI im Bereich von CIO oder CTO getrieben. Und somit eindeutig in der Technologie, beim Technologie-Resort verortet.

Und dazu gibt es auch eine Äußerung von der Daniela Rittmeier, von der Technologieberatung Capgemini, die sagt eben, dass sie das für den falschen Weg hält. Da die, um KI-Integrationen nachhaltig zu verankern, muss die Verantwortung direkt beim CIO verankert sein, um da eben auch Geschwindigkeit drauf zu bekommen. Genau.
Ich glaube, das passt ja ganz gut so ein bisschen auch zu unserer Meinung, wo wir immer sagen, AI ist eben nicht nur ein technisches Thema, sondern immer wieder auch ein Thema der Organisation des gesamten Unternehmens, zumindest langfristig. Mich hat bei der Grafik am meisten überrascht, dass 12 Prozent der Unternehmen das Thema AI beim CFO verankern kann. 12 Prozent sind ja nicht wenige, aber wie man auf die Idee kommt, ist ehrlicherweise ein bisschen schleierhaft. Ich weiß nicht, hast du da irgendeine Fantasie zu?

Ja, die Frage ist halt ob es geht um viel Geld, es geht um viel Geld, um das einzubringen. Und es geht aber vielleicht auch darum, dass man in dem Finanzsektor natürlich auch Dinge treiben kann oder umsetzen kann. Und mein Eindruck in den Gesprächen, die wir so haben, ist auch oft, dass es von der Person abhängt. Das heißt, wenn der CFO eben jemand ist, der das Thema treibt, dann kann es sein, dass es in diesem Unternehmen halt so ist, dass es eben von der Person getrieben wird und nicht unbedingt bei demjenigen verankert ist, der vielleicht technisch am meisten davon weiß. Das war so ein bisschen meine Interpretation dieser Grafik.

Ja, verstehe. Da mache ich mal weiter mit der zweiten News. Es geht wieder um das Thema Microsoft und die Marktmacht.
Ich sehe da Microsoft auch immer so ein bisschen stellvertretend für die anderen großen Player, sei es jetzt Google oder eben OpenAI durch die enge Verbandelung. Das Bundeskarteilamt hat sich jetzt auch eingeschaltet. Wir hatten das Thema ja in einem anderen Kontext auch schon beim letzten Mal dabei.

Unsere Wettbewerbshüter wollen Microsofts Marktmacht hier einfach einschränken, denn es droht da schon eine hohe Strafe aus Brüssel wegen der Chat- und Videodienste. Aber noch mehr scheint das Thema zu sein, denn wir sehen jetzt eben durch die starke Dominanz im Bereich KI, bei Microsoft kleinen Office-Produkten, wo es jetzt überall drin ist, wo fast jeder, der da zahlender Abonnent ist, von Office 365 ja auch bekommt, und diese enge Partnerschaft mit OpenAI.
Und da gab es ein interessantes Statement hier vom Behördenchef des Bundeskartellamts, Andreas Mund, der sagte, also die suchen wirklich den kleinsten Zipfel, um Wettbewerbsmaßnahmen gegen Microsoft zu ergreifen. Ich finde das nach wie vor relevant, unabhängig jetzt davon, wie man dazu steht, dass man eben bei seiner Entscheidung bei der Einführung von RM-Unternehmen das einfach auf dem Schirm haben muss, welche Konsequenzen es haben könnte, konjunktiv, wenn es hier wirklich zu Einschränkungen oder nicht nur Strafzahlungen kommt für Microsoft, dass man sich hier also auch versucht, wirklich das Hersteller neutral aufzustellen, um einfach das Risiko zu minimieren. Ansonsten können hier gegebenenfalls auch bei so einer Entscheidung, welchen Partner man da auswählt, auch wirklich an die Konsequenzen hintendran hängen.

Ein anderer Aspekt dabei ist natürlich, wenn man aus Kantell-Amtssicht Microsoft zu sagen verhindert oder behindert, wie positioniert sich Microsoft dann dazu? Wie werden wirklich die neuesten Modelle auch hier rausgerollt? Oder wird man vielleicht aus taktischen Gründen sehen, dass Microsoft sich anders positioniert und Modelle nicht ausrollt, weil sie vielleicht das im Moment noch nicht für sinnvoll erhalten im europäischen Markt reinzudringen?

Ja, und ich mach mal direkt weiter mit der dritten News aus dem Unternehmensumfeld. Es geht um Siemens. Siemens bringt die KI in die Fabrik. So hieß es in der News-Meldung und nutzt die KI für die Anpassung von Steuerungen im Sondermaschinenbau. Also interessant finde ich hier. Hier geht es mal um ein Thema, wo AI nicht nur im Office-Umfeld, also Dienstleistungsbereich am Schreibtisch sozusagen eingesetzt wird, sondern Siemens führt das jetzt wirklich in die Fabriken ein. Die nennen das den Industrial Copiloten. Und das soll schon diesen Monat bereit beim Kunden sein. Gibt ein Beispiel in dem Artikel, wo Schäffler genannt wird.
Und es zeigt eben, dass die AI immer mehr auch eben in die Nicht-Dienstleistungsbereiche reingeht. Sehr interessant fand ich in dem Artikel, dass Siemens keine Zusatzkosten für seine Copiloten verlangen will, also vom Geschäftsmodell her, sondern sie packen das da rein, um den Mehrwert eigentlich ihres Produktes zu steigern, um sich halt auch vom Wettbewerb zu differenzieren. Obwohl wahrscheinlich der Betrieb von dem ganzen Ding auch nicht ganz billig sein wird, denn jede Anfrage an die AI, an Microsoft in der Cloud, die ich jetzt mal hier unterstelle, kostet Geld.
Und von daher ist Microsoft hier wieder mal derjenige, der lachend in der Ecke steht und für jede Transaktion oder für jeden Call an die AI natürlich davon profitiert. Und von daher, glaube ich, gilt auch dieser alte Satz, den wir auch häufiger in den letzten Wochen so in den News, wie wir gehört haben, profitieren tun vor allen die Schaufelhersteller, wie das damals zu den Goldrauschzeiten ist, die Leute, die die Tools und Werkzeuge zur Verfügung stellen. Das nicht nur Nvidia, wenn man an dem Beispiel sieht, auch Microsoft, die hier natürlich davon profitieren, wenn ein Hersteller wie Siemens ihre AI-Produkte dort integriert.

Also finde ich vom Businessmodell her spannend. Und noch mehr interessiert mich, wie gut die Schrittkettenprogrammierung danach funktioniert. Denn das Thema ist, glaube ich, auch nicht ganz ohne.
Mal gucken, ob darüber auch demnächst berichtet wird. Ja, es ist ja auch spannend, wie Siemens sich da ausgerichtet hat. Siemens hat ja eine Azure- oder Cloud-only-Strategie vor einigen Jahren aufgesetzt. Und hat ja die kompletten Daten in der Cloud. Und ist damit auch sehr, sehr auf Azure ausgerichtet. Und deswegen passt das natürlich auch, dass sie da eben überhaupt gar nicht hinterfragen, ob man da ein anderes Modell benutzen könnte. Sondern eben in dieser strategischen Ausrichtung weiter vorwärtsgehen.

Ich hab eine andere News mitgebracht. Letzte Woche, es hat Meta-Llama 3.1 veröffentlicht. Und das ist das erste Open Source Modell, was besser oder gleich zieht mit GPT-4. Und das ist aus meiner Sicht sehr, sehr spannend. Weil das hatte auch sofort zur Folge, dass GPT-4 ein GPT-4-O-Mini rausgebracht hat, wo man auch für zwei Monate dann kostenfrei ausprobieren konnte. Und man sieht, dass es dadurch einen enormen, ja, Kampf, Wettbewerbskampf gibt, der auch sich auf den Preis auswirkt. Was sind aus meiner Sicht die wichtigsten Vorteile von LLama 3.1? Das erste ist, wir haben erweitertes Kontextfenster. Die Kontextlänge ist, ja, bei 128.000 Tokens. Deutlich längere Textpassagen sind dadurch möglich, zu verarbeiten, zu verstehen. Und dies verbessert auf jeden Fall die Fähigkeit für komplexe Aufgaben und dadurch bessere Antworten zu geben. Die Parameterzahl ist viel, viel größer geworden.

Also bei 405 Milliarden Parametern. Und das führt auch dazu, dass die eine bessere Textgenerierung hat und damit ideal für eine Unternehmensanwendung und Forschung dasteht. Was auch spannend ist, ist die mehrsprachige Unterstützung.
Also gerade im deutschsprachigen Raum. Deutsch wird unterstützt und das funktioniert auch sehr, sehr gut. Und was ich auch spannend finde, ist das ganze drum herum. Also Fine-Tuning von den Modellen ist mitgedacht. Und man kann eben dadurch sehr viel schneller auf spezifische Anforderungen die Modelle trainieren oder Fine-Tune. Und natürlich, was hab ich hier oben schon mal gesagt, ist Open Source und die Kosteneffizienz.

Was ein bisschen den Druck auf die Marktführer, Microsoft mit OpenAI, ja, was ein bisschen Druck ausmacht und was uns vielleicht ermöglicht, doch noch andere Modelle zu benutzen oder zu, die gleichwertig sind wie die Microsoft-Modelle.
Ich weiß nicht, hab ich das richtig gelesen, dass Lama aber noch nicht zeitgleich in der EU ausgeliefert wird? Oder war das ein anderes Modell? Weißt du das gerade?

Genau, also da gibt es, hab ich auch gelesen, ich weiß nicht mehr, was ich gelesen habe.
Da musst du es auf den nächsten Podcast vertragen. Aber ich meine gelesen zu haben, dass es eben aufgrund der Derregulare noch ein bisschen länger dauert, bis es eben auch in der EU ausgeliefert wird. Das heißt, deutsche Unternehmen müssen noch ein bisschen warten oder können sich vielleicht mit dem Modell schon beschäftigen, aber einen produktiven Einsatz dann eben ja später.

Okay, das liefern wir nach beim nächsten Podcast.
Ich mache mal weiter mit der nächsten News. Da geht es um Forschung, also noch nicht fertiges Software. Ein Unterschied zu Lama 3, was du gerade fortgestellt hast, nämlich Microsoft ist ja auch in der Forschung aktiv und hat jetzt ein Paper veröffentlicht mit dem Namen Spreadsheet LLM. Der Name zeigt schon, worum es geht. Tabellenkalkulation, Excel. Kleine Excels, kleine CSVs kann man mit den gängigen Modellen heute ja schon ganz gut bearbeiten. Aber wenn wir uns mal den Unternehmenseinsatz Excel-Dateien angucken, dann sind die ja beliebig groß. Wenn man gerade mal an Bestellungen oder an Auswertungen denkt, sind die selten mehrere hundert oder tausend Zeilen oder auch Spalten. Da muss man ganz klar sagen, damit kommen die heutigen Modelle wegen des Kontextfensters, was du eben auch schon angesprochen hast. Aber von der Struktur her einfach nicht mit klar. Hier hat Microsoft jetzt eine Methode entwickelt, die mit verschiedenen Modellen funktioniert. GPT-4, aber auch Lava.

Ganz interessant, dass sie nicht nur auf dem eigenen Modell, GPT-4 hier, forschen, sondern eben auch auf den Konkurrenzmodellen, wenn man so will, Lama, mit denen eben die Treffergenauigkeit, also was will ich aus dem Excel auslesen, deutlich steigert, nämlich um 13 Prozentpunkte, von irgendwas mit 60 Prozent auf über 79 Prozent. Da sind wir glaube ich noch nicht am Ende. Und es zeigt so ein bisschen, dass jetzt so langsam auch diese Anwendungsfälle aus dem Unternehmenseinsatz rund um Excel, um strukturierte Listen immer mehr an Bedeutung gewinnen, weil man eben merkt, sie funktionieren noch nicht so gut, wie man es gerne hätte.

Microsoft investiert und ich hoffe mal, dass in den nächsten Wochen auch Software rausfällt, Bibliotheken vielleicht, mit denen man das Thema Excel und Co. im AI-Kontext halt besser nutzen kann. Denn, Rob Jan, du kennst es ja auch so ein bisschen, ja, so in unserem Alltagseinsatz, das ist ein Riesenthema bei den Kunden halt.
Excel-Dateien, Mappen, wie viel E-Mails werden heute noch hin und her geschickt, wo irgendwelche Bestellungen, Listen, Abgleiche drin sind. Und das ist verdammt viel Handarbeit. Aber die AIs schaffen es halt noch nicht so gut wie unstrukturierte Texte, meiner Meinung nach.
Wie ist das?

Ja, genau. Also wir haben ja auch da Projekte schon bei uns gemacht und da auch die ersten News-Cases sozusagen aufgebaut. Und also es ist für die Kunden sehr, sehr spannend.
Im Versicherungsumfeld wird das sehr, sehr viel angefragt. Aber eigentlich durchweg in allen Bereichen. Also Excel ist immer noch eigentlich die Software, die am meisten benutzt wird und wo alle möglichen Logiken abgebildet werden.
Und wenn man das schafft, das wirklich herauszuarbeiten hat, ist man, glaube ich, einen großen Schritt weiter, die Dinge abzulösen und vielleicht auch wirklich Digitalisierung voranzubringen. Insofern ist es sehr, sehr spannend. Und ich freue mich darauf, was da jetzt passiert.

Und hoffentlich, wie du schon sagst, gibt es da Bibliotheken, die wir nutzen können. Und die uns dann ermöglichen, eben da auch noch schneller die Anwendung an den Markt zu bringen. Was wir als großes weiteres Thema haben, ist, dass die Sprachmodelle, die großen Sprachmodelle von OpenAI oder Claude eben ein nachhaltigeres Thema haben.

Und insofern ist hier Artikel Small is Beautiful sehr, sehr spannend, weil er uns genau in diese Richtung geht, dass man sagt, wir benutzen kleinere Modelle, um ganz konkrete Mehrwerte und spezifische Aufgaben zu lösen. Und diese spezifischen Aufgaben können eben dann wirklich mit kleinen, kostengünstigen und wirtschaftlich sinnvoll volleren Modellen betrieben werden. Wenn man sich beispielsweise jetzt anschaut, was das Training von GPT-5 kostet, also wir wissen natürlich nicht genaue Zahlen, aber da geht man davon aus, dass es mehr als zwei Milliarden US Dollar kostet.
Und bei diesen Zahlen wird natürlich die Frage gestellt, ist das wirtschaftlich, ist OpenAI mit dem Konzept, was die im Moment fahren, eigentlich wirtschaftlich sinnvoll? Und wenn, dann müssen diese Kosten ja auch irgendwie weitergegeben werden. Das bedeutet auch jedes Unternehmen, was diese großen Modelle benutzt, muss sich dann die Frage stellen, möchte man wirklich sich an diesen Kosten so beteiligen und da eben im Lizenzmodell sehr viel Geld bezahlen oder eben spezifischere Modelle auswählen, die eben mit sehr viel weniger Rechenkraft auskommen und eben nachhaltiger sind und damit eben die speziellen Probleme, die in den Unternehmen halt auftreten, lösen können.

Ich glaube, wir sind da in dem klassischen Spannungsfeld Effizienz und Qualität. Also was kann man eben zu welchem Preis, von den Betriebskosten her aber auch Geschwindigkeit, wie ist die Performance von den Dingen? Die großen Modelle sind ja auch tendenziell langsamer.
Je nachdem, wie man sie betreibt, die kleinen Modelle können sehr performant sein. Und ich glaube, da geht es klein die Richtung, wir hatten es glaube ich im letzten Podcast auch schon mal am Rande diskutiert, dass es nicht um das eine Modell geht, sondern um mehrere, die man dann eben im Unternehmenseinsatz sinnvoll orchestriert, je nach Use-Case, genau wie du es gesagt hast, Jan.

Das bringt uns auch eigentlich direkt zum Schwerpunktthema für heute, die fünfstufige AGI-Skala von OpenAI.
Da wollen wir heute mal kurz zumindest eine Diskussion anreißen. Was heißt AGI? AGI ist ja das Kürzel für allgemeine künstliche Intelligenz, also letztendlich die Dystopie, die künstliche Intelligenz, die den Menschen beherrscht oder generell Menschen ähnlich wird. Kommt ja nicht nur nach Science Fiction vor, sondern wird unter anderem auch von Sam Altman, von OpenAI immer wieder mal postuliert. Und deshalb hat OpenAI jetzt eine fünfstufige Skala rausgegeben, mich erinnert so ein bisschen an das autonomere Fahren beim Auto. Da gibt es auch diese verschiedenen Stufen.
Und ja, OpenAI sieht fünf Stufen vor. Stufe 1 Chatbots, Stufe 2 sogenannte Reasoners, Stufe 3 Agenten, Stufe 4 Innovators und Stufe 5 Organizer, also die ultimative Stufe. Chatbots sind die KIs mit Konversationsfähigkeiten, kennen wir alle, Stufe 1, Reasoners, Problemlöser auf Doktorandenniveau, Sie haben es mal beschrieben, Stufe 2.
Die Agenten auf Stufe 3 sind Systeme, die Aktionen auch ausführen können. Also nicht nur einen Text zurückgeben, sondern mit der Umwelt interagieren. Stufe 4 die Innovators, KI, die Dinge erfindet und auch wirklich innovativ ist.
Und Stufe 5 der Organizer, eine KI, die die Arbeit einer Organisation sogar übernehmen kann, weil sie menschenähnlich ist. Gibt es natürlich die spannende Frage, wo stehen wir denn jetzt? OpenAI selber hat beim Veröffentlichen gesagt, wir stehen kurz vor Level 2, also vor den Reasonern, Problemlösern auf Doktorandenniveau.
Also KI-Systeme, die mit menschlichen Denk- und Problemlösungsfähigkeiten dann unterwegs sind. Und wir können da mal ganz kurz zumindest die Diskussion anreißen.

Siehst du das auch so, Jan, dass wir so weit sind? Oder wo würdest du den aktuellen Stand der AI so einordnen bei den fünf Stufen?

Das ist eine sehr spannende Frage. Also die Frage ist ja, was diese Schwelle müsste man erst mal definieren. Was ich sehr spannend fand, war ein Artikel, der letztes Jahr 2023 rausgekommen ist, der aber immer noch zu Diskussionen führt, mit dem Titel Chat GPT Can’t Reasoning. Und dort wird halt genau beschrieben, welche Probleme es gibt. Also es gibt zum Beispiel fehlende Fähigkeit zur logischen Begründung. Obwohl wir bei GPT-4 in sehr, sehr vielen Bereichen wirklich beeindruckende Verbesserungen sehen, fehlt es doch immer noch an der Fähigkeit, logische Schlussfolgerungen zu ziehen.
Und da ist in dem Artikel sind 40 Beispiele genannt, die man eben durchgehen kann und das macht wirklich Spaß, sich das anzugucken. Dann sieht man halt, wo, an welcher Stelle dann GPT-4 immer noch Probleme hat. Genau.

Ein anderer Punkt, den ich auch sehr spannend finde, ist, dass in dem Artikel argumentiert wird, dass wir überhaupt nicht in der Lage sind, das im Moment eigentlich quantitativ zu beurteilen. Also das heißt, wir haben qualitative Analysen und haben eigentlich noch keine quantitiven Metriken etabliert, wo wir diese Frage wirklich beantworten können. Und ich glaube, das ist eigentlich der zentrale Punkt, den wir erst mal erreichen müssen.
Wir müssen eine Form finden, wo wir sagen können, das sind unsere Metriken und so können wir Reasoning erfassen. Und wenn wir das überhaupt nicht haben, wird es auch schwer zu beurteilen, haben wir diese Schwelle eigentlich schon überschritten oder nicht. Das heißt, aus meiner Sicht sind wir ja irgendwo dazwischen.
Also Schwelle vielleicht, aber auf jeden Fall noch nicht auf der Stufe 2. Also da ist sicherlich noch eine ganze Menge zu tun.

Also ich hör so ein vorsichtiges Kontra raus, die sind noch nicht ganz da. OpenAI sagt kurz vor Level 2, du sagst dazwischen. Und weil wir vor der Podcast-Aufnahme immer Stöckchen ziehen und sagen, wer muss die Pro und wer muss die Kontraposition? Dann hab ich jetzt das Stöckchen gezogen. Ich muss pro argumentieren. Aber ich muss auch sagen, ich würde pro argumentieren und sagen, wir sind sogar schon beim Reasoning.

Aber ich würde das einschränken, fährt auf bestimmte Anwendungsfelder oder auf bestimmte Branchen. Denn wenn Reasoning heißt, ich löse wirklich ein Problem, dann glaube ich zum Beispiel, dass wir in bestimmten medizinischen Fällen, also Beispiel Diagnostik, ich muss prüfen, ob ich halt irgendwie zum Beispiel bei der Krebsdiagnose entsprechend schon das früh erkenne oder nicht. Im Coding, ganz anderes Thema, ich habe das Problem zu lösen, einen Bug zu finden oder auch Teile einer Software zu refactoren, dann geht das zwar noch nicht für alles.
Aber ich glaube, dieses Thema Problemlösung, auch als Abgrenzung zu der Stufe 1, reine Konversation, lustiger Chat, sind wir zumindest in bestimmten Anwendungen schon deutlich weiter. Ich glaube, das Hauptproblem ist die Stabilität. Also, dass wir eben mit den Herausforderungen da halluzinieren, wird immer so als erstes genannt, aber auch teilweise wirklich Quatsch produzieren. Also, der einfach keinen Sinn macht, weil es eben rein statistisch produziert wird. Das ist eher so das Thema. Also, nur weil es 95-mal von 100-mal funktioniert hat, bleiben trotzdem die fünf Mal, wo Quatsch rauskommt.

Und dann wird es halt schlecht. Und das zu managen ist vielleicht die größte Hürde noch, um diese Stufe 2 zu zementieren, um sie wirklich stabil zu halten. Ich meine, ein Punkt, der bei der Stufe 2 ja auch drin steht, ist, dass man so gut ist wie ein Doktorand. Das ist natürlich die Frage, was bedeutet das eigentlich, ein Doktorand? Das ist die Frage nach menschlicher und maschineller Fehlbarkeit, die wir uns da stellen müssen. Und ich glaube, dass natürlich Menschen auch Fehler machen. Auch ein Doktorand oder wer auch immer macht Fehler.
Aber das wird in diesem Artikel eben auch klar rausgearbeitet, dass die Fehler, die bei GPT-4 noch vorliegen, sind dem Grundlegend. Es ist nicht, weil man müde ist oder unachtsam ist, sondern es ist ein Grundlegend an einem Mangel an logischem Verständnis. Und das bedeutet, man kann vielleicht über Tricks das jetzt herausnehmen, indem man sagt, okay, diesen Fall haben wir schon mal.

Und dann kann man daran arbeiten, dass GPT-4 eben genau diese Fälle, die dort aufgezeigt werden, jetzt auch irgendwie löst. Aber schaffen wir es wirklich, dass es eine grundlegende Veränderung gibt, die darüber hinausgeht und dann diesem logischen Verständnis aufgearbeitet wird. Und ich glaube, da ist wirklich noch Forschung zu tun.
Das wäre eigentlich mal interessant, vielleicht für eine Einladung eines Experten, der eben auch daran forscht.
Er verfährt doch eine Retour von meiner Seite. Du sagst, es mangelt an logischem Verständnis. Auch da kann man natürlich jetzt ganz provokant fragen, naja, wie ist denn das in der Praxis bei vielen Menschen, auch wirklich bei Doktoranden?

Nehmen wir ruhig mal die Ärzte. Das soll jetzt kein Ärzte-Bashing werden. Aber ich glaube, dass ja einen guten Arzt nicht nur das logische Verständnis auszeichnet, was wirklich manchen fehlt.
Also gerade beim Thema Statistik, wenn man da mal so ein bisschen guckt, medizinische Forschung, Bindung von Arzneimitteln, wie werden da Prozentzahlen interpretiert? Das ist zum Teil schon interessant, also wie da das mangelnde logische oder auch mathematische Verständnis verbreitet ist. Auf der anderen Seite ist Erfahrung natürlich auch ein riesiger Wert. Und wenn man es rein statistisch wieder betrachtet und guckt, wie gut sind die Ergebnisse in Summe? Also wie gut ist eine AI, um eine Diagnose zu stellen, in Summe und wie gut ist ein Mensch und völlig außer Acht lässt, warum sie dazu gekommen ist, sind in einigen Bereichen, glaube ich, ist die AI gar nicht so schlecht aufgestellt. Aber du kommst automatisch zum Thema Vertrauen.
Also da kann man es ja auch mal nennen.

Das ist ja auch genau das, was du am Anfang gesagt hast, wo du hast gesagt, wenn der Zitat aus dem Handelsblatt, wo der Professor geschrieben hat, ja, in einzelnen Bereichen ist es sehr, sehr stark, wenn wir das schaffen, aber nicht in diesem generellen Kontext. Und eben dieser generelle Kontext, das muss ja eben berücksichtigt werden. Das heißt, es ist nicht nur diese eine spezifische Aussage, aber ich kann ein Bild zum Beispiel interpretieren.
Das geht im Moment ja rum, dass irgendwie per Bilderkennung Brustkrebs fünf Jahre vorher erkannt werden konnte durch eine Anwendung von AI. Das ist halt sehr spezifisch und genau darauf trainiert. Und das kann es wohl auch noch tun, aber ein Doktorand, hoffe ich jedenfalls, dass die Doktoranden weitergehend die Fähigkeit haben mit logischem Verständnis und umfassender darauf zu reagieren und nicht nur spitz auf ein Thema fokussiert sind.
Ja, gut, und am Ende des Tages ist es wirklich die Metrik. Wir kommen, glaube ich, bei allen Klassifizierungen irgendwann an den Punkt und gerade auch hier bei dem Thema AI, wo sind eigentlich die Abgrenzungen, die klar nachvollziehbaren Abgrenzungen zwischen den fünf Stufen. Ich glaube, wo wir uns einig sind, Jan, ist, von Stufe 5 sind wir wahrscheinlich noch ziemlich weit weg von entfernt.

Also, dass wirklich eine AI autonom ein Unternehmen oder eine Organisation von Menschen in welcher Form auch immer führt. Das wird noch ein bisschen dauern, weil ich glaube, da geht es auch nicht nur um die praktische Fähigkeit, sondern wirklich auch um die psychologischen, die letztendlich auch menschlichen Komponenten. Will man das?
Und wie lenkt man da die Forschung? Und das wird aber noch mal eine ganz eigene Diskussion.
Ja, die Frage für mich ist auch ein bisschen, ob diese Diskussion im Moment tatsächlich, die wird ja überall geführt, aber ob das die zentrale Diskussion ist. Weil, wenn wir uns anschauen, die Mehrwerte, die wir herausziehen müssen, heißt ja eigentlich, wir müssen die Modelle spezifische Aufgaben lösen lassen. Und die müssen in die Prozessketten mit eingebaut werden in Unternehmen.

Und das ist im Moment eigentlich das, was die Aufgabe für die meisten Unternehmen ist. Und ob es dann am Ende eine Begründung liefern kann oder nicht, spielt vielleicht gar nicht unbedingt die große Rolle in dem jetzigen Zeitpunkt. Weil es noch überhaupt nicht in die Prozesse integriert ist.
Also wir sind vor der Digitalisierung eigentlich noch nicht so weit, dass wir das überhaupt ja so aufsetzen können.

Ja, gutes Schlusswort zu der Diskussion oder dem Beginn einer Diskussion hier wird uns bestimmt noch länger verfolgen. Hater Cut, unser letztes klassisches Kapitel, Prompt of the Day, ein kleiner Tipp für die Praxis. Wie immer von Daily.promptperfect.xyz, ein wunderbarer Domain. Und dort gibt es mehr oder weniger am Tagesrhythmus praktisch nutzbare Prompt-Hinweise. Und ich hab mal hier eine rausgesucht, der dann auch in den Show notes drin ist. Nennt das mal Profi-PDF-Chat mit GPT-4, aber wird auch mit anderen RIS funktionieren, wo man, wenn man eben mal ein Dokument analysieren möchte, ein PDF hier mit Hilfe des Prompts einfach bessere Ergebnisse hinkriegt, weil sie gegliedert sind, weil man auch die Quellenangaben, also auf welcher Seite steht, was uns sogar auch den umgebenden Text drumherum mitbekommt und eben nicht nur diese klassische Chat-GPT-Antwort.

Finde ich sehr interessant und wirklich auch direkt nutzbar im Alltag. Guck mal rein, ist, glaube ich, ein Prompt, mit dem man auch beim täglichen Arbeiten, da sind, glaube ich, irgendwie fünf, sechs Zeilen oder so, echt gute Ergebnisse erzielen kann. Das war es schon wieder.

Die Zeit ist vergangen wie im Flug, wie immer. Ich hoffe, dass es auch für die Zuhörerinnen und Zuhörer hier kurzweilig war und sie das ein oder andere mitgenommen haben. Vielen Dank, dass du dabei warst für deine Zeit und für die anregende Diskussion.

Der Podcast „Industrieversicherung Digital“ ist eine Initiative für den offenen Austausch über die Digitalisierung von Industrie- und Gewerbeversicherung: Versicherer, Makler, Kunden und IT im direkten Dialog.

Machen Sie mit! Wenn Sie ein spannendes Thema, einen Erfahrungsbericht oder einen persönlichen Standpunkt mit Kolleginnen und Kollegen diskutieren möchten, melden Sie sich bei uns: E-Mail und LinkedIn-Gruppenlink auf der Mitmachen-Seite.

Podcast abonnieren über:

Apple PodcastGoogle PodcastSpotifyAmazon MusicDeezer