RAG Reranking King

Bei Pandorabot.io verstehen wir die Herausforderungen, denen Organisationen gegenüberstehen, wenn es darum geht, effizient auf das Wissen zuzugreifen und es zu nutzen, das in ihren umfangreichen Sammlungen technischer Dokumente enthalten ist. Wir sind spezialisiert auf die Bereitstellung maßgeschneiderter KnowledgeBots, die speziell entwickelt wurden, um die Herausforderung der Wissensabfrage zu lösen, selbst in den komplexesten Situationen.

4/21/20246 min read

In diesem Artikel werden wir untersuchen, wie fortschrittliche Techniken wie Retrieval-Augmented Generation (RAG), Embeddings, Similaritätssuche und Reranking das Wissensretrieval in technischen Bereichen revolutionieren können.

Retrieval-Augmented Generation (RAG): Retrieval-Augmented Generation (RAG) ist ein leistungsstarker Ansatz, der Informationsretrieval mit Sprachgenerierungsmodellen kombiniert. Im Kontext technischer Dokumente ermöglicht RAG Wissensretrievalsystemen nicht nur relevante Passagen zu finden, sondern auch kohärente und informative Antworten auf Basis der abgerufenen Informationen zu generieren. Durch die Nutzung der Stärken von sowohl Retrieval als auch Generierung ermöglicht RAG ein präziseres und kontextbewusstes Wissensretrieval aus technischen Dokumenten.

Embeddings und Similaritätssuche: Embeddings sind dichte Vektorrepräsentationen von Texten, die semantische Bedeutungen und Beziehungen zwischen Wörtern oder Passagen erfassen. Durch die Umwandlung technischer Dokumente und Diagramme in Embeddings können wir effiziente Similaritätssuchen durchführen, um relevante Informationen basierend auf der semantischen Ähnlichkeit zwischen der Anfrage und den eingebetteten Dokumenten zu finden. Dieser Ansatz geht über das einfache Abgleichen von Schlüsselwörtern hinaus und ermöglicht das Auffinden von Dokumenten, die konzeptionell mit der Anfrage verwandt sind, auch wenn sie nicht dieselben Begriffe enthalten.

Die Kraft des Rerankings: Während Embeddings und Similaritätssuche eine starke Grundlage für das Wissensretrieval bieten, können Reranking-Techniken die Genauigkeit und Relevanz der abgerufenen Dokumente weiter verbessern. Während eines kürzlich durchgeführten Projekts mit einem Ingenieurbüro, bei dem über 2.000 technische Dokumente eingelesen und vektorisiert wurden, wurde die Notwendigkeit des Rerankings während der User Acceptance Testing (UAT)-Phase deutlich. Der technische Direktor des Unternehmens äußerte den Wunsch nach einer noch präziseren Dokumentenabfrage. Um diesem Wunsch gerecht zu werden, haben wir die folgenden Reranking-Optionen umfassend getestet, indem wir dieselbe Frage gestellt haben:

Technische Frage: Input und Output für Vorheizen Perkins 1306

Gemini 1.5: Gemini 1.5 ist ein hochmodernes Reranking-Modell, das die Stärken mehrerer Sprachmodelle kombiniert. Es berücksichtigt verschiedene Faktoren wie Relevanz, Kohärenz und Vielfalt, um ein ausgewogenes Reranking der abgerufenen Dokumente zu gewährleisten. Gemini 1.5 hat vielversprechende Ergebnisse bei der Verbesserung der Qualität des Wissensretrievals in technischen Bereichen gezeigt.

Hier ist eine mögliche Reihenfolge der Relevanz basierend auf den bereitgestellten Dokumenten:

1. Dokument 0 (4008 TAG1A 644 - 882 kWm): Dieses Dokument scheint hochrelevant zu sein, da es speziell das Perkins 1306-Motorenmodell behandelt und detaillierte technische Daten enthält, einschließlich Abschnitten über „Allgemeine Installation“ und „Kühlsystem“, die direkt mit dem Vorheizen in Verbindung stehen.

2. Dokument 2 (Allgemeine Installation 4008TAG1A - Gemäßigtes Klima): Dieses Dokument liefert spezifische Informationen über die allgemeine Installation des 4008TAG1A-Motors, die wahrscheinlich auch Details zu Vorheizverfahren enthält.

3. Dokument 3 (4008TAG2A - Gemäßigte Bezeichnung): Obwohl es sich auf das Modell 4008TAG2A konzentriert, könnte dieses Dokument Einblicke in Vorheizverfahren geben, die auf die Perkins 1306-Serie anwendbar sind, aufgrund potenzieller Ähnlichkeiten zwischen den Modellen.

4. Dokument 1 (DSE P810 für Windows ™ Softwarehandbuch): Dieses Dokument bezieht sich zwar auf den DSE-Controller, könnte aber Informationen über Vorheizeinstellungen und Konfigurationen enthalten, die hilfreich sein könnten.

5. Dokument 4 (4008TAG2A - Tropische Bezeichnung): Ähnlich wie Dokument 3 könnte dieses Dokument einige relevante Informationen aufgrund gemeinsamer Merkmale innerhalb der Perkins 1306-Serie bieten.

6. Dokument 5 (Energiehaushalt 4008TAG1A - Gemäßigte Bezeichnung): Dieses Dokument konzentriert sich wahrscheinlich auf Energieverbrauch und -verteilung, was möglicherweise nicht direkt mit dem Vorheizen zusammenhängt.

7. Dokument 6 (Geräuschdaten Geräuschpegel): Dieses Dokument scheint sich mit Geräuschpegeln zu befassen und enthält wahrscheinlich keine Informationen zum Vorheizen.

8. Dokument 7 (4008TAG1A und 4008TAG2A - Linke Seitenansicht (Gemäßigt)): Dieses Dokument liefert zwar eine visuelle Darstellung des Motors, bietet jedoch möglicherweise keine spezifischen Details zum Vorheizen.

9. Dokument 8 (4008TAG1A und 4008TAG2A - Vorderansicht (Tropisch)): Ähnlich wie Dokument 7 könnte dieses Dokument keine direkten Angaben zu Vorheizverfahren enthalten.

10. Dokument 9 (4008TAG1A und 4008TAG2A - Rechte Seitenansicht (Tropisch)): Dieses Dokument, ähnlich wie die Dokumente 7 und 8, ist wahrscheinlich keine primäre Quelle für Vorheizinformationen.

11. Dokument 10 (4008TAG1A und 4008TAG2A - Rückansicht (Tropisch)): Ähnlich wie die Dokumente 7, 8 und 9 bietet dieses Dokument möglicherweise keine direkte Relevanz für das Vorheizen.

12. Dokument 11 (CEA6-Steuereinheit): Dieses Dokument, das sich auf ein anderes Controller-Modell bezieht, enthält möglicherweise keine spezifischen Details zum Vorheizen des Perkins 1306.

[0, 2, 3, 1]

2. Cohere Reranker: Das Reranking-Modell rerank-multilingual-v3.0 von Cohere nutzt fortschrittliches natürliches Sprachverständnis, um die abgerufenen Dokumente basierend auf ihrer Relevanz für die Anfrage neu zu ordnen. Durch die Berücksichtigung des semantischen Kontexts und der Beziehungen zwischen der Anfrage und den Dokumenten kann der Cohere Reranker die Genauigkeit der abgerufenen Ergebnisse erheblich verbessern.

Cohere Reranking

RerankResponseResultsItem(document=None, index=3, relevance_score=0.6087685),

RerankResponseResultsItem(document=None, index=2, relevance_score=0.2961451),

RerankResponseResultsItem(document=None, index=1, relevance_score=0.2791402),

RerankResponseResultsItem(document=None, index=6, relevance_score=0.07450026),

RerankResponseResultsItem(document=None, index=5, relevance_score=0.02092419),

RerankResponseResultsItem(document=None, index=0, relevance_score=0.016090874),

RerankResponseResultsItem(document=None, index=4, relevance_score=0.009196552)], meta=ApiMeta(api_version=ApiMetaApiVersion(version='1', is_deprecated=None, is_experimental=None), billed_units=ApiMetaBilledUnits(input_tokens=None, output_tokens=None, search_units=1, classifications=None), tokens=None, warnings=None))

3. Claude Opus: Claude Opus ist ein speziell für technische Dokumente entwickeltes Reranking-Modell. Es integriert domänenspezifisches Wissen und versteht die Feinheiten der technischen Sprache und Konzepte. Durch die Nutzung seines Verständnisses für technisches Fachjargon und Kontext kann Claude Opus die abgerufenen Dokumente effektiv neu ordnen, um die relevantesten und informativsten Ergebnisse zu priorisieren.

Claude Opus 3

Basierend auf der gestellten Benutzerfrage und der bereitgestellten Liste von Dokumenten ist hier meine Rangfolge der Dokumente von den relevantesten bis zu den am wenigsten relevanten für die Beantwortung der Frage „Input und Output für Vorheizen Perkins 1306“:

1. Das relevanteste Dokument scheint Dokument 1 zu sein, da es speziell den Perkins 1306-Motor erwähnt und die Eingaben und Ausgaben im Zusammenhang mit dem Vorheizsystem beschreibt, einschließlich des Vorheizschaltereingangs und des Vorheizrelais-Ausgangs.

2. Dokument 0 wäre das nächst relevanteste, da es das Vorheizsystem im Allgemeinen für Perkins-Motoren behandelt, obwohl es das Modell 1306 nicht speziell erwähnt.

3. Dokument 2 erwähnt Perkins-Motoren, enthält jedoch keine Informationen über Vorheizen oder Eingaben/Ausgaben, daher ist es weniger relevant als die Dokumente 1 und 0.

4. Dokument 3 ist überhaupt nicht relevant, da es sich um einen anderen Motorenhersteller (Cummins) handelt und keine Vorheizen erwähnt.

Zusammenfassend ergibt sich meine Rangfolge von den relevantesten bis zu den am wenigsten relevanten Dokumenten zur Beantwortung der Frage „Input und Output für Vorheizen Perkins 1306“ wie folgt:

[1, 0, 2, 3]

Die Kombination von RAG, Embeddings, Similaritätssuche und Reranking-Techniken hat das Potenzial, das Wissensretrieval in technischen Bereichen zu revolutionieren. Durch die Nutzung dieser fortschrittlichen Ansätze können Organisationen das volle Potenzial ihrer technischen Dokumente und Diagramme ausschöpfen, um schneller auf relevante Informationen zuzugreifen und bessere Entscheidungen zu treffen. Während wir diese Techniken weiter verfeinern und optimieren, können wir noch genauere und effizientere Wissensretrievalsysteme erwarten, die

Ingenieurbüros und andere technische Organisationen dabei unterstützen, in der heutigen wettbewerbsintensiven Landschaft erfolgreich zu bleiben.

4. Claude Haiku: RAG zieht tiefe Einblicke, Opus steht schlank, stromlinienförmig — aber lässt Gewicht Haikus Tiefe niedrige Kosten / hohe Geschwindigkeit:

Basierend auf der gegebenen Benutzerfrage „Input und Output für Vorheizen Perkins 1306“ und der Liste der Dokumente würde ich die Relevanz der Dokumente wie folgt einstufen:

Die Begründung ist:

0. Dieses Dokument ist wahrscheinlich das relevanteste, da es speziell „Perkins 1306“ erwähnt und Informationen zu Eingaben und Ausgaben enthält, die direkt mit der Frage des Benutzers in Verbindung stehen.

2. Dieses Dokument erwähnt ebenfalls „Perkins 1306“ und behandelt Motorspezifikationen, die für die Beantwortung der Frage relevant sein könnten.

1. Obwohl dieses Dokument Perkins-Motoren behandelt, wird das Modell 1306 nicht speziell erwähnt, daher ist es weniger direkt relevant als die beiden oberen Dokumente.

3. Dieses Dokument behandelt die Wartung von Perkins-Motoren, scheint jedoch keine spezifischen Informationen über das Modell 1306 Eingaben und Ausgaben zu enthalten.

4. Dieses Dokument behandelt die Fehlersuche bei Perkins-Motoren, scheint jedoch erneut keine direkten Informationen über das Modell 1306 zu bieten.

5. Dieses Dokument behandelt Teile von Perkins-Motoren, scheint jedoch keine Informationen direkt relevant zur Frage des Benutzers zu enthalten.

[0, 2, 1, 3, 4, 5]

Die Rolle von Pandorabot.io bei der Verbesserung von Chatbot-Erlebnissen

🧠 KnowledgeBot 💰SalesBot 🛠️ ​ServiceBot 👁️‍🗨️VisionBot

Für Unternehmen, die das volle Potenzial von AI in Kundeninteraktionen nutzen möchten, ist Pandorabot.io eine erstklassige Lösung. Spezialisiert auf die Erstellung maßgeschneiderter Chatbots bietet Pandorabot.io eine Plattform, auf der Unternehmen Chatbots entwickeln können, die nicht nur auf ihre spezifischen Bedürfnisse abgestimmt sind, sondern sich auch mit ihnen weiterentwickeln können. Unsere Chatbots sind darauf ausgelegt, nuancierte, branchenspezifische Interaktionen zu bieten, nahtlose Integration mit Geschäftssystemen sicherzustellen und modernste Datensicherheitsmaßnahmen zu implementieren. Mit Pandorabot.io können Unternehmen ein Chatbot-Erlebnis gewährleisten, das die Kundenbindung verbessert, den Markenruf stärkt und die betriebliche Effizienz steigert.