Seminar


Navigation - - - - - -
  Homepage
  Lehre
  - WRIR03-04.html
  Forschung
  Talks
  Publikationen
  Kontakt
Seiteninhalt - - - - - -
  Beschreibung
  WRIR@de.Wikipedia
  Textgestaltung
  Wikipedia-Artikel

Wissensrepräsentation und Information Retrieval WS 2003/04


Günter Bachelier, Dr. phil.


 


Beschreibung

Diese Seite dient als Referenzseite für die Artikel, die während des Semesters Wissensrepräsentation und Information Retrieval WS 2003/04 in de.Wikipedia erarbeitet und eingestellt wurden, da erwartet wird, dass diese nach dem Einstellen entsprechend dem Wiki-Prinzip verändert werden.

top


WRIR@de.Wikipedia

  Anmerkungen mit (*) gekennzeichnete Schlagworte bezeichnen vorhandene Artikel in de.Wikipedia, die im Rahmen des Seminars modifiziert wurden; mit (!) gekennzeichnete Schlagworte wurden im Rahmen des Seminars als neue Artikel in de.Wikipedia eingefügt.

Die Links verweisen auf die entsprechenden Artikel in de.Wikipedia (links) sowie in en.Wikipedia (rechts).

       
 

Themen

Schlagworte (deutsch)

Schlagworte (englisch)

01) Wissen, Wissensarten Wissen*, Wissensqualität!, Wissensrepräsentation, Knowledge, Knowledge representation,
02) Katalog, Index, Klassifikation, Thesaurus Index, Katalog, Dokumentation*, Dokumentationssprache*, Klassifikation*, Klassifikationssystem = Systematik*, Notation*, Notation (Dokumentation)*, Thesaurus, Classification, index, Thesaurus,
03) Boolsches IR, Erweitertes BIR Boolesche Algebra, Boolsches Retrieval, Erweitertes Boolsches Retrieval!, Information Retrieval*, Boolean algebra, Information retrieval,
04) Vektorraum IR, Cluster, Relevanzfeedback Cluster, Clusteranalyse, Information Retrieval*, Informationssystem*, Relevanz-Feedback (IS)!, Relevanz-Feedback (IRS)!, Relevanz-Feedback (Vektorraumodell)!, Vektorraum IR!,  
05) Neuronale Netze, SOMs Neuronale Netze, Selbstorganisierende Karten (SOMs),  
06) Vagheit, Unsicherheit    
07) Fuzzy Theorie, Fuzzy IR Fuzzy Logik, Fuzzy-Arithmetik, Intervall-Arithmetik, Fuzzy logic,
08) Probabilistisches IR, Inferenz Netze, Bayes Netze Bayes'sche_Wahrscheinlichkeitstheorie, Bayes-Theorem, Wahrscheinlichkeitsrechnung, Bayes' theorem, Bayesian probability,
09) Objekte, Objektorientierte Analyse, UML Objektorientierte Programmierung, UML, Object-oriented programming,
10) Regeln, Produktionssystem, Expertensystem

Experte, Expertensystem, Expertenwissen, Knowledge-Engineering, Produktionssystem, Regel, Wissensbasierte Systeme, Wissenserhebung, Wissensinterpretation.

Expert System,
11) Semantische Netze, Topic Maps, Frames Semantisches Netz, Topic Maps, Frames,  
12) Logik, Prädikatenlogik Logik, Prädikatenlogik, Logic,
13) Semantic Web, Ontologien Ontologie, Ontologie (Informatik), Semantic Web, Ontology_(computer_science), Semantic_Web,
       
    Die Veränderungsvorschläge bzw. die Artikelvorschläge für de.Wikipedia sind auf der Seite WRIR-Wikipedia.html zusammengefasst.  

top


Textgestaltung, Zeichenformatierung, Verlinkung

  Anmerkung: Im nachfolgenden werden einige Merkmale zur Textgestaltung, Zeichenformatierung und Verlinkung dargestellt, die in den unten stehenden Artikeln verwendet werden.
     
  Textgestaltung
Listen   * (Stern direkt vor Zeile)
Numerierung   # (Raute direkt vor Zeile)
Zentrierter Text  

<center>Text</center>

ACHTUNG: Im Editor Dreamweaver werden die Tags für Zentrierung nicht angezeigt; in der html-Quelle sind sie jedoch verhanden!!

Zeilen einrücken   : (Doppelpunkt direkt vor Zeile)
  Zeichenformatierung
fette Schrift   '''Text''' (dreifache Apostrophen); Achtung bei bestimmten Mac-Editoren wie BBedit, die bei Raute-Taste eine andere Form von Apostroph erzeugen; verwende daher SimpleText.
kursiv   ‘‘Text'' (zweifache Apostrophen), wird in mathematischen Ausdrücken für Mengen, Variablen und Funktionen verwendet.
hochstellen, tiefstellen  

10<sup>-34</sup>, d<sub>k</sub>

ACHTUNG: Im Editor Dreamweaver werden die Tags für Tief- und Hochstellen im Text nicht angezeigt; in der html-Quelle sind sie jedoch verhanden!!

Umlaute im Text   Verwende normale Tastaturbelegung; bei der Darstellung eines solchen Textes in einem html-Dokument werden jedoch Sonderzeichen gezeigt
Umlaute in Artikelnamen   ä = %E4, ö = %F6,
     
   

 

  Verlinkung
Link im Text auf Artikel   Doppelklammer, z.B. Link auf "http://de.wikipedia.org/wiki/Wissen" wird in Wikipedia durch [[Wissen]] beschrieben.
Verlinkung auf Artikelname mit Umlaut  

z.B. Link auf "http://de.wikipedia.org/wiki/Wissensrepr%E4sentation" wird beschrieben durch [[Wissensrepräsentation]]

     

top


Artikelvorschläge für de.Wikipedia

  Anmerkungen Die nachfolgenden Artikelbezeichnungen verweisen mit ihren Links auf die weiter unten stehenden Artikelvorschläge.
     
 

Themen

Artikelbezeichung

01) Wissen, Wissensarten Wissen*, Wissensqualität!,
02) Katalog, Index, Klassifikation, Thesaurus Dokumentation*, Dokumentationssprache*, Notation*, Notation (Dokumentation)*, Klassifikation*, Klassifikationssystem = Systematik*
03) Boolsches IR, Erweitertes BIR Erweitertes Boolsches Retrieval!,
04) Vektorraum IR, Cluster, Relevanzfeedback

Information Retrieval*, Relevanz-Feedback (IS)!, Relevanz-Feedback (IRS)!, Relevanz-Feedback (Vektorraumodell)!, Vektorraum Retrieval!,

05) Neuronale Netze, SOMs  
06) Vagheit, Unsicherheit  
07) Fuzzy Theorie, Fuzzy IR  
08) Probabilistisches IR, Inferenz Netze, Bayes Netze  
09) Objekte, Objektorientierte Analyse, UML  
10) Regeln, Produktionssystem, Expertensystem  
11) Semantische Netze, Topic Maps, Frames  
12) Logik, Prädikatenlogik  
13) Semantic Web, Ontologien  
     

 

Anmerkung:

Die nachfolgenden Artikelbezeichnungen verweisen mit ihren Links auf die (veränderten) Artikel in de.Wikipedia. In der ersten Zeile steht jeweils die Artikel-Bezeichnung mit dem Link in de.Wikipedia, sowie der Zeitpunkt der Einstellung.

  Es wurde für de.Wikipedia keine html-Umlautkodierung verwendet, d.h. in den nachfolgenden Texten stehen die deutschen Umlaute, mit der folge, dass die Browserdarstellung entsprechend abweichen kann.
   

Erweiterung von Wissen um Wissensarten

[04.11.2003]

Wikipedia-Artikel

Folgende Wissensarten kšnnen unterscheiden werden:

* '''Wissen Ÿber Fakten''': Zu den Fakten gehšren numerische Fakten wie "das Planck'sche Wirkungsquantum ist h = 6,6261 á 10<sup>-34</sup> Js " oder [[Proposition]]en wie "Der Wolf ist ein Raubtier".

* '''Wissen Ÿber [[Konzept]]e und Konzepteigenschaften''': Konzepte werden durch ihren Konzeptnamen, ihre [[Extension]] und ihre [[Intension]] definiert. Extension ist die Menge aller Objekte, die zu dem Konzept gehšrt, die Intension ist die Menge der Merkmale, die ein Objekt besitzen mu§, um zum Konzept zu gehšren. Man unterscheidet zwischen Individualkonzepten, die als Extension eine einelementige Menge besitzen, und Massenkonzepte wie FlŸssigkeiten oder SchŸttgut, die keine stŸckweise abzŠhlbare Extension besitzen.

* '''Wissen Ÿber semantische Beziehungen''': Semantische Beziehungen sind Aussagen zu zwei oder mehreren Konzepten, wie z.B.

** Teil-von Beziehungen: (Klinge - Schwert).

** Ist-ein Beziehung (Wolf - Raubtier).

** Zeitliche Beziehungen (chronologische Abfolge, SimultanitŠt).

** RŠumliche Beziehungen (BehŠlter - Inhalt).

** Kausalbeziehungen (Blitz - Donner).

* '''Wissen Ÿber Ereignisse und Handlungen''': Ein Ereignis ist eine ZustandsŠnderung eines Objektes zu einem bestimmten Zeitpunkt oder Ÿber ein Zeitintervall hinweg. Eine Handlung ist ein Ereignis, das von einem Aktor absichtsvoll ausgelšst wurde.

* '''Wissen Ÿber VorgŠnge und Verfahren''': Ein Vorgang ist eine lang andauernde Handlung. Ein Verfahren ist eine festgelegte Anzahl von miteinander verketteten Einzelhandlungen, fŸr die oft eine bestimmte Reihenfolge verbindlich ist. Wissen Ÿber ein Verfahren bezeichnet man als "know how".

* '''Wissen Ÿber Regeln und einschrŠnkende Bedingungen ([[Constraint]]s)''': Wissen Ÿber einschrŠnkende Bedingungen ist Wissen Ÿber die UnzulŠssigkeit von ZustŠnden oder ZustandsŠnderungen.

* '''Metawissen''': Wissen Ÿber Wissen, wie z.B.

** Wissen Ÿber die VerlŠsslichkeit ([[ReliabilitŠt]]) bzw. GŸte ([[ValiditŠt]]) von Fakten oder anderen Wissensarten.

** Wissen, wie man WissenslŸcken schlie§en kann (z.B. indem man Unbekanntes erfragt).

** Wissen, wie man neues Wissen aus vorhandenem Wissen ableitet (Inferenzstrategien).

** Wissen, wie man Wissen strukturiert und neues Wissen hinzufügt

** Wissen Ÿber [[WissensqualitŠt]].

* '''Wissen Ÿber [[Problem]]e und Problemlšsungsstrategien''': Bildung einer formalen Beschreibung eines Problems mit dem Ziel der Klassifikation des Problems in eine bekannte Problemklasse, zu der eine Problemlšsungsstrategie bekannt ist.

   

Neue Erzeugung von Wissensqualität

[05.11.2003]

Wikipedia-Artikel

Man kann folgende QualitŠten von '''[[Wissen]]''' unterscheiden:

* '''UnvollstŠndiges Wissen''': Einer bekannten Eigenschaft kann zu einem bestimmten Zeitpunkt oder aufgrund anderer Faktoren wie einem fehlenden Messwert ([[Missing_Value]]) kein Wert zugeordnet werden, was z.B. in einer [[Frames_(WissensreprŠsentation)|Frame-ReprŠsentation]] durch einen leeren Slot beschrieben wird.

* '''WidersprŸchliches Wissen''': WiderspŸche in Wissensbasen kšnnen behandelt werden, indem

** die Wissensbasis in Teile aufgespaltet wird, die jeweils widerspruchsfrei sind,

** [[Erkenntnistheorie|epistemische]] Logiken verwendet werden, bei denen verschiedene [[Agenten]] jeweils widersprŸchliches [[Glaube]]n,

** [[w:Multi-valued_logic|mehrwertige Logiken]] verwendet werden, die neben "wahr" und "falsch" mindestens einen weiteren Wert wie z.B. "inkonsistent" besitzen.

* '''Unsicheres Wissen''': Es wird eine [[Stochastik|stochastische]] Aussage zu einer Eigenschaft gemacht.

* '''Ungenaues Wissen''': Es wird keine genaue numerische Angabe zu einer Eigenschaft wie z.B. gro§ oder schnell gemacht, sondern es wird ein Eigenschaftsbereich ([[Intervall_(Mathematik)|Intervall]]) angegeben, (s.a. [[Intervall-Arithmetik]], [[Fuzzy_Logik]], [[Fuzzy-Arithmetik]]).

* '''[[Default-Wissen]]''': Wissen, welches normalerweise zutrifft, in EinzelfŠllen jedoch falsch sein kann. Es wird solange als wahr angenommen, bis eine widersprechende Aussage als wahr akzeptiert wird, was zur Folge hat, dass in der Zwischenzeit gemachte Annahmen und Aussagen zurŸck genommen werden mŸssen (nicht-monotones Schlussfolgern, [[Default-Reasoning]]). Default-Wissen wird auch als [[Prototyp|prototypisches]] oder [[Stereotyp|stereotypisches]] Wissen bezeichnet.

* '''Definitorisches Wissen''': [[Definition|Definitorische]] Aussagen haben die unanzweifelbaren Eigenschaften einer Aussage, eines Objekts oder einer Klasse zum Gegenstand. * '''Allgemeinwissen''': Kulturell abhŠngiges Wissen, welches verwendet wird, um in dem entsprechenden kulturellen Umfeld alltŠgliche Problemstellungen zu lšsen (s.a. [[w:Common_sense|Common-Sense Knowledge]]).

* '''Fachwissen, [[Expertenwissen]]''': Problem- und problemtypabhŠngiges Wissen, das von [[Experte]]n verwendet wird, um Probleme in ihrem Fachgebiet zu lšsen.

* '''[[Modallogik]]en''': Semantische Erweiterung der [[PrŠdikatenlogik]] mit Hilfe von "mšglichen Welten". Alethische ModularitŠt beschreibt notwendige und mšgliche Gegebenheiten. Notwendige Gegebenheiten sind wahr, wenn sie in allen mšglichen Welten, die von der betrachteten Welt erreichbar sind, zutreffen. Mšgliche Gegebenheiten sind wahr, wenn sie in mindestens einer mšglichen Welt zutreffen. Deontische ModularitŠt beschreibt gebotene und verbotene Gegebenheiten.

* '''Mathematisch Unbeweisbares''': Aussagen, die in einem Axiomsystem nicht beweisbar sind (s.a. [[Gšdelscher_UnvollstŠndigkeitssatz|Gšdelscher UnvollstŠndigkeitssatz]]).

* '''Physikalisch Unwissbares''': Eigenschaften, die durch BeschrŠnkungen der [[Naturgesetz]]e oder [[Naturkonstante]]n zu einem bestimmten Zeitpunkt oder prinzipiell nicht gewusst werden kšnnen. Z.B. zu wissen, wie "jetzt" ein 1000 [[Lichtjahre]] entfernter [[Stern]] aussieht, oder zu wissen, ob ein Teilchen in den nŠchsten 5 sec [[Quantenphysik|quantenphysikalisch]] tunneln wird (Ÿber letzteres ist nur unsicheres Wissen mšglich).

   

Erweiterung von Dokumentation und

Dokumentationssprache

09.11.2003

Wikipedia-Artikel

Dokumentationssprache: Eine Dokumentationssprache ist eine kŸnstliche Sprache zur Nutzung innerhalb von [[Informationssystem|Informations-]] und [[Dokumentationssystem]]en, d.h. zur [[Indexierung]], [[Speicherung]] und zum [[Retrieval]] von Inhalten.

Man kann zwei Arten von Dokumentationssprachen unterscheiden:

* NatŸrlich-sprachlich basierte: Die Elemente bestehen aus einer natŸrlichen Sprache, wie z.B. bei einem [[Thesaurus]].

* Nicht natŸrlich-sprachlich basierte: Die Elemente bestehen nicht aus einer natŸrlichen Sprache, doch die Beschreibung der Inhalte geschieht mit natŸrlichen Sprachelementen, wie z.B. bei der [[Klassifikation]].

   

Erweiterung von Notation und

Notation_(Dokumentation)

09.11.2003

Wikipedia-Artikel

Notation erweitert um: [[Notation_(Dokumentation)]]

Notation_(Dokumentation): Eine '''Notation''' im Kontext der [[Dokumentation]] und [[Klassifikation]] ist ein Ausdruck zur verkŸrzten Darstellung einer Klasse und/oder von Relationen zwischen Klassen in [[Klassifikationssystem]]en und wird nach den Regeln eines spezifischen Notationssystems gebildet, dessen Zeichenvorrat aus Zahlen, Sonderzeichen und Buchstaben bestehen kann.

Erweiterung von Klassifikation

10.11.2003

Wikipedia-Artikel

'''Klassifikation''' bezeichnet

* den Prozess der Klassenbildung, der sequenziell unterteilt wird in die

** Einteilung des Sachgebietes in einzelne getrennte Sachverhalte

** Bildung der Klassen

** hierarchische oder systematische Anordnung der Klassen

** Bezeichnung der Klassen durch [[Deskriptor]]en

* das [[Klassifikationssystem]] als Ergebnis der Klassenbildung (siehe [[Systematik]])

* den Prozess der Klassierung als [[Methode]] zur Einordnung von getrennten Objekten/Sachverhalten in die Klassen ([[Kategorie]]n) des [[Klassifikationssystem]]s auf der Grundlage von mindestens einem gemeinsamen Merkmal, das sie von Objekten anderer Klassen unterscheidet.

 

Es lassen sich zwei '''Klassifikationstypen''' unterscheiden:

* '''Analytische Klassifikation''', bei der die zusammengefŸhrten Begriffe vom Allgemeinen zum Spezifischen immer feiner untergliedert werden. Entsprechend dem '''Prinzip der PrŠkoordination''' dŸrfen vorab nur Begriffe vergeben werden, die in der Klassifikation enthaltenen sind, was zu einer relativ starren und inflexiblen Struktur fŸhrt. Beispiel ist eine '''universelle Dezimalklassifikation'''.

* '''Synthetische Klassifikation''', bei der die Begriffe vom besonderen zum Allgemeinen gruppiert werden, sodass die nachtrŠgliche Vergabe von Begriffen innerhalb der Klassifikation mšglich wird ('''Prinzip der postkoordinativen Erschlie§ung'''). Dadurch lassen sich komplexe und dynamische Sachgebiete klassifizieren. Beispiel ist eine '''Facettenklassifikation'''.

Erweiterung von Klassifikationssystem = Systematik

12.11.2003

Wikipedia-Artikel

In Klassifikationssystemen lassen sich zwei Bezeichnungsarten unterscheiden:

* Verbale Begriffsbezeichnung als Bezeichnungen aus der natŸrlichen Sprache

* KŸnstliche Bezeichnungen durch eine [[Notation_(Klassifikation)|Notation]], die aus Zahlen, Sonderzeichen oder Buchstaben bestehen kann.

Es lassen sich zwei '''Klassifikationsstrukturen''' unterscheiden:

* '''Monohierarchie''' (starke Hierarchie): Jeder Gattungsbegriff hat mehrere Artbegriffe und jeder Artbegriff hat genau einen Gattungsbegriff, wodurch nur eine eindimensionale Suche mšglich ist.

* '''Polyhierarchie''' (schwache Hierarchie): Jeder Begriff hat mehrere Unterbegriffe und jeder Unterbegriff kann mehr als einen Oberbegriff besitzen, da unterschiedliche Merkmale des Begriffs berŸcksichtigt werden, sodass eine mehrdimensionale Suche mšglich wird.

'''Leistungen''' von Klassifikationssystemen sind:

* Zusammenfassung von isolierten Inhalten zu Klassen

* Durch Notationen eindeutigere Begriffsbeschreibung

* Umgehung scheinbarer Verwandtschaftsbeziehungen

* Verbesserung der PrŠzision und Ballastvermeidung im [[Information Retrieval]]

'''Vorteile''' von Klassifikationssystemen sind:

* UniversalitŠt, d h. Orientierung auf den gesamten Bereich der Wissenschaft (Universalklassifikation) oder auf Teilgebiete (Fachklassifikationen).

* KontinuitŠt, d. h die Verwendung Ÿber einen lŠngeren Zeitraum.

* AktualitŠt, d.h. FŠhigkeit zur BerŸcksichtigung neuer Erkenntnisse.

* FlexibilitŠt durch ExpansivitŠt, d.h. Mšglichkeit zur Erweiterung des Klassifikationssystems.

* gute Anwendbarkeit im Kontext des World Wide Web, da Klassifikationssysteme sich gut in Hypertext-Systemen abbilden lassen (z.B. [[Open Directory Project]])

'''Nachteile''' von Klassifikationssystemen sind:

* Systematik ist vorab festgelegt und relativ unbeweglich

* vorwiegend hierarchische Strukturen

* keine syntagmatische VerknŸpfung der Begriffe

* eine Anpassung an den Fortschritt der Fachgebiete ist meist schwer umzusetzen

* Sachverhalte werden oft in Klassen "gezwŠngt", in die sie nicht vollstŠndig passen, was zu einer Erschwerung des Suchvorganges und zu einem mšglichen Informationsverlust fŸhren kann.

Neuerstellung von Erweitertes Boolsches Retrieval!

Wikipedia-Artikel

Ein '''erweitertes Boolsches Modell''' wird definiert durch den 4-Tupel (''T'', ''Q'', ''D'', ''rank(.,.)'') mit

*''T'' = {''ti'' | i = 1, ..., n}: Menge der Indexterme, die Dokumente und Queries beschreiben.

*''Q'' = {''qj'' | i = 1, ...}: Menge aller erlaubten Queries.

*''D'' = {''dk'' | k = 1, ..., m}: Menge der vorliegenden Dokumente. Bei den erweiterten Boolschen Modellen besitzt jeder Term ''tki'' eines Dokumentes ''dk'' ein Gewicht ''wki'' ∈ [0,1], welches die Wichtigkeit des Termes im Dokument reprŠsentiert. Ein Dokument ''dk'' besitzt somit die Struktur ''dk'' = ((''tk1'', ''wk1''), ..., (''tkn'', ''wkn'')).

*''rank(.,.)'': Rankingfunktion, welche die €hnlichkeit eines Dokumentes mit einer Query beschreibt. Sie ist allgemein definiert durch: ''rank''(''dk'', ''qj''): ''D'' x ''Q'' -> [0,1]: (''dk'', ''qj'') |-> ''rank''(''dk'', ''qj'') ∈ [0,1].

Die Rankingfunktion beschreibt die unterschiedlichen Klassen von erweiterten Boolschen Modellen, wobei alle Modelle zwischen der Verwendung der logischen Operatoren AND und OR in der Query unterscheiden.

==Erweiterte Boolsche Modelle ohne Query-Gewichte==

Bei dieser Klasse von Modellen wird jede Query reprŠsentiert als eine Kombinationen der Indexterme und der logischen Operatoren AND, OR, NOT unter der mšglichen Verwendung von beliebig geklammerten AusdrŸcken. Es wird angenommen, dass alle Terme die gleiche Bedeutung besitzen, was durch fehlende Termgewichte in der Query reprŠsentiert ist. Folgende erweiterte Boolsche Modelle lassen sich unterscheiden:

1) '''Einfache [[Fuzzy Logik|Fuzzy]]-Mengen-Modell''' [Buell (1981), Bookstein (1980), Radecki (1979)]

''rank''(''dk'', ''t1'' AND ''t2'') = ''MIN''{''wk1'', ''wk2''};

''rank''(''dk'', ''t1'' OR ''t2'') = ''MAX''{''wk1'', ''wk2''}.

Dieses einfache Modell besitzt die EinschrŠnkung, dass es nur zwei Terme evaluieren kann, im Gegensatz zu den folgenden Modellen, die beliebig viele Terme verarbeiten kšnnen.

2) '''Waller-Kraft-Modell''' [Waller&Kraft (1979)]

''rank''(''dk'', ''t1'' AND ... AND ''tn'') = (1 - γ) ·''MIN''{''wk1'', ..., ''wkn''} + γ · ''MAX''{''wk1'', ..., ''wkn''}, 0 ≤ γ ≤ 0,5;

''rank''(''dk'', ''t1'' OR ... OR ''tn'') = (1 - γ) · ''MIN''{''wk1'', ..., ''wkn''} + γ · ''MAX''{''wk1'', ..., ''wkn''}, 0,5 ≤ γ ≤ 1.

3) '''Paice-Modell''' [Paice (1984)]

Bei einer AND-VerknŸpfung ordne zunŠchst die Gewichte ''wki'' mit ansteigenden Werten, d.h. ''wk1'' ≤ ... ≤ ''wkn'', und berechne dann ''rank''(''dk'', ''t1'' AND ... AND ''tn'') = [∑i=1n (''ri-1'' · ''wki'')]/[∑i=1n ''ri-1''], 0 ≤ r ≤ 1.

Bei einer OR-VerknŸpfung ordne zunŠchst die Gewichte ''wki'' mit absteigenden Werten, d.h. ''wk1'' ≥ ... ≥ ''wkn'', und berechne dann ''rank''(''dk'', ''t1'' OR ... OR ''tn'') = [∑i=1n (''ri-1'' · ''wki'')]/[∑i=1n ''ri-1''], 0 ≤ r ≤ 1.

4) '''P-Norm-Modell''' [Salton et al. (1983)]

''rank''(''dk'', ''t1'' AND ... AND ''tn'') = 1 - [1/n · ∑i=1n (1 - ''wki'')''p'']''1/p'', 1 ≤ p < ∞,

''rank''(''dk'', ''t1'' OR ... OR ''tn'') = 1 - [1/n · ∑i=1n (''wki'')''p'']''1/p'', 1 ≤ p < ∞.

5) '''Infinite-One-Modell''' [Smith (1990)]

''rank''(''dk'', ''t1'' AND ... AND ''tn'') = γ · [1 - ''MAX''{1 - ''wk1'', ..., 1 - ''wkn''}] + (1 - γ) · [1/n · ∑i=1n ''wki''], 0 ≤ γ ≤ 1;

''rank''(''dk'', ''t1'' OR ... OR ''tn'') = γ · ''MAX''{''wk1'', ..., ''wkn''} + (1 - γ) · [1/n · ∑i=1n ''wki''], 0 ≤ γ ≤ 1.

==Erweiterte Boolsche Modelle mit Query-Gewichten==

Die Retrieval-EffektivitŠt lŠsst sich steigern, indem den Termen Wichtigkeitsfaktoren in Form von Gewichten zugeordnet werden. Eine Query qj bekommt somit eine Struktur analog zu einem Dokument dk mit Tupeln aus Termen und Gewichten. Werden Terme, die nicht in der Ursprungs-Query auftreten mit einem Gewicht von Null kodiert, so kann jede Ursprungs-Query in eine Query umkodiert werden, die alle in T vorkommenden Terme mit berŸcksichtigt:

''qj'' = ((''tq(j)1'', ''wq(j)1''), ..., (''tq(j)n'', ''wq(j)n'')). Bei den Relevanz-Gewichtungs AnsŠtzen (siehe Buell (1981)) werden die Rankingfunktionen derart reformuliert, dass die Gewichte der Dokumente und Queries multipliziert werden, d.h.: ''rank''(''dk'', (''tq(j)'', ''wq(j)'')) = ''wk'' · ''wq(j)''. Unter dieser Annahme sind von den vorgestellten erweiterten Boolschen Modellen das P-Norm- und das Infinite-One-Modell in der Lage, die Gewichte in den Dokumenten und einer Query zu evaluieren:

1) '''P-Norm-Modell mit Query-Gewichten'''

''rank''(''dk'', (''tq(j)1'', ''wq(j)1'') AND ... AND (''tq(j)n'', ''wq(j)n'')) = 1 - [[∑i=1n (1 - ''wki'')''p'' · ''wq(j)ip'']/[∑i=1n ''wkip'']]''1/p'', 1 ≤ p < ∞,

''rank''(''dk'', (''tq(j)1'', ''wq(j)1'') OR ... OR (''tq(j)n'', ''wq(j)n'')) = 1 - [[∑i=1n ''wkip'' · ''wq(j)ip'']/[∑i=1n ''wkip'']]''1/p'', 1 ≤ p < ∞.

2) '''Infinite-One-Modell mit Query-Gewichten'''

''rank''(''dk'', (''tq(j)1'', ''wq(j)1'') AND ... AND (''tq(j)n'', ''wq(j)n'')) = γ · [1 - [[''MAX''{(1 - ''wk1'') · ''wq(j)1'', ..., (1 - ''wkn'') · ''wq(j)n''}]/[''MAX''{''wq(j)1'', ..., ''wq(j)n''}]] + (1 - γ) · [[∑i=1n (''wki'' · ''wq(j)i'']/[∑i=1n ''wq(j)i'']], 0 ≤ γ ≤ 1;

''rank''(''dk'', (''tq(j)1'', ''wq(j)1'') OR ... OR (''tq(j)n'', ''wq(j)n'')) = γ · [''MAX''{''wk1'' · ''wq(j)1'', ..., ''wkn'' · ''wq(j)n''}]/[''MAX''{''wq(j)1'', ..., ''wq(j)n''}] + (1 - γ) · [[∑i=1n (''wki'' · ''wq(j)i'')]/[∑i=1n ''wq(j)i'']], 0 ≤ γ ≤ 1.

==Literatur==

Buell, D.A.: A general model for query processing in information retrieval system. In: Information Processing and Management, 17, 1981, S. 249 - 262.

Bookstein, A.: Fuzzy requests: an approach to weighted boolean searches. In: Journal of the American Society for Information Science, 31, 1980, S. 240 - 247.

Fox, E.A.; Betrabet, S.; Koushik, M.; Lee, W.: Extended boolean models. In: Frankes, W.B.; Yates, R.B. (eds): Information Retrieval Data Structures and Algorithms. Prentice Hall, 1992, S. 393 - 418.

Kim, M.H.; Lee, J.H.; Lee, Y.J.: Analysis of fuzzy operators for high quality information retrieval. In: Information Processing Letters, 46 (5), 1993, S. 251 - 256.

Lee, J.H.; Kim, M.H.; Lee, Y.J.: Ranking documents in thesaurus-based boolean retrieval systems. In: Information Processing and Management, 30, 1994, S. 79 - 91.

Lee, J.H.; Kim, M.I.I.; Lee, Y.J..: Enhancing the fuzzy set model for high quality document rankings. In: Proceedings of the 19th Euromicro Conference.1992, S. 337 - 344.

Lee, J.H.; Kim, W.Y.; Kim, M.H.; Lee, Y.J..: On the evaluation of boolean operators in the extended boolean retrieval framework. In: SIGIR 1993, 1993, S. 291 - 297.

Lee, Joon Ho: Properties of extended Boolean models in information retrieval. In: Croft & Rijsbergen (1994): SIGIR 1994, S. 182 - 190.

Paice, C.P.: Soft evaluation of boolean search queries in information retrieval systems. In: Information Technology: Research and Development, 3 (1), 1984, S. 33 - 42.

Radecki, T.: Fuzzy set theoretical approach to document retrieval. In: Information Processing and Management, 15, 1979, S. 247 - 259.

Sachs, W.M.: An approach to associative retrieval through the theory of fuzzy sets. In: Journal of the American Society for Information Science, 27, 1976, S. 85 - 87.

Salton, G.; Fox, E.A.; Wu, H.: Extended boolean information retrieval. In: Communication of the ACM, 26(11), 1983, S. 1022 - 1036.

Smith, M.E.: Aspekts of the p-norm model of information retrieval: syntactic query generation, efficiency, and theoretical properties. PhD thesis, Cornell University, 1990.

Waller, W.G.; Kraft, D.H.: A mathematical Model for weighted Boolean retrieval systems. In: Information Processing and Management, 15, 1979, S. 235 -245.

Erweiterung von Information Retrieval

Wikipedia-Artikel

ist eine Spezialisierung eines [[Informationssystem]]s

Ein Information Retrieval System ''IRS'' ohne [[Relevanz-Feedback]] kann formal als 7-Tupel beschrieben werden:

''IRS'' = (''AIR(D)'', ''W'', ''Q'', ''AIR(Q)'', ''E'', ''ret'', ''rank''), mit

# ''AIR(D)'': Dokument-Indexierungsfunktion als Abbildung eines Dokumentes ''Di'' auf eine DokumentreprŠsentation ''xi''.

# ''W'': Menge aller mšglichen DokumentreprŠsentationsmengen.

# ''Q'': Menge aller zugelassenen Suchfragen ''Qj''.

# ''AIR(Q)'': Query-Indexierungsfunktion als Abbildung einer Anfrage ''Qj'' auf eine QueryreprŠsentation ''qj''.

# ''E'': Menge aller mšglichen Outputmengen (Potenzmenge der Dokumentmenge) bzw. Outputlisten (beim Ranking).

# ''ret'': Retrievalfunktion als Abbildung einer indexierten Suchfrage ''qj'' auf eine Teilmenge der DokumentreprŠsentationsmenge.

# ''rank'': Rankingfunktion als Abbildung der ermittelten DokumentreprŠsentationsteilmenge auf eine Liste der DokumentreprŠsentationen.

Neuerstellung von Vektorraum IR

Wikipedia-Artikel

Ein '''Vektorraummodell-Information-Retrieval-System''' ''VR-IRS'' ist eine Spezialisierung eines [[Information_Retrieval|Information Retrieval Systems]]. Dokumente und Anfragen (Queries) werden als Punkte in einem hochdimensionalen, [[Metrik|metrischen]] [[Vektorraum]] reprŠsentiert, wobei zum Retrieval die Distanzen zwischen dem Queryvektor und den Dokumentvektoren genutzt werden.

Der erste Schritt besteht in dem Aufbau eines Dokumentvektorenraumes ''DVR'' und der Dokument-Indexierung, bei welcher die Dokumente der Dokumentmenge auf jeweils genau einen Punkt (Dokumentvektoren) im ''DVR'' abgebildet werden. Hierzu existieren eine Vielzahl von Merkmalsgewichtungsmodellen, die alle auf der HŠufigkeit von Merkmalen wie Termen oder Zeichen-n-Grammen in Einzeldokumenten sowie der gesamten Dokumentmenge aufbauen.

Das Retrieval im Vektorraummodell fŸhrt zunŠchst eine Query-Indexierung durch, bei welcher die Anfrage auf genau einen Punkt (Queryvektor) im ''DVR'' abgebildet wird. Die nachfolgende Retrieval-Funktion ermittelt eine Teilmenge der Dokumentvektoren, die eine bestimmte €hnlichkeit bezŸglich dem Queryvektor besitzen, und die Rankingfunktion bildet diese Teilmenge auf eine geordnete Liste von Dokumentvektoren ab, wobei "wichtigere" Dokumentvektoren auf den forderen RangplŠtzen liegen. Dem Nutzer, welcher die Query gestellt hat, wird eine Liste von Dokumenten prŠsentiert, welche zu der Liste der Dokumentvektoren korrespondiert.

==Dokument-Indexierung im Vektorraummodell==

Gegeben ist eine Dokumentmenge ''D'' = {''Di'' | ''i'' = 1, ..., ''m''} mit ''m'' ∈ ''N'' Dokumenten zu einem Zeitpunkt ''t'', wobei im weiteren vereinfachend ''D'' verwendet werden soll. Dokumente werden dabei allgemein als eine endliche Sequenz von Zeichen ''dij'' Ÿber einem endlichen Alphabet Φ betrachtet:

''Dj'' = (''djk'' | ''djk'' ∈ Φ).
Sei ''D''(Φ) die Menge aller mšglichen Zeichensequenzen Ÿber Φ. Von ''D''(Φ) differenzieren mu§ man die Menge aller zugelassenen Dokumente ''DVR-IR'' ⊂ ''D''(Φ), da die LŠnge der Zeichensequenz einschrŠnkt werden muss, weil in der Gesamtmenge ''D''(Φ) so lange SequenzlŠngen enthalten sind, die nicht sinnvoll verarbeitbar sind. Ziel der Dokument-Indexierung ist es, jedem Dokument ''Dj'' genau ein Dokumentvektor ''xj'' ∈ ''DVR'' als ReprŠsentation zuzuordnen, wobei den Dimensionen des betreffenden Dokumentvektorraumes ''DVR'' unterschiedliche Typen von Merkmalen (Feature) zugeordnet werden kšnnen: * '''symbolische''' Merkmale, indem jedem Indexterm eine Dimension zugeordnet wird; * '''subsymbolische''' Merkmale, indem z.B. jedem Zeichen-n-Gram eine Dimension zugeordnet wird. Die Abbildung eines Dokumentes auf ein Dokumentvektor wird durch eine Dokument-Indexierungsfunktion ''AVR-IR(D)'' durchgefŸhrt. Wird angenommen, dass die Abbildung eines Dokumentes unabhŠngig von allen anderen Dokumenten aus ''D'' durchgefŸhrt werden kann, so ergibt sich die Darstellung von ''AVR-IR(D)'' mit ''D''(Φ) als der Menge aller mšglichen Zeichensequenzen Ÿber einem endlichen Alphabet Φ:
''AVR-IR(D)'': ''DVR-IR'' -> ''DVR'': ''Dj'' |-> ''xj''.
Es zeigt sich jedoch, dass die Eigenschaften aller restlichen ''m''-1 Dokumente aus ''D'' verwendet werden mŸssen, um ein spezieles Dokument zu indexieren, sodass fŸr die Indexierungsfunktion das (''m''-1)-fache Kreuzprodukt aus der Menge aller zugelassenen Zeichensequenzen verwendet werden muss:
''AVR-IR(D)'': ''DVR-IR'' x ''DVR-IR''m-1 -> ''DVR'': (''Dj'', ''D'' \ {''Dj''}) |-> ''xj''.
[[Bild:VRM_Abb_1.jpg|Dokument-Indexierung im Vektorraummodell]] Grundlage der unterschiedlichen Mšglichkeiten, die Dokument-Indexierungsfunktion zu formulieren, sind die absoluten HŠufigkeiten des Auftretens eines Merkmals (Feature ''Fi'') in einem Dokument ''Dj'', was mit ''h(Fi | Dj)'' bezeichnet werden soll, sowie die absoluten HŠufigkeiten von Fi in der gesamten Dokumentmenge ''D'', was mit ''h(Fi | D)'' bezeichnet werden soll. Die allgemeine Vorgehensweise besteht darin, mit Hilfe der absoluten HŠufigkeiten zunŠchst dokumentmengen-spezifische Merkmalsgewichtungen der Form ''w(Fi | D)'' zu berechnen, die mit Hilfe relativer HŠufigkeiten ''h(Fi | Dj)'' in dokument-spezifische Merkmalsgewichtungen ''w(Fi | Dj)'' umgewandelt werden. Diese Merkmalsgewichtungen werden in den Dokumentvektoren als i'te Komponente ''xji'' eines Vektors ''xj'' verwendet. Beispiele fŸr dokumentmengen-spezifische Merkmalsgewichtungen sind die '''logarithmische Gewichtung''', mit ''m'' als der Anzahl der Dokumente:
''w(Fi | D)'' = loge[1+ [''m''/''h(Fi | D)'']]
oder die '''normalisierte logarithmische Gewichtung''', mit ''h(Fmax|D | D)'' als der absoluten HŠufigkeit des Merkmals, welches in der Dokumentmenge am hŠufigsten auftritt:
''w(Fi | D)'' = loge[1+ [''h(Fmax|D | D)''/''h(Fi | D)'']].
Weitere Beispiele sind die '''hyperbolische Gewichtung''' und die '''normalisierte hyperbolische Gewichtung''':
''w(Fi | D)'' = 1/''h(Fi | D)'',
''w(Fi | D)'' = loge[[''m'' - ''h(Fi | D)'']/[''h(Fi | D)'']].
Mit Hilfe des Informationsballastes (Salton & McGill (1987: 70)) bzw. des Rauschens ''noise(Fi | D)'' und des Signals ''sig(Fi | D)'' kšnnen weitere Ma§e definiert werden. Sei ''D(Fi)'' die Menge aller Dokumente aus ''D'', in denen das Merkmal ''Fi'' auftritt, so gilt:
''noise(Fi | D)'' = ∑D(j) -[''h(Fi | Dj)''/''h(Fi | D)''] · log2[''h(Fi | Dj)''/''h(Fi | D)''], ∀ ''Dj'' ∈ ''D(Fi)'';
''sig(Fi | D)'' = log2[''h(Fi | D)'' · ''noise(Fi | D)''].
Aus diesen Ma§en kann die [[Extropie]]
''w(Fi | D)Extropie'' = 1 - [''noise(Fi | D)''/log2(m)],
sowie die folgenden drei Merkmalsgewichtungen abgeleitet werden:
''w(Fi | D)'' = ''sig(Fi | D)'';
''w(Fi | D)'' = ''sig(Fi | D)''/''noise(Fi | D)'';
''w(Fi | D)'' = ''noise(Fi | D)max'' - ''noise(Fi | D)'', mit ''noise(Fi | D)max'' = max{''noise(Fi | D)'' | ∀ ''Fi''}.
Aus den dokumentmengenspezifischen Merkmalsgewichtungen ''w(Fi | D)'' werden dokumentspezifische Merkmalsgewichtungen ''w(Fi | Dj)'' erzeugt, die als Komponenten ''xji'' der Dokumentvektoren verwendet werden, indem die dokumentmengenspezifischen Merkmalsgewichtungen direkt Ÿbernommen werden, oder indem sie werden mit relativen HŠufigkeiten ''r(Fi | Dj)'' multipliziert werden:
''xji'' := ''w(Fi | Dj)'' = ''w(Fi | D)'', oder
''xji'' := ''w(Fi | Dj)'' = ''w(Fi | D)'' &midpoint; ''r(Fi | Dj)''.
FŸr die relativen HŠufigkeiten ''r(Fi | Dj)'' existieren wiederum eine Reihe von verschiedenen Formulierungen. Die relative HŠufigkeit fŸr einen binŠren Vergleich wird definiert mit
''r(Fi | Dj)'' = {1, wenn ''Fi ∈ ''F''(''Dj''); 0, sonst.
Die logarithmische HŠufigkeit wird definiert durch:
''r(Fi | Dj)'' = 1 + loge(''h(Fi | Dj)'').
Normalisierte relative HŠufigkeiten werden angegeben mit dem Parameter ''K'' ∈ [0,3, 0,5], mit ''h(Fmax|j | Dj)'' als der absoluten HŠufigkeit des Merkmals ''Fmax|j'', das in ''Dj'' am hŠufigsten vorkommt:
''r(Fi | Dj)'' = ''h(Fi | Dj)''/''h(Fmax|j | Dj)'', oder
''r(Fi | Dj)'' = ''K'' + (1 - ''K'') &midpoint; ''h(Fi | Dj)''/''h(Fmax|j | Dj)''.
Werden auf diese Weise fŸr alle Dokumente Dj aus der Dokumentmenge ''D'' genau ein Dokumentvektor xj berechnet, so entsteht die Dokumentvektorenmenge ''DVM''. Zu dieser Menge korrespondiert die '''Dokument-Term-Matrix''', in der die Zeilen die Dokumentvektoren ''Dj'' und die Spalten die Merkmalsvektoren ''Fi'' reprŠsentieren. Die Zellen der ''m'' &midpoint; ''n''-Matrix entsprechen den reellen Vektorkomponenten ''xji''.
'''Dokument-Term-Matrix'''
''Dj''\''Fi'' ''F1'' * * * ''Fn''
''D1'' ''x11'' * * * ''x1n''
* * * * * * * * * * * * * * * * * *
''Dm'' ''xm1'' * * * ''xmn''

==Metrik im Vektorraummodell==

UnabhŠngig von der Dokument-Indexierung ist die Festlegung der [[Metrischer Raum|Metrik]] im ''DVR'', d.h. einer Distanzfunktion, die mehrere Zusatzbedingungen erfŸllt, und mit der die Distanzen zwischen den Punkten im ''DVR'' eindeutig berechnet werden kšnnen. Eine entsprechende Metrik kann aus der Menge der mšglichen bzw. sinnvoll fŸr ''DVR'' verwendbaren Metriken stammen. Im weiteren soll ''MDVR'' als die Menge der zugelassenen Metriken gelten, wobei eine mšgliche parametrische Festlegung die Verwendung der [[Minkowski-Metrik]] ist:

''MDVR'' = {''dDVR''(''qj'', ''xi'', ''v'') | ''dDVR''(''qj'', ''xi'', ''v'') = [∑k=1n |''qjk'' - ''xik''|''v'']1/v, ''v'' ∈ '''N''' }.

==Retrieval im Vektorraummodell==

Beim Retrieval wird durch einen Nutzer eine Query ''Qj'' formuliert, die genau wie ein Dokument als eine endliche Zeichensequenz Ÿber endlichen Alphabet betrachtet wird. Vereinfachend wird angenommen, das beide Alphabete identisch sind, d.h. die Menge aller mšglichen Zeichensequenzen einer Query soll gleich sein der Menge aller mšglichen Zeichensequenzen eines Dokumentes:

''Q''(Φ) := ''D''(Φ).
FŸr eine Query gilt somit in Analogie zu einem Dokument:
''Qj'' = (''djk'' | ''djk'' ∈ Φ).
Mit der gleichen Argumentation wie bei den Dokumenten kann ''Q''(Φ) von der Menge aller zugelassenen Suchfragen ''QVR-IR'' ⊂ ''Q''(Φ) unterschieden werden, damit die LŠnge der Zeichensequenz einschrŠnkt werden kann. ===Indexierung der Query=== Im ersten Schritt des Retrievals wird die Query ''Qj'' durch eine Query-Indexierungsfunktion ''AVR-IR(Q)'' abgebildet auf einen Queryvektor ''qj'', der Element des Dokumentvektorraumes ''DVR'' ist. Die Query-Indexierung kann die MerkmalshŠufigkeiten und -gewichtungen in analoger Weise wie die Dokument-Indexierung verwenden, d.h. die vorliegenden dokumentmengen-spezifischen Merkmalsgewichtungen ''w(Fi | D)'' werden durch Multiplikation mit relativen HŠufigkeiten aus der Query zu queryspezifischen Merkmalsgewichtungen ''w(Fi | Qj)'', die als Komponenten des Queryvektors verwendet werden. Dies bedeutet jedoch, dass potentiell alle ''n'' dokumentmengen-spezifischen Merkmalsgewichtungen verwendet werden mŸssen, die jeweils aus '''R''', '''R+''' oder [0, 1] stammen. Die Query-Indexierungsfunktion lŠsst sich somit definieren als:
''AVR-IR(Q)'': ''QVR-IR'' x '''Rn''' -> ''DVR'': (''Qj'', ''w(Fi | D)'', i = 1, ..., n) |-> ''qj''.

[[Bild:VRM_Abb_2.jpg|Query-Indexierung im Vektorraummodell]]

===Retrievalfunktion===

Im nŠchsten Schritt wird mit einer Retrievalfunktion ''retVR-IR'' eine Teilmenge aus der Dokumentvektorenmenge ''DVM'' festgelegt, die in AbhŠngigkeit von dem Queryvektor ''qj'' mit ''DVMj'' bezeichnet wird. Sei ''PDVM'' die Potenzmenge der Dokumentvektorenmenge, so ergibt sich die formale Spezifikation der Retrievalfunktion als:

''retVR-IR'': ''DVRm'' x ''DVR'' x ''MDVR'' x '''R+''' -> ''PDVM'': (''DVM'', ''qj'', ''dDVR'', ε) |-> DVMj''.
Eine einfache Spezifizierung der Retrievalfunktion verwendet die Distanzen von ''qj'' und allen Dokumentvektoren ''xi'', sowie ein Schwellenwert ε ∈ '''R+'''. Es werden alle Dokumentvektoren ermittelt, deren Abstand zu ''qj'' kleiner ε ist, d.h. die in einer ε-[[Umgebung_(Mathematik)|Umgebung]] um ''qj'' liegen:
''DVMj'' = {''xi'' | ''dDVR''(''qj'', ''xi'') < ε, ∀ ''xi'' ∈ ''DVM''}.

Im einfachsten Fall kšnnte nun dem User, der die Query ''Qj'' gestellt hat, die Dokumentmenge ''D(Qj)'' als Retrievalergebnis prŠsentiert werden, die zu der Dokumentvektorenmenge ''DVMj'' korrespondiert.

[[Bild:VRM_Abb_3.jpg|Retrievalfunktion im Vektorraummodell]]

===Rankingfunktion===

Anstatt einer ungeordneten Dokumentmenge als Retrievalergebnis ist es jedoch besser, eine geordnete Liste zu prŠsentieren. Nachdem die Teilmenge ''DVMj'' ermittelt wurde, soll diese in eine geordnete Liste umgewandelt werden, wobei dem Nutzer letztendlich die "vermutlich besten" Dokumente zuerst prŠsentiert werden sollen (Ranking). Dies geschieht durch die Rankingfunktion ''rankVR-IR'' als Abbildung von ''DVMj'' auf eine Liste der Dokumentvektoren ''DVj'' unter Verwendung der Metrik ''dDVR''. Sei ''LDVM'' die Menge aller mšglichen Dokumentvektorlisten, die aus der Dokumentvektormenge ''DVM'' gebildet werden kšnnen, so ergibt sich fŸr die formale Spezifikation der Rankingfunktion:

''rankVR-IR'': ''DVRm'' x ''MDVR'' -> ''LDVM'': (''DVM'', ''dDVR'') |-> ''DVj''.
Naheliegend ist die Ordnung aller Dokumentvektoren aus ''DVMj'' nach steigender Distanz zu dem Queryvektor ''qj'':
''DVj'' = (''xi'' | ''dDVR''(''qj'', ''xi'') < ''dDVR''(''qj'', ''xi+1''); ∀ ''xi'' ∈ ''DVMj'').

[[Bild:VRM_Abb_4.jpg|Rankingfunktion im Vektorraummodell]]

==Formale Beschreibung des Vektorraummodells==

Fasst man die Betriebsarten Indexierung und Retrieval zusammen, so kann ein ''VR-IRS'' formal als 7-Tupel beschrieben werden, wenn die Mšglichkeit des [[Relevanz-Feedback]]s unberŸcksichtigt bleibt:

''VR-IRS'' = (''DVR-IR'', ''AVR-IR(D)'', ''QVR-IR'', ''AVR-IR(Q)'', ''MDVR'', ''retVR-IR'', ''rankVR-IR''), mit
* ''DVR-IR'': Menge aller zugelassenen Dokumente. * ''AVR-IR(D)'': Dokument-Indexierungsfunktion als Abbildung eines Dokumentes ''Di'' auf einen Dokumentvektor ''xi'' unter Verwendung aller ''m'' ∈ ''N'' Dokumente in einer gegebenen Dokumentmenge ''D'':
''AVR-IR(D)'': ''DVR-IR'' x ''DVR-IR''m-1 -> ''DVR'': (''Di'', ''D'' \ {''Di''}) |-> ''xi''.
* ''QVR-IR'': Menge aller zugelassenen Suchfragen. * ''AVR-IR(Q)'': Query-Indexierungsfunktion als Abbildung einer Anfrage ''Qj'' auf einen Queryvektor ''qj'':
''AVR-IR(Q)'': ''QVR-IR'' x '''Rn''' -> ''DVR'': (''Qj'', ''w(Fi | D)'', i = 1, ..., n) |-> ''qj''.
* ''MDVR'': Menge aller zugelassenen Metriken fŸr ''DVR''. * ''retVR-IR'': Retrievalfunktion als Abbildung des Queryvektors ''qj'' auf eine Teilmenge der Dokumentvektormenge ''DVMj'' unter Verwendung der gegebenen Dokumentvektorenmenge ''DVM'', der Metrik ''dDVR'' und einem Distanzschwellenwert ε:
''retVR-IR'': ''DVRm'' x ''DVR'' x ''MDVR'' x '''R+''' -> ''PDVM'': (''DVM'', ''qj'', ''dDVR'', ε) |-> DVMj''.
* ''rankVR-IR'': Rankingfunktion als Abbildung der ermittelten Teilmenge ''DVMj'' auf eine Liste der Dokumentvektoren ''DVjt'' unter Verwendung der Metrik ''dDVR'':
''rankVR-IR'': ''DVRm'' x ''MDVR'' -> ''LDVM'': (''DVM'', ''dDVR'') |-> ''DVj''.

==Literatur==

* Baeza-Yates, Richardo; Ribeiro-Neto, Berthier: Modern Information Retrieval. ACM Press, New York, 1999, 0-21-39829-X.

* Ferber, Reginald: Information Retrieval - Suchmodelle und Data-Mining-Verfahren fŸr Textsammlungen und das Web. Heidelberg, 2003, 3-89864-213-5.

* Grossman, D.A.; Frieder, O.: Information Retrieval. Kluwer, 1998.

* Kowalski, Gerald; Maybury, M.T.: Information Storage and Retrieval Systems. Kluwer, Boston, 2000.

* Salton, Gerard; McGill, M.J.: Information Retrieval. MacGraw-Hill, 1987.

* Panyr, Jiri: Automatische Klassifikation und Information Retrieval. TŸbingen, 1986.

* Zobel, Justin; Moffat, Alistair: Exploring the Similarity Space. In: SIGIR Forum, Vol. 32, 1998, Nr. 1, S. 18 - 34.

Erweiterung von Informationssystem

Wikipedia-Artikel

Da Informationssysteme Modelle von (realen) PhŠnomenbereichen sind, besitzen sie wie alle Modelle inadŠquate und inakkurate Bereiche, insbesondere wenn ein dynamischer PhŠnomenbereich unterstellt wird, was zu veralteten Modellbereichen fŸhren kann. Es sind daher Update- und Adaptionsfunktionen notwendig sind, um solche Modelleigenschaften anzupassen, wobei [[Relevanz-Feedback (IS)|Relevanz-Feedback-Verfahren]] hierfŸr eine Beispielklasse sind.

Neuerstellung von Relevanz-Feedback (IS)

Wikipedia-Artikel

Es wird angenommen, dass in [[Informationssystem]]en (IS) die internen ReprŠsentationen von Informationsobjekten und/oder Funktionen nicht vollstŠndig adŠquat bzw. akkurat sind. Relevanz-Feedback-Verfahren sind iterative Verfahren, bei denen ein IS einen oder mehrere Interaktionsakte eines Nutzers verwendet, um seine internen ReprŠsentationen von Informationsobjekten und/oder Funktionen zeitlich begrenzt oder dauerhaft zu adaptieren. Es existieren zwei grundsŠtzliche Mšglichkeiten, Relevanzbewertungen von Informationsobjekten zu erhalten:

1) explizites Feedback: Der Nutzer gibt eine explizite qualitative oder quantitative Bewertung der Relevanz eines Informationsobjektes ab.

2) implizites Feedback: Beobachtbares Verhalten des Nutzers wird mit seinen Relevanzbewertungen korreliert. Es lassen sich unterschiedliche Klassen von beobachtbarem Verhalten, d.h. Interaktion mit einem IS, unterscheiden:

*Untersuchen: …ffnen von Dateien, …ffnungs- bzw. Lesezeit, Scrollen, Suchen, Anfragen stellen.

*Bewahren: Speichern, Ausdrucken.

*Referenzieren: Copy-and-Paste, Zitieren.

*Annotieren

*Erzeugen: Editieren, Schreiben.

UnabhŠngig ob ein explizites oder implizites Feedback vorliegt, die Relevanzbewertung kann unterschiedliche AusprŠgungen besitzen, was zu jeweils unterschiedlichen Modellen fŸhren kann:

*binŠre Relevanz ''rel'' ∈ {0, 1}

*reellwertige Relevanz z.B. ''rel'' ∈ [0, 1]

*interval-basierte Relevanz ''rel'' = [0,1, 0,25]

*Fuzzy-Zahl

*Relevanz-Verteilung

In den unterschiedlichen AusprŠgungen von [[Informationssystem]]en kšnnen unterschiedliche Formen des Relevanz-Feedbacks formuliert werden:

* [[Relevanz-Feedback_(IRS)|Relevanz-Feedback in Information-Retrieval-Systemen]]

Neuerstellung von Relevanz-Feedback (IRS)

Wikipedia-Artikel

Es wird angenommen, dass in [[Information-Retrieval|Information-Retrieval-Systemen]] (IRS) die internen ReprŠsentationen von Informationsobjekten und/oder Funktionen nicht vollstŠndig adŠquat bzw. akkurat sind. [[Relevanz-Feedback (IS)|Relevanz-Feedback]]-Verfahren in IRS sind iterative Verfahren, bei denen das IRS einen oder mehrere Interaktionsakte eines Nutzers verwendet, um seine internen ReprŠsentationen von Informationsobjekten (Query- und/oder Dokumentvektoren) und/oder Funktionen (Indexierungs- oder Retrievalfunktion) zeitlich begrenzt oder dauerhaft zu adaptieren.

Relevanz-Feedback wird in den unterschiedlichen Paradigmen von Information Retrieval unterschiedlich formuliert:

* [[Relevanz-Feedback_(Boolsches)|Relevanz-Feedback im Boolschem Retrieval]]

* [[Relevanz-Feedback_(Vektorraum)|Relevanz-Feedback im Vektorraum Retrieval]]

* [[Relevanz-Feedback_(Probabilistisch)|Relevanz-Feedback im Probabilistischem Retrieval]]

Neuerstellung von Relevanz-Feedback (Vektorraumodell)

Wikipedia-Artikel

Beim [[Relevanz-Feedback]] verŠndert ein [[Informationssystem]] (IS) allgemein interne ReprŠsentationen von Informationeobjekten entsprechend Relevanzbewertungen des momentanen Nutzers. Je nachdem welche internen ReprŠsentationen ein IS besitzt, lassen sich unterschiedliche Arten von Relevanz-Feedback unterscheiden, wobei die Bezeichnung sich nach der ReprŠsentation richtet, die verŠndert wird. Im [Vektorraum_(Retrieval)|Vektorraumodell]] des Information Retrievals besitzt das [[Information-Retrieval|Information-Retrieval-Systemen]] (IRS) in jedem Fall interne ReprŠsentationen von Anfragen (Queryvektoren) und von Dokumenten (Dokumentvektoren), sodass entsprechene Relevanz-Feedback-Verfahren unterscheidbar sind. Mšgliche weitere Verfahren ergeben sich bei der Verwendung von Dokumentvektoren-Clustern (Cluster- und Cluster-Zentroidvektor-Relevanz-Feedback) oder bei der Verwendung von [[Neuronalen Netzen]] und insbesondere [[Selbstorganisierende Karten|Selforganazing Maps (SOMs)]] im Kontext des Vektorraummodells (Gewichtsvektoren-Relevanz-Feedback).

==Queryvektor-Relevanz-Feedback mit binŠren Relevanzwerten==

In der Iteration t=0 lŠuft das Verfahren analog dem normalen Information Retrieval ab, indem der Nutzer eine Query ''Qjt=0'' eingibt, die vom IRS mit Hilfe der Query-Indexierungsfunktion auf einen Queryvektor ''qjt=0'' in einem Dokumentvektorenraum ''DVR'' abgebildet wird. Mit ''qjt=0'' wird durch die Retrievalfunktion aus der Gesamtdokumentmenge eine Teilmenge ''DVM(qjt=0)'' nachgewiesen, indem z.B. eine ε-Umgebung um ''qjt=0'' aufgebaut wird, und alle darin enthaltenen Dokumentvektoren ermittelt werden. Die Teilmenge ''DVM(qjt=0)'' wird danach durch eine Rankingfunktion auf eine geordnete Dokumentvektorenliste ''DVL(qjt=0)'' abgebildet wird, deren korrespondierende Dokumentliste ''DL(qjt=0)'' dem Nutzer als Ergebnis prŠsentiert wird. Beim dem Queryvektor-Relevanzfeedback bewertet der Nutzer diese Dokumente ''Dji'' ∈ ''DL(qjt=0)'', indem er ihnen einen Relevanzwert ''rel(Dji)'' zuordnet, den das IRS als Relevenzwerte ''rel(xji)'' fŸr die korrespondierenden Dokumentvektoren ''xji'' in ''DVM(qjt=0)'' verwendet. Wird eine binŠre Relevanzbewertung unterstellt, so ergibt sich eine Relevanzfunktion ''relVR-IR'', die ein Dokument ''Dji'' aus dem Zeichenraum ''D''(Φ) der Dokumente abbildet auf die Menge {0, 1}:

''relVR-IR'' = ''D''(Φ) -> {0, 1}: ''Dji'' |-> ''rel(Dji)'' ≡ ''rel(xji)'' ∈ {0, 1}.
Auf diese Weise ergibt sich eine Zerlegung der Dokumentvektorenmenge ''DVM(qjt=0)'' in eine Menge der relevanten ''DVM(qjt=0)rel'' und eine Menge der nicht-relevanten ''DVM(qjt=0)nrel'' Dokumentvektoren:

''DVM(qjt=0)rel'' = {''xji,relt=0'' | ''rel(xji,relt=0)'' = 1, i = 1, ..., frelt=0},

''DVM(qjt=0)nrel'' = {''xji,nrelt=0'' | ''rel(xji,nrelt=0)'' = 0, i = 1, ..., fnrelt=0}, ''DVM(qjt=0)rel'' ⊂ ''DVM(qjt=0)nrel'' = ''DVM(qjt=0)''.

[[Bild:RelFbVRIR_Abb_1.jpg|Zerlegung der Dokumentvektorenmenge beim Relevanz-Feedback mit binŠren Relevanzwerten]]

Es soll der Fall eines '''gemischten Queryvektor-Relevanz-Feedbacks''' dargestellt werden, d.h. die relevanten und die nicht-relevanten Dokumentvektoren werden zur Adaption des Queryvektors verwendet, wobei alle Dokumentvektoren einbezogen werden sollen. Hierzu werden im nŠchsten Schritt fŸr die beiden Dokumentvektorenmengen ''DVM(qjt=0)rel'' und ''DVM(qjt=0)nrel'' jeweils der Schwerpunkt der Vektoren als ungewichteter arithmetischer Mittelwert berechnet, wodurch die beiden Zentroide ''sDVM(j,rel)t=0'' und ''sDVM(j,nrel)t=0'' erzeugt werden:

''sDVM(j,rel)t=0'' = 1/frelt=0 · ∑i ''xji,relt=0'', ∀ ''xji,relt=0'' ∈ ''DVM(qjt=0)rel''; ''sDVM(j,nrel)t=0'' = 1/fnrelt=0 · ∑i ''xji,nrelt=0'', ∀ ''xji,nrelt=0'' ∈ ''DVM(qjt=0)nrel''.
Adaptionen in VektorrŠumen werden immer als Verschiebeoperationen interpretiert, wobei die Verschiebung in Richtung bzw. weg von einem Fixpunkt der Adaption durchgefŸhrt wird. FŸr die gemischten Strategie bedeutet dies, dass die beiden Zentroide als Fixpunkte verwendet werden, d.h. der Queryvektor wird zunŠchst in Richtung des Fixpunktes ''sDVM(j,rel)t=0'' mit einer Adaptionsrate von β verschoben, was als positive Adaption bezeichnet wird, da dieser Fixpunkt die positiven Beispiele (relevante Dokumente) reprŠsentiert. Es findet zudem eine negative Adaption statt, indem der Queryvektor weg von dem Fixpunkte ''sDVM(j,nrel)t=0'' mit einer Adaptionsrate von γ verschoben wird, dem ReprŠsentanten der negativen Beispiele (nicht-relevante Dokumente). Zudem wird eine Form von TrŠgheit verwendet, indem die alte Position des Queryvektors mit einer Adaptionsrate von α in die Adaptionsgleichung eingeht. Die Position des adaptierten Queryvektors ''qjt=1'' ergibt sich somit zu:
''qjt=1'' = α · ''qjt=0'' + β · ''sDVM(j,rel)t=0'' - γ · ''sDVM(j,nrel)t=0'', α, β, γ ≥ 0.

[[Bild:RelFbVRIR_Abb_2.jpg|Queryvektor-Adaption bei gemischter Feedbackstrategie]] Die Adaption des Queryvektors ''qjt'' in einer Iteration t zu einem Queryvektor ''qjt+1'' lŠsst sich somit durch eine Adaptionsfunktion ''relFBt'' beschreiben, indem ''qjt'', die beiden Zentroidvektoren , sowie die Parameter α, β, γ als Input verwendet werden:

''relFBt'': DVR x DVR x DVR x '''R'''+ x '''R'''+ x '''R'''+ -> DVR: (''qjt'', ''sDVM(j,rel)t'', ''sDVM(j,nrel)t'', α, β, γ) |-> ''qjt+1''.
Von der konkreten Adaptionsgleichung unabhŠngiger lŠsst sich die Adaptionsfunktion durch die Menge der relevanten Dokumentvektoren sowie die Menge der nicht-relevanten Dokumentvektoren formulieren:
''relFBt'': DVR x DVRf(rel,t) x DVRf(nrel,t) -> DVR: (''qjt'', ''DVM(qjt=0)rel'', ''DVM(qjt=0)nrel'') |-> ''qjt+1''.

Mit dem neuen Queryvektor ''qjt+1'' wird eine neue Retrievaloperation durchgefŸhrt, indem eine neue ε-Umgebung erzeugt wird, in der alle Dokumentvektoren innerhalb dieser Umgebung ermittelt werden, die in der ersten Iteration t=0 noch nicht ermittelt wurden. Die entsprechende Dokumentvektorenmenge wird mit ''DVM(qjt=1)'' bezeichnet, die durch eine Rankingfunktion auf eine geordnete Dokumentvektorenliste ''DVL(qjt=1)'' abgebildet wird, deren korrespondierende Dokumentliste ''DL(qjt=1)'' dem Nutzer prŠsentiert wird. Der Nutzer kann diese Dokumente wieder bewerten, wodurch die nŠchste Iteration eingeleitet wird, oder er kann das Verfahren stoppen, was auch von Seiten des IRS geschehen kann, wenn in einer Iteration keine neuen Dokumente nachgewiesen werden kšnnen. [[Bild:RelFbVRIR_Abb_3.jpg|Anwendung der Retrievalfunktion auf neuen Queryvektor]]

==Pseudo-Relevanz-Feedback, Query-Relevanz-Feedback==

Bei diesem Verfahren werden keine expliziten Relevanzwerte vom Nutzer verlangt, sondern es werden die wichtigsten Terme aus den wichtigsten Dokumenten, die durch ''qjt=0'' nachgewiesen werden, verwendet werden, um den Queryvektor zu reformulieren. Die wichtigsten Dokumenten sind dabei die ersten RangplŠtze aus ''DL(qjt=0)'', und die wichtigsten Terme sind diejenigen mit den grš§ten dokumentspezifischen Gewichtungen bzw. den grš§ten Vektorkomponenten. Die Anzahl der wichtigsten Dokumente und die wichtigsten Terme pro Dokument sind dabei externe Verfahrensparameter. Sind die neuen Terme ermittelt, so werden sie der Ursprungsquery ''Qjt=0'' beigemischt, soda§ eine neue Query ''Qjt=1'' vorliegt, die mit der regulŠren Query-Indexierungsfunktion auf den Queryvektor ''qjt=1'' abgebildet wird, mit dem ein neues retrieval durchgefŸhrt wird. Dieses Verfahren modifiziert die Query im Gegensatz zu dem obigen Verfahren, welches den Queryvektor modifiziert, soda§ dies ein Beispiel eines Query-Relevanz-Feedbacks darstellt.

==Dokumentvektor-Relevanz-Feedback==

to do

   
   
   
   

top


Homepage

Lehre

Forschung
Talks
Publikationen
Kontakt

Letzte Änderung 10.12.2003