|
Wissensrepräsentation und Information Retrieval WS 2003/04 |
||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||
Günter Bachelier, Dr. phil. |
|||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||
|
Diese Seite dient als Referenzseite für die Artikel, die während des Semesters Wissensrepräsentation und Information Retrieval WS 2003/04 in de.Wikipedia erarbeitet und eingestellt wurden, da erwartet wird, dass diese nach dem Einstellen entsprechend dem Wiki-Prinzip verändert werden.
Anmerkungen | mit (*) gekennzeichnete Schlagworte bezeichnen vorhandene Artikel in de.Wikipedia, die im Rahmen des Seminars modifiziert wurden; mit (!) gekennzeichnete Schlagworte wurden im Rahmen des Seminars als neue Artikel in de.Wikipedia eingefügt. |
Die Links verweisen auf die entsprechenden Artikel in de.Wikipedia (links) sowie in en.Wikipedia (rechts). |
|
Themen |
Schlagworte (deutsch) |
Schlagworte (englisch) |
|
01) | Wissen, Wissensarten | Wissen*, Wissensqualität!, Wissensrepräsentation, | Knowledge, Knowledge representation, |
02) | Katalog, Index, Klassifikation, Thesaurus | Index, Katalog, Dokumentation*, Dokumentationssprache*, Klassifikation*, Klassifikationssystem = Systematik*, Notation*, Notation (Dokumentation)*, Thesaurus, | Classification, index, Thesaurus, |
03) | Boolsches IR, Erweitertes BIR | Boolesche Algebra, Boolsches Retrieval, Erweitertes Boolsches Retrieval!, Information Retrieval*, | Boolean algebra, Information retrieval, |
04) | Vektorraum IR, Cluster, Relevanzfeedback | Cluster, Clusteranalyse, Information Retrieval*, Informationssystem*, Relevanz-Feedback (IS)!, Relevanz-Feedback (IRS)!, Relevanz-Feedback (Vektorraumodell)!, Vektorraum IR!, | |
05) | Neuronale Netze, SOMs | Neuronale Netze, Selbstorganisierende Karten (SOMs), | |
06) | Vagheit, Unsicherheit | ||
07) | Fuzzy Theorie, Fuzzy IR | Fuzzy Logik, Fuzzy-Arithmetik, Intervall-Arithmetik, | Fuzzy logic, |
08) | Probabilistisches IR, Inferenz Netze, Bayes Netze | Bayes'sche_Wahrscheinlichkeitstheorie, Bayes-Theorem, Wahrscheinlichkeitsrechnung, | Bayes' theorem, Bayesian probability, |
09) | Objekte, Objektorientierte Analyse, UML | Objektorientierte Programmierung, UML, | Object-oriented programming, |
10) | Regeln, Produktionssystem, Expertensystem |
Experte, Expertensystem, Expertenwissen, Knowledge-Engineering, Produktionssystem, Regel, Wissensbasierte Systeme, Wissenserhebung, Wissensinterpretation. |
Expert System, |
11) | Semantische Netze, Topic Maps, Frames | Semantisches Netz, Topic Maps, Frames, | |
12) | Logik, Prädikatenlogik | Logik, Prädikatenlogik, | Logic, |
13) | Semantic Web, Ontologien | Ontologie, Ontologie (Informatik), Semantic Web, | Ontology_(computer_science), Semantic_Web, |
Die Veränderungsvorschläge bzw. die Artikelvorschläge für de.Wikipedia sind auf der Seite WRIR-Wikipedia.html zusammengefasst. |
Anmerkung: | Im nachfolgenden werden einige Merkmale zur Textgestaltung, Zeichenformatierung und Verlinkung dargestellt, die in den unten stehenden Artikeln verwendet werden. | ||||||||||||||||||||||
Textgestaltung |
|
||||||||||||||||||||||
Zeichenformatierung |
|
||||||||||||||||||||||
Verlinkung |
|
||||||||||||||||||||||
Anmerkungen | Die nachfolgenden Artikelbezeichnungen verweisen mit ihren Links auf die weiter unten stehenden Artikelvorschläge. | |
Themen |
Artikelbezeichung |
|
01) | Wissen, Wissensarten | Wissen*, Wissensqualität!, |
02) | Katalog, Index, Klassifikation, Thesaurus | Dokumentation*, Dokumentationssprache*, Notation*, Notation (Dokumentation)*, Klassifikation*, Klassifikationssystem = Systematik* |
03) | Boolsches IR, Erweitertes BIR | Erweitertes Boolsches Retrieval!, |
04) | Vektorraum IR, Cluster, Relevanzfeedback |
Information Retrieval*, Relevanz-Feedback (IS)!, Relevanz-Feedback (IRS)!, Relevanz-Feedback (Vektorraumodell)!, Vektorraum Retrieval!, |
05) | Neuronale Netze, SOMs | |
06) | Vagheit, Unsicherheit | |
07) | Fuzzy Theorie, Fuzzy IR | |
08) | Probabilistisches IR, Inferenz Netze, Bayes Netze | |
09) | Objekte, Objektorientierte Analyse, UML | |
10) | Regeln, Produktionssystem, Expertensystem | |
11) | Semantische Netze, Topic Maps, Frames | |
12) | Logik, Prädikatenlogik | |
13) | Semantic Web, Ontologien | |
Anmerkung: |
Die nachfolgenden Artikelbezeichnungen verweisen mit ihren Links auf die (veränderten) Artikel in de.Wikipedia. In der ersten Zeile steht jeweils die Artikel-Bezeichnung mit dem Link in de.Wikipedia, sowie der Zeitpunkt der Einstellung. |
||||||||||||||||||||||||
Es wurde für de.Wikipedia keine html-Umlautkodierung verwendet, d.h. in den nachfolgenden Texten stehen die deutschen Umlaute, mit der folge, dass die Browserdarstellung entsprechend abweichen kann. | |||||||||||||||||||||||||
Erweiterung von Wissen um Wissensarten [04.11.2003] |
Folgende Wissensarten kšnnen unterscheiden werden: * '''Wissen Ÿber Fakten''': Zu den Fakten gehšren numerische Fakten wie "das Planck'sche Wirkungsquantum ist h = 6,6261 á 10<sup>-34</sup> Js " oder [[Proposition]]en wie "Der Wolf ist ein Raubtier". * '''Wissen Ÿber [[Konzept]]e und Konzepteigenschaften''': Konzepte werden durch ihren Konzeptnamen, ihre [[Extension]] und ihre [[Intension]] definiert. Extension ist die Menge aller Objekte, die zu dem Konzept gehšrt, die Intension ist die Menge der Merkmale, die ein Objekt besitzen mu§, um zum Konzept zu gehšren. Man unterscheidet zwischen Individualkonzepten, die als Extension eine einelementige Menge besitzen, und Massenkonzepte wie FlŸssigkeiten oder SchŸttgut, die keine stŸckweise abzŠhlbare Extension besitzen. * '''Wissen Ÿber semantische Beziehungen''': Semantische Beziehungen sind Aussagen zu zwei oder mehreren Konzepten, wie z.B. ** Teil-von Beziehungen: (Klinge - Schwert). ** Ist-ein Beziehung (Wolf - Raubtier). ** Zeitliche Beziehungen (chronologische Abfolge, SimultanitŠt). ** RŠumliche Beziehungen (BehŠlter - Inhalt). ** Kausalbeziehungen (Blitz - Donner). * '''Wissen Ÿber Ereignisse und Handlungen''': Ein Ereignis ist eine ZustandsŠnderung eines Objektes zu einem bestimmten Zeitpunkt oder Ÿber ein Zeitintervall hinweg. Eine Handlung ist ein Ereignis, das von einem Aktor absichtsvoll ausgelšst wurde. * '''Wissen Ÿber VorgŠnge und Verfahren''': Ein Vorgang ist eine lang andauernde Handlung. Ein Verfahren ist eine festgelegte Anzahl von miteinander verketteten Einzelhandlungen, fŸr die oft eine bestimmte Reihenfolge verbindlich ist. Wissen Ÿber ein Verfahren bezeichnet man als "know how". * '''Wissen Ÿber Regeln und einschrŠnkende Bedingungen ([[Constraint]]s)''': Wissen Ÿber einschrŠnkende Bedingungen ist Wissen Ÿber die UnzulŠssigkeit von ZustŠnden oder ZustandsŠnderungen. * '''Metawissen''': Wissen Ÿber Wissen, wie z.B. ** Wissen Ÿber die VerlŠsslichkeit ([[ReliabilitŠt]]) bzw. GŸte ([[ValiditŠt]]) von Fakten oder anderen Wissensarten. ** Wissen, wie man WissenslŸcken schlie§en kann (z.B. indem man Unbekanntes erfragt). ** Wissen, wie man neues Wissen aus vorhandenem Wissen ableitet (Inferenzstrategien). ** Wissen, wie man Wissen strukturiert und neues Wissen hinzufügt ** Wissen Ÿber [[WissensqualitŠt]]. * '''Wissen Ÿber [[Problem]]e und Problemlšsungsstrategien''': Bildung einer formalen Beschreibung eines Problems mit dem Ziel der Klassifikation des Problems in eine bekannte Problemklasse, zu der eine Problemlšsungsstrategie bekannt ist. |
||||||||||||||||||||||||
Neue Erzeugung von Wissensqualität [05.11.2003] |
Man kann folgende QualitŠten von '''[[Wissen]]''' unterscheiden: * '''UnvollstŠndiges Wissen''': Einer bekannten Eigenschaft kann zu einem bestimmten Zeitpunkt oder aufgrund anderer Faktoren wie einem fehlenden Messwert ([[Missing_Value]]) kein Wert zugeordnet werden, was z.B. in einer [[Frames_(WissensreprŠsentation)|Frame-ReprŠsentation]] durch einen leeren Slot beschrieben wird. * '''WidersprŸchliches Wissen''': WiderspŸche in Wissensbasen kšnnen behandelt werden, indem ** die Wissensbasis in Teile aufgespaltet wird, die jeweils widerspruchsfrei sind, ** [[Erkenntnistheorie|epistemische]] Logiken verwendet werden, bei denen verschiedene [[Agenten]] jeweils widersprŸchliches [[Glaube]]n, ** [[w:Multi-valued_logic|mehrwertige Logiken]] verwendet werden, die neben "wahr" und "falsch" mindestens einen weiteren Wert wie z.B. "inkonsistent" besitzen. * '''Unsicheres Wissen''': Es wird eine [[Stochastik|stochastische]] Aussage zu einer Eigenschaft gemacht. * '''Ungenaues Wissen''': Es wird keine genaue numerische Angabe zu einer Eigenschaft wie z.B. gro§ oder schnell gemacht, sondern es wird ein Eigenschaftsbereich ([[Intervall_(Mathematik)|Intervall]]) angegeben, (s.a. [[Intervall-Arithmetik]], [[Fuzzy_Logik]], [[Fuzzy-Arithmetik]]). * '''[[Default-Wissen]]''': Wissen, welches normalerweise zutrifft, in EinzelfŠllen jedoch falsch sein kann. Es wird solange als wahr angenommen, bis eine widersprechende Aussage als wahr akzeptiert wird, was zur Folge hat, dass in der Zwischenzeit gemachte Annahmen und Aussagen zurŸck genommen werden mŸssen (nicht-monotones Schlussfolgern, [[Default-Reasoning]]). Default-Wissen wird auch als [[Prototyp|prototypisches]] oder [[Stereotyp|stereotypisches]] Wissen bezeichnet. * '''Definitorisches Wissen''': [[Definition|Definitorische]] Aussagen haben die unanzweifelbaren Eigenschaften einer Aussage, eines Objekts oder einer Klasse zum Gegenstand. * '''Allgemeinwissen''': Kulturell abhŠngiges Wissen, welches verwendet wird, um in dem entsprechenden kulturellen Umfeld alltŠgliche Problemstellungen zu lšsen (s.a. [[w:Common_sense|Common-Sense Knowledge]]). * '''Fachwissen, [[Expertenwissen]]''': Problem- und problemtypabhŠngiges Wissen, das von [[Experte]]n verwendet wird, um Probleme in ihrem Fachgebiet zu lšsen. * '''[[Modallogik]]en''': Semantische Erweiterung der [[PrŠdikatenlogik]] mit Hilfe von "mšglichen Welten". Alethische ModularitŠt beschreibt notwendige und mšgliche Gegebenheiten. Notwendige Gegebenheiten sind wahr, wenn sie in allen mšglichen Welten, die von der betrachteten Welt erreichbar sind, zutreffen. Mšgliche Gegebenheiten sind wahr, wenn sie in mindestens einer mšglichen Welt zutreffen. Deontische ModularitŠt beschreibt gebotene und verbotene Gegebenheiten. * '''Mathematisch Unbeweisbares''': Aussagen, die in einem Axiomsystem nicht beweisbar sind (s.a. [[Gšdelscher_UnvollstŠndigkeitssatz|Gšdelscher UnvollstŠndigkeitssatz]]). * '''Physikalisch Unwissbares''': Eigenschaften, die durch BeschrŠnkungen der [[Naturgesetz]]e oder [[Naturkonstante]]n zu einem bestimmten Zeitpunkt oder prinzipiell nicht gewusst werden kšnnen. Z.B. zu wissen, wie "jetzt" ein 1000 [[Lichtjahre]] entfernter [[Stern]] aussieht, oder zu wissen, ob ein Teilchen in den nŠchsten 5 sec [[Quantenphysik|quantenphysikalisch]] tunneln wird (Ÿber letzteres ist nur unsicheres Wissen mšglich). |
||||||||||||||||||||||||
Erweiterung von Dokumentation und 09.11.2003 |
Dokumentationssprache: Eine Dokumentationssprache ist eine kŸnstliche Sprache zur Nutzung innerhalb von [[Informationssystem|Informations-]] und [[Dokumentationssystem]]en, d.h. zur [[Indexierung]], [[Speicherung]] und zum [[Retrieval]] von Inhalten. Man kann zwei Arten von Dokumentationssprachen unterscheiden: * NatŸrlich-sprachlich basierte: Die Elemente bestehen aus einer natŸrlichen Sprache, wie z.B. bei einem [[Thesaurus]]. * Nicht natŸrlich-sprachlich basierte: Die Elemente bestehen nicht aus einer natŸrlichen Sprache, doch die Beschreibung der Inhalte geschieht mit natŸrlichen Sprachelementen, wie z.B. bei der [[Klassifikation]]. |
||||||||||||||||||||||||
Erweiterung von Notation und 09.11.2003 |
Notation erweitert um: [[Notation_(Dokumentation)]] Notation_(Dokumentation): Eine '''Notation''' im Kontext der [[Dokumentation]] und [[Klassifikation]] ist ein Ausdruck zur verkŸrzten Darstellung einer Klasse und/oder von Relationen zwischen Klassen in [[Klassifikationssystem]]en und wird nach den Regeln eines spezifischen Notationssystems gebildet, dessen Zeichenvorrat aus Zahlen, Sonderzeichen und Buchstaben bestehen kann. |
||||||||||||||||||||||||
Erweiterung von Klassifikation 10.11.2003 |
'''Klassifikation''' bezeichnet * den Prozess der Klassenbildung, der sequenziell unterteilt wird in die ** Einteilung des Sachgebietes in einzelne getrennte Sachverhalte ** Bildung der Klassen ** hierarchische oder systematische Anordnung der Klassen ** Bezeichnung der Klassen durch [[Deskriptor]]en * das [[Klassifikationssystem]] als Ergebnis der Klassenbildung (siehe [[Systematik]]) * den Prozess der Klassierung als [[Methode]] zur Einordnung von getrennten Objekten/Sachverhalten in die Klassen ([[Kategorie]]n) des [[Klassifikationssystem]]s auf der Grundlage von mindestens einem gemeinsamen Merkmal, das sie von Objekten anderer Klassen unterscheidet.
Es lassen sich zwei '''Klassifikationstypen''' unterscheiden: * '''Analytische Klassifikation''', bei der die zusammengefŸhrten Begriffe vom Allgemeinen zum Spezifischen immer feiner untergliedert werden. Entsprechend dem '''Prinzip der PrŠkoordination''' dŸrfen vorab nur Begriffe vergeben werden, die in der Klassifikation enthaltenen sind, was zu einer relativ starren und inflexiblen Struktur fŸhrt. Beispiel ist eine '''universelle Dezimalklassifikation'''. * '''Synthetische Klassifikation''', bei der die Begriffe vom besonderen zum Allgemeinen gruppiert werden, sodass die nachtrŠgliche Vergabe von Begriffen innerhalb der Klassifikation mšglich wird ('''Prinzip der postkoordinativen Erschlie§ung'''). Dadurch lassen sich komplexe und dynamische Sachgebiete klassifizieren. Beispiel ist eine '''Facettenklassifikation'''. |
||||||||||||||||||||||||
Erweiterung von Klassifikationssystem = Systematik 12.11.2003 |
In Klassifikationssystemen lassen sich zwei Bezeichnungsarten unterscheiden: * Verbale Begriffsbezeichnung als Bezeichnungen aus der natŸrlichen Sprache * KŸnstliche Bezeichnungen durch eine [[Notation_(Klassifikation)|Notation]], die aus Zahlen, Sonderzeichen oder Buchstaben bestehen kann. Es lassen sich zwei '''Klassifikationsstrukturen''' unterscheiden: * '''Monohierarchie''' (starke Hierarchie): Jeder Gattungsbegriff hat mehrere Artbegriffe und jeder Artbegriff hat genau einen Gattungsbegriff, wodurch nur eine eindimensionale Suche mšglich ist. * '''Polyhierarchie''' (schwache Hierarchie): Jeder Begriff hat mehrere Unterbegriffe und jeder Unterbegriff kann mehr als einen Oberbegriff besitzen, da unterschiedliche Merkmale des Begriffs berŸcksichtigt werden, sodass eine mehrdimensionale Suche mšglich wird. '''Leistungen''' von Klassifikationssystemen sind: * Zusammenfassung von isolierten Inhalten zu Klassen * Durch Notationen eindeutigere Begriffsbeschreibung * Umgehung scheinbarer Verwandtschaftsbeziehungen * Verbesserung der PrŠzision und Ballastvermeidung im [[Information Retrieval]] '''Vorteile''' von Klassifikationssystemen sind: * UniversalitŠt, d h. Orientierung auf den gesamten Bereich der Wissenschaft (Universalklassifikation) oder auf Teilgebiete (Fachklassifikationen). * KontinuitŠt, d. h die Verwendung Ÿber einen lŠngeren Zeitraum. * AktualitŠt, d.h. FŠhigkeit zur BerŸcksichtigung neuer Erkenntnisse. * FlexibilitŠt durch ExpansivitŠt, d.h. Mšglichkeit zur Erweiterung des Klassifikationssystems. * gute Anwendbarkeit im Kontext des World Wide Web, da Klassifikationssysteme sich gut in Hypertext-Systemen abbilden lassen (z.B. [[Open Directory Project]]) '''Nachteile''' von Klassifikationssystemen sind: * Systematik ist vorab festgelegt und relativ unbeweglich * vorwiegend hierarchische Strukturen * keine syntagmatische VerknŸpfung der Begriffe * eine Anpassung an den Fortschritt der Fachgebiete ist meist schwer umzusetzen * Sachverhalte werden oft in Klassen "gezwŠngt", in die sie nicht vollstŠndig passen, was zu einer Erschwerung des Suchvorganges und zu einem mšglichen Informationsverlust fŸhren kann. |
||||||||||||||||||||||||
Neuerstellung von Erweitertes Boolsches Retrieval! |
Ein '''erweitertes Boolsches Modell''' wird definiert durch den 4-Tupel (''T'', ''Q'', ''D'', ''rank(.,.)'') mit *''T'' = {''ti'' | i = 1, ..., n}: Menge der Indexterme, die Dokumente und Queries beschreiben. *''Q'' = {''qj'' | i = 1, ...}: Menge aller erlaubten Queries. *''D'' = {''dk'' | k = 1, ..., m}: Menge der vorliegenden Dokumente. Bei den erweiterten Boolschen Modellen besitzt jeder Term ''tki'' eines Dokumentes ''dk'' ein Gewicht ''wki'' ∈ [0,1], welches die Wichtigkeit des Termes im Dokument reprŠsentiert. Ein Dokument ''dk'' besitzt somit die Struktur ''dk'' = ((''tk1'', ''wk1''), ..., (''tkn'', ''wkn'')). *''rank(.,.)'': Rankingfunktion, welche die €hnlichkeit eines Dokumentes mit einer Query beschreibt. Sie ist allgemein definiert durch: ''rank''(''dk'', ''qj''): ''D'' x ''Q'' -> [0,1]: (''dk'', ''qj'') |-> ''rank''(''dk'', ''qj'') ∈ [0,1]. Die Rankingfunktion beschreibt die unterschiedlichen Klassen von erweiterten Boolschen Modellen, wobei alle Modelle zwischen der Verwendung der logischen Operatoren AND und OR in der Query unterscheiden. ==Erweiterte Boolsche Modelle ohne Query-Gewichte== Bei dieser Klasse von Modellen wird jede Query reprŠsentiert als eine Kombinationen der Indexterme und der logischen Operatoren AND, OR, NOT unter der mšglichen Verwendung von beliebig geklammerten AusdrŸcken. Es wird angenommen, dass alle Terme die gleiche Bedeutung besitzen, was durch fehlende Termgewichte in der Query reprŠsentiert ist. Folgende erweiterte Boolsche Modelle lassen sich unterscheiden: 1) '''Einfache [[Fuzzy Logik|Fuzzy]]-Mengen-Modell''' [Buell (1981), Bookstein (1980), Radecki (1979)] ''rank''(''dk'', ''t1'' AND ''t2'') = ''MIN''{''wk1'', ''wk2''}; ''rank''(''dk'', ''t1'' OR ''t2'') = ''MAX''{''wk1'', ''wk2''}. Dieses einfache Modell besitzt die EinschrŠnkung, dass es nur zwei Terme evaluieren kann, im Gegensatz zu den folgenden Modellen, die beliebig viele Terme verarbeiten kšnnen. 2) '''Waller-Kraft-Modell''' [Waller&Kraft (1979)] ''rank''(''dk'', ''t1'' AND ... AND ''tn'') = (1 - γ) ·''MIN''{''wk1'', ..., ''wkn''} + γ · ''MAX''{''wk1'', ..., ''wkn''}, 0 ≤ γ ≤ 0,5; ''rank''(''dk'', ''t1'' OR ... OR ''tn'') = (1 - γ) · ''MIN''{''wk1'', ..., ''wkn''} + γ · ''MAX''{''wk1'', ..., ''wkn''}, 0,5 ≤ γ ≤ 1. 3) '''Paice-Modell''' [Paice (1984)] Bei einer AND-VerknŸpfung ordne zunŠchst die Gewichte ''wki'' mit ansteigenden Werten, d.h. ''wk1'' ≤ ... ≤ ''wkn'', und berechne dann ''rank''(''dk'', ''t1'' AND ... AND ''tn'') = [∑i=1n (''ri-1'' · ''wki'')]/[∑i=1n ''ri-1''], 0 ≤ r ≤ 1. Bei einer OR-VerknŸpfung ordne zunŠchst die Gewichte ''wki'' mit absteigenden Werten, d.h. ''wk1'' ≥ ... ≥ ''wkn'', und berechne dann ''rank''(''dk'', ''t1'' OR ... OR ''tn'') = [∑i=1n (''ri-1'' · ''wki'')]/[∑i=1n ''ri-1''], 0 ≤ r ≤ 1. 4) '''P-Norm-Modell''' [Salton et al. (1983)] ''rank''(''dk'', ''t1'' AND ... AND ''tn'') = 1 - [1/n · ∑i=1n (1 - ''wki'')''p'']''1/p'', 1 ≤ p < ∞, ''rank''(''dk'', ''t1'' OR ... OR ''tn'') = 1 - [1/n · ∑i=1n (''wki'')''p'']''1/p'', 1 ≤ p < ∞. 5) '''Infinite-One-Modell''' [Smith (1990)] ''rank''(''dk'', ''t1'' AND ... AND ''tn'') = γ · [1 - ''MAX''{1 - ''wk1'', ..., 1 - ''wkn''}] + (1 - γ) · [1/n · ∑i=1n ''wki''], 0 ≤ γ ≤ 1; ''rank''(''dk'', ''t1'' OR ... OR ''tn'') = γ · ''MAX''{''wk1'', ..., ''wkn''} + (1 - γ) · [1/n · ∑i=1n ''wki''], 0 ≤ γ ≤ 1. ==Erweiterte Boolsche Modelle mit Query-Gewichten== Die Retrieval-EffektivitŠt lŠsst sich steigern, indem den Termen Wichtigkeitsfaktoren in Form von Gewichten zugeordnet werden. Eine Query qj bekommt somit eine Struktur analog zu einem Dokument dk mit Tupeln aus Termen und Gewichten. Werden Terme, die nicht in der Ursprungs-Query auftreten mit einem Gewicht von Null kodiert, so kann jede Ursprungs-Query in eine Query umkodiert werden, die alle in T vorkommenden Terme mit berŸcksichtigt: ''qj'' = ((''tq(j)1'', ''wq(j)1''), ..., (''tq(j)n'', ''wq(j)n'')). Bei den Relevanz-Gewichtungs AnsŠtzen (siehe Buell (1981)) werden die Rankingfunktionen derart reformuliert, dass die Gewichte der Dokumente und Queries multipliziert werden, d.h.: ''rank''(''dk'', (''tq(j)'', ''wq(j)'')) = ''wk'' · ''wq(j)''. Unter dieser Annahme sind von den vorgestellten erweiterten Boolschen Modellen das P-Norm- und das Infinite-One-Modell in der Lage, die Gewichte in den Dokumenten und einer Query zu evaluieren: 1) '''P-Norm-Modell mit Query-Gewichten''' ''rank''(''dk'', (''tq(j)1'', ''wq(j)1'') AND ... AND (''tq(j)n'', ''wq(j)n'')) = 1 - [[∑i=1n (1 - ''wki'')''p'' · ''wq(j)ip'']/[∑i=1n ''wkip'']]''1/p'', 1 ≤ p < ∞, ''rank''(''dk'', (''tq(j)1'', ''wq(j)1'') OR ... OR (''tq(j)n'', ''wq(j)n'')) = 1 - [[∑i=1n ''wkip'' · ''wq(j)ip'']/[∑i=1n ''wkip'']]''1/p'', 1 ≤ p < ∞. 2) '''Infinite-One-Modell mit Query-Gewichten''' ''rank''(''dk'', (''tq(j)1'', ''wq(j)1'') AND ... AND (''tq(j)n'', ''wq(j)n'')) = γ · [1 - [[''MAX''{(1 - ''wk1'') · ''wq(j)1'', ..., (1 - ''wkn'') · ''wq(j)n''}]/[''MAX''{''wq(j)1'', ..., ''wq(j)n''}]] + (1 - γ) · [[∑i=1n (''wki'' · ''wq(j)i'']/[∑i=1n ''wq(j)i'']], 0 ≤ γ ≤ 1; ''rank''(''dk'', (''tq(j)1'', ''wq(j)1'') OR ... OR (''tq(j)n'', ''wq(j)n'')) = γ · [''MAX''{''wk1'' · ''wq(j)1'', ..., ''wkn'' · ''wq(j)n''}]/[''MAX''{''wq(j)1'', ..., ''wq(j)n''}] + (1 - γ) · [[∑i=1n (''wki'' · ''wq(j)i'')]/[∑i=1n ''wq(j)i'']], 0 ≤ γ ≤ 1. ==Literatur== Buell, D.A.: A general model for query processing in information retrieval system. In: Information Processing and Management, 17, 1981, S. 249 - 262. Bookstein, A.: Fuzzy requests: an approach to weighted boolean searches. In: Journal of the American Society for Information Science, 31, 1980, S. 240 - 247. Fox, E.A.; Betrabet, S.; Koushik, M.; Lee, W.: Extended boolean models. In: Frankes, W.B.; Yates, R.B. (eds): Information Retrieval Data Structures and Algorithms. Prentice Hall, 1992, S. 393 - 418. Kim, M.H.; Lee, J.H.; Lee, Y.J.: Analysis of fuzzy operators for high quality information retrieval. In: Information Processing Letters, 46 (5), 1993, S. 251 - 256. Lee, J.H.; Kim, M.H.; Lee, Y.J.: Ranking documents in thesaurus-based boolean retrieval systems. In: Information Processing and Management, 30, 1994, S. 79 - 91. Lee, J.H.; Kim, M.I.I.; Lee, Y.J..: Enhancing the fuzzy set model for high quality document rankings. In: Proceedings of the 19th Euromicro Conference.1992, S. 337 - 344. Lee, J.H.; Kim, W.Y.; Kim, M.H.; Lee, Y.J..: On the evaluation of boolean operators in the extended boolean retrieval framework. In: SIGIR 1993, 1993, S. 291 - 297. Lee, Joon Ho: Properties of extended Boolean models in information retrieval. In: Croft & Rijsbergen (1994): SIGIR 1994, S. 182 - 190. Paice, C.P.: Soft evaluation of boolean search queries in information retrieval systems. In: Information Technology: Research and Development, 3 (1), 1984, S. 33 - 42. Radecki, T.: Fuzzy set theoretical approach to document retrieval. In: Information Processing and Management, 15, 1979, S. 247 - 259. Sachs, W.M.: An approach to associative retrieval through the theory of fuzzy sets. In: Journal of the American Society for Information Science, 27, 1976, S. 85 - 87. Salton, G.; Fox, E.A.; Wu, H.: Extended boolean information retrieval. In: Communication of the ACM, 26(11), 1983, S. 1022 - 1036. Smith, M.E.: Aspekts of the p-norm model of information retrieval: syntactic query generation, efficiency, and theoretical properties. PhD thesis, Cornell University, 1990. Waller, W.G.; Kraft, D.H.: A mathematical Model for weighted Boolean retrieval systems. In: Information Processing and Management, 15, 1979, S. 235 -245. |
||||||||||||||||||||||||
Erweiterung von Information Retrieval |
ist eine Spezialisierung eines [[Informationssystem]]s Ein Information Retrieval System ''IRS'' ohne [[Relevanz-Feedback]] kann formal als 7-Tupel beschrieben werden: # ''AIR(D)'': Dokument-Indexierungsfunktion als Abbildung eines Dokumentes ''Di'' auf eine DokumentreprŠsentation ''xi''. # ''W'': Menge aller mšglichen DokumentreprŠsentationsmengen. # ''Q'': Menge aller zugelassenen Suchfragen ''Qj''. # ''AIR(Q)'': Query-Indexierungsfunktion als Abbildung einer Anfrage ''Qj'' auf eine QueryreprŠsentation ''qj''. # ''E'': Menge aller mšglichen Outputmengen (Potenzmenge der Dokumentmenge) bzw. Outputlisten (beim Ranking). # ''ret'': Retrievalfunktion als Abbildung einer indexierten Suchfrage ''qj'' auf eine Teilmenge der DokumentreprŠsentationsmenge. # ''rank'': Rankingfunktion als Abbildung der ermittelten DokumentreprŠsentationsteilmenge auf eine Liste der DokumentreprŠsentationen. |
||||||||||||||||||||||||
Neuerstellung von Vektorraum IR |
Ein '''Vektorraummodell-Information-Retrieval-System''' ''VR-IRS'' ist eine Spezialisierung eines [[Information_Retrieval|Information Retrieval Systems]]. Dokumente und Anfragen (Queries) werden als Punkte in einem hochdimensionalen, [[Metrik|metrischen]] [[Vektorraum]] reprŠsentiert, wobei zum Retrieval die Distanzen zwischen dem Queryvektor und den Dokumentvektoren genutzt werden. Der erste Schritt besteht in dem Aufbau eines Dokumentvektorenraumes ''DVR'' und der Dokument-Indexierung, bei welcher die Dokumente der Dokumentmenge auf jeweils genau einen Punkt (Dokumentvektoren) im ''DVR'' abgebildet werden. Hierzu existieren eine Vielzahl von Merkmalsgewichtungsmodellen, die alle auf der HŠufigkeit von Merkmalen wie Termen oder Zeichen-n-Grammen in Einzeldokumenten sowie der gesamten Dokumentmenge aufbauen. Das Retrieval im Vektorraummodell fŸhrt zunŠchst eine Query-Indexierung durch, bei welcher die Anfrage auf genau einen Punkt (Queryvektor) im ''DVR'' abgebildet wird. Die nachfolgende Retrieval-Funktion ermittelt eine Teilmenge der Dokumentvektoren, die eine bestimmte €hnlichkeit bezŸglich dem Queryvektor besitzen, und die Rankingfunktion bildet diese Teilmenge auf eine geordnete Liste von Dokumentvektoren ab, wobei "wichtigere" Dokumentvektoren auf den forderen RangplŠtzen liegen. Dem Nutzer, welcher die Query gestellt hat, wird eine Liste von Dokumenten prŠsentiert, welche zu der Liste der Dokumentvektoren korrespondiert. ==Dokument-Indexierung im Vektorraummodell== Gegeben ist eine Dokumentmenge ''D'' = {''Di'' | ''i'' = 1, ..., ''m''} mit ''m'' ∈ ''N'' Dokumenten zu einem Zeitpunkt ''t'', wobei im weiteren vereinfachend ''D'' verwendet werden soll. Dokumente werden dabei allgemein als eine endliche Sequenz von Zeichen ''dij'' Ÿber einem endlichen Alphabet Φ betrachtet:
==Metrik im Vektorraummodell== UnabhŠngig von der Dokument-Indexierung ist die Festlegung der [[Metrischer Raum|Metrik]] im ''DVR'', d.h. einer Distanzfunktion, die mehrere Zusatzbedingungen erfŸllt, und mit der die Distanzen zwischen den Punkten im ''DVR'' eindeutig berechnet werden kšnnen. Eine entsprechende Metrik kann aus der Menge der mšglichen bzw. sinnvoll fŸr ''DVR'' verwendbaren Metriken stammen. Im weiteren soll ''MDVR'' als die Menge der zugelassenen Metriken gelten, wobei eine mšgliche parametrische Festlegung die Verwendung der [[Minkowski-Metrik]] ist: ==Retrieval im Vektorraummodell== Beim Retrieval wird durch einen Nutzer eine Query ''Qj'' formuliert, die genau wie ein Dokument als eine endliche Zeichensequenz Ÿber endlichen Alphabet betrachtet wird. Vereinfachend wird angenommen, das beide Alphabete identisch sind, d.h. die Menge aller mšglichen Zeichensequenzen einer Query soll gleich sein der Menge aller mšglichen Zeichensequenzen eines Dokumentes: [[Bild:VRM_Abb_2.jpg|Query-Indexierung im Vektorraummodell]] ===Retrievalfunktion=== Im nŠchsten Schritt wird mit einer Retrievalfunktion ''retVR-IR'' eine Teilmenge aus der Dokumentvektorenmenge ''DVM'' festgelegt, die in AbhŠngigkeit von dem Queryvektor ''qj'' mit ''DVMj'' bezeichnet wird. Sei ''PDVM'' die Potenzmenge der Dokumentvektorenmenge, so ergibt sich die formale Spezifikation der Retrievalfunktion als: Im einfachsten Fall kšnnte nun dem User, der die Query ''Qj'' gestellt hat, die Dokumentmenge ''D(Qj)'' als Retrievalergebnis prŠsentiert werden, die zu der Dokumentvektorenmenge ''DVMj'' korrespondiert. [[Bild:VRM_Abb_3.jpg|Retrievalfunktion im Vektorraummodell]] ===Rankingfunktion=== Anstatt einer ungeordneten Dokumentmenge als Retrievalergebnis ist es jedoch besser, eine geordnete Liste zu prŠsentieren. Nachdem die Teilmenge ''DVMj'' ermittelt wurde, soll diese in eine geordnete Liste umgewandelt werden, wobei dem Nutzer letztendlich die "vermutlich besten" Dokumente zuerst prŠsentiert werden sollen (Ranking). Dies geschieht durch die Rankingfunktion ''rankVR-IR'' als Abbildung von ''DVMj'' auf eine Liste der Dokumentvektoren ''DVj'' unter Verwendung der Metrik ''dDVR''. Sei ''LDVM'' die Menge aller mšglichen Dokumentvektorlisten, die aus der Dokumentvektormenge ''DVM'' gebildet werden kšnnen, so ergibt sich fŸr die formale Spezifikation der Rankingfunktion: [[Bild:VRM_Abb_4.jpg|Rankingfunktion im Vektorraummodell]] ==Formale Beschreibung des Vektorraummodells== Fasst man die Betriebsarten Indexierung und Retrieval zusammen, so kann ein ''VR-IRS'' formal als 7-Tupel beschrieben werden, wenn die Mšglichkeit des [[Relevanz-Feedback]]s unberŸcksichtigt bleibt: ==Literatur== * Baeza-Yates, Richardo; Ribeiro-Neto, Berthier: Modern Information Retrieval. ACM Press, New York, 1999, 0-21-39829-X. * Ferber, Reginald: Information Retrieval - Suchmodelle und Data-Mining-Verfahren fŸr Textsammlungen und das Web. Heidelberg, 2003, 3-89864-213-5. * Grossman, D.A.; Frieder, O.: Information Retrieval. Kluwer, 1998. * Kowalski, Gerald; Maybury, M.T.: Information Storage and Retrieval Systems. Kluwer, Boston, 2000. * Salton, Gerard; McGill, M.J.: Information Retrieval. MacGraw-Hill, 1987. * Panyr, Jiri: Automatische Klassifikation und Information Retrieval. TŸbingen, 1986. * Zobel, Justin; Moffat, Alistair: Exploring the Similarity Space. In: SIGIR Forum, Vol. 32, 1998, Nr. 1, S. 18 - 34. |
||||||||||||||||||||||||
Erweiterung von Informationssystem |
Da Informationssysteme Modelle von (realen) PhŠnomenbereichen sind, besitzen sie wie alle Modelle inadŠquate und inakkurate Bereiche, insbesondere wenn ein dynamischer PhŠnomenbereich unterstellt wird, was zu veralteten Modellbereichen fŸhren kann. Es sind daher Update- und Adaptionsfunktionen notwendig sind, um solche Modelleigenschaften anzupassen, wobei [[Relevanz-Feedback (IS)|Relevanz-Feedback-Verfahren]] hierfŸr eine Beispielklasse sind. | ||||||||||||||||||||||||
Es wird angenommen, dass in [[Informationssystem]]en (IS) die internen ReprŠsentationen von Informationsobjekten und/oder Funktionen nicht vollstŠndig adŠquat bzw. akkurat sind. Relevanz-Feedback-Verfahren sind iterative Verfahren, bei denen ein IS einen oder mehrere Interaktionsakte eines Nutzers verwendet, um seine internen ReprŠsentationen von Informationsobjekten und/oder Funktionen zeitlich begrenzt oder dauerhaft zu adaptieren. Es existieren zwei grundsŠtzliche Mšglichkeiten, Relevanzbewertungen von Informationsobjekten zu erhalten: 1) explizites Feedback: Der Nutzer gibt eine explizite qualitative oder quantitative Bewertung der Relevanz eines Informationsobjektes ab. 2) implizites Feedback: Beobachtbares Verhalten des Nutzers wird mit seinen Relevanzbewertungen korreliert. Es lassen sich unterschiedliche Klassen von beobachtbarem Verhalten, d.h. Interaktion mit einem IS, unterscheiden: *Untersuchen: …ffnen von Dateien, …ffnungs- bzw. Lesezeit, Scrollen, Suchen, Anfragen stellen. *Bewahren: Speichern, Ausdrucken. *Referenzieren: Copy-and-Paste, Zitieren. *Annotieren *Erzeugen: Editieren, Schreiben. UnabhŠngig ob ein explizites oder implizites Feedback vorliegt, die Relevanzbewertung kann unterschiedliche AusprŠgungen besitzen, was zu jeweils unterschiedlichen Modellen fŸhren kann: *binŠre Relevanz ''rel'' ∈ {0, 1} *reellwertige Relevanz z.B. ''rel'' ∈ [0, 1] *interval-basierte Relevanz ''rel'' = [0,1, 0,25] *Fuzzy-Zahl *Relevanz-Verteilung In den unterschiedlichen AusprŠgungen von [[Informationssystem]]en kšnnen unterschiedliche Formen des Relevanz-Feedbacks formuliert werden: * [[Relevanz-Feedback_(IRS)|Relevanz-Feedback in Information-Retrieval-Systemen]] |
|||||||||||||||||||||||||
Es wird angenommen, dass in [[Information-Retrieval|Information-Retrieval-Systemen]] (IRS) die internen ReprŠsentationen von Informationsobjekten und/oder Funktionen nicht vollstŠndig adŠquat bzw. akkurat sind. [[Relevanz-Feedback (IS)|Relevanz-Feedback]]-Verfahren in IRS sind iterative Verfahren, bei denen das IRS einen oder mehrere Interaktionsakte eines Nutzers verwendet, um seine internen ReprŠsentationen von Informationsobjekten (Query- und/oder Dokumentvektoren) und/oder Funktionen (Indexierungs- oder Retrievalfunktion) zeitlich begrenzt oder dauerhaft zu adaptieren. Relevanz-Feedback wird in den unterschiedlichen Paradigmen von Information Retrieval unterschiedlich formuliert: * [[Relevanz-Feedback_(Boolsches)|Relevanz-Feedback im Boolschem Retrieval]] * [[Relevanz-Feedback_(Vektorraum)|Relevanz-Feedback im Vektorraum Retrieval]] * [[Relevanz-Feedback_(Probabilistisch)|Relevanz-Feedback im Probabilistischem Retrieval]] |
|||||||||||||||||||||||||
Beim [[Relevanz-Feedback]] verŠndert ein [[Informationssystem]] (IS) allgemein interne ReprŠsentationen von Informationeobjekten entsprechend Relevanzbewertungen des momentanen Nutzers. Je nachdem welche internen ReprŠsentationen ein IS besitzt, lassen sich unterschiedliche Arten von Relevanz-Feedback unterscheiden, wobei die Bezeichnung sich nach der ReprŠsentation richtet, die verŠndert wird. Im [Vektorraum_(Retrieval)|Vektorraumodell]] des Information Retrievals besitzt das [[Information-Retrieval|Information-Retrieval-Systemen]] (IRS) in jedem Fall interne ReprŠsentationen von Anfragen (Queryvektoren) und von Dokumenten (Dokumentvektoren), sodass entsprechene Relevanz-Feedback-Verfahren unterscheidbar sind. Mšgliche weitere Verfahren ergeben sich bei der Verwendung von Dokumentvektoren-Clustern (Cluster- und Cluster-Zentroidvektor-Relevanz-Feedback) oder bei der Verwendung von [[Neuronalen Netzen]] und insbesondere [[Selbstorganisierende Karten|Selforganazing Maps (SOMs)]] im Kontext des Vektorraummodells (Gewichtsvektoren-Relevanz-Feedback). ==Queryvektor-Relevanz-Feedback mit binŠren Relevanzwerten== In der Iteration t=0 lŠuft das Verfahren analog dem normalen Information Retrieval ab, indem der Nutzer eine Query ''Qjt=0'' eingibt, die vom IRS mit Hilfe der Query-Indexierungsfunktion auf einen Queryvektor ''qjt=0'' in einem Dokumentvektorenraum ''DVR'' abgebildet wird. Mit ''qjt=0'' wird durch die Retrievalfunktion aus der Gesamtdokumentmenge eine Teilmenge ''DVM(qjt=0)'' nachgewiesen, indem z.B. eine ε-Umgebung um ''qjt=0'' aufgebaut wird, und alle darin enthaltenen Dokumentvektoren ermittelt werden. Die Teilmenge ''DVM(qjt=0)'' wird danach durch eine Rankingfunktion auf eine geordnete Dokumentvektorenliste ''DVL(qjt=0)'' abgebildet wird, deren korrespondierende Dokumentliste ''DL(qjt=0)'' dem Nutzer als Ergebnis prŠsentiert wird. Beim dem Queryvektor-Relevanzfeedback bewertet der Nutzer diese Dokumente ''Dji'' ∈ ''DL(qjt=0)'', indem er ihnen einen Relevanzwert ''rel(Dji)'' zuordnet, den das IRS als Relevenzwerte ''rel(xji)'' fŸr die korrespondierenden Dokumentvektoren ''xji'' in ''DVM(qjt=0)'' verwendet. Wird eine binŠre Relevanzbewertung unterstellt, so ergibt sich eine Relevanzfunktion ''relVR-IR'', die ein Dokument ''Dji'' aus dem Zeichenraum ''D''(Φ) der Dokumente abbildet auf die Menge {0, 1}: ''DVM(qjt=0)rel'' = {''xji,relt=0'' | ''rel(xji,relt=0)'' = 1, i = 1, ..., frelt=0}, ''DVM(qjt=0)nrel'' = {''xji,nrelt=0'' | ''rel(xji,nrelt=0)'' = 0, i = 1, ..., fnrelt=0}, ''DVM(qjt=0)rel'' ⊂ ''DVM(qjt=0)nrel'' = ''DVM(qjt=0)''. [[Bild:RelFbVRIR_Abb_1.jpg|Zerlegung der Dokumentvektorenmenge beim Relevanz-Feedback mit binŠren Relevanzwerten]] Es soll der Fall eines '''gemischten Queryvektor-Relevanz-Feedbacks''' dargestellt werden, d.h. die relevanten und die nicht-relevanten Dokumentvektoren werden zur Adaption des Queryvektors verwendet, wobei alle Dokumentvektoren einbezogen werden sollen. Hierzu werden im nŠchsten Schritt fŸr die beiden Dokumentvektorenmengen ''DVM(qjt=0)rel'' und ''DVM(qjt=0)nrel'' jeweils der Schwerpunkt der Vektoren als ungewichteter arithmetischer Mittelwert berechnet, wodurch die beiden Zentroide ''sDVM(j,rel)t=0'' und ''sDVM(j,nrel)t=0'' erzeugt werden: [[Bild:RelFbVRIR_Abb_2.jpg|Queryvektor-Adaption bei gemischter Feedbackstrategie]] Die Adaption des Queryvektors ''qjt'' in einer Iteration t zu einem Queryvektor ''qjt+1'' lŠsst sich somit durch eine Adaptionsfunktion ''relFBt'' beschreiben, indem ''qjt'', die beiden Zentroidvektoren , sowie die Parameter α, β, γ als Input verwendet werden: Mit dem neuen Queryvektor ''qjt+1'' wird eine neue Retrievaloperation durchgefŸhrt, indem eine neue ε-Umgebung erzeugt wird, in der alle Dokumentvektoren innerhalb dieser Umgebung ermittelt werden, die in der ersten Iteration t=0 noch nicht ermittelt wurden. Die entsprechende Dokumentvektorenmenge wird mit ''DVM(qjt=1)'' bezeichnet, die durch eine Rankingfunktion auf eine geordnete Dokumentvektorenliste ''DVL(qjt=1)'' abgebildet wird, deren korrespondierende Dokumentliste ''DL(qjt=1)'' dem Nutzer prŠsentiert wird. Der Nutzer kann diese Dokumente wieder bewerten, wodurch die nŠchste Iteration eingeleitet wird, oder er kann das Verfahren stoppen, was auch von Seiten des IRS geschehen kann, wenn in einer Iteration keine neuen Dokumente nachgewiesen werden kšnnen. [[Bild:RelFbVRIR_Abb_3.jpg|Anwendung der Retrievalfunktion auf neuen Queryvektor]] ==Pseudo-Relevanz-Feedback, Query-Relevanz-Feedback== Bei diesem Verfahren werden keine expliziten Relevanzwerte vom Nutzer verlangt, sondern es werden die wichtigsten Terme aus den wichtigsten Dokumenten, die durch ''qjt=0'' nachgewiesen werden, verwendet werden, um den Queryvektor zu reformulieren. Die wichtigsten Dokumenten sind dabei die ersten RangplŠtze aus ''DL(qjt=0)'', und die wichtigsten Terme sind diejenigen mit den grš§ten dokumentspezifischen Gewichtungen bzw. den grš§ten Vektorkomponenten. Die Anzahl der wichtigsten Dokumente und die wichtigsten Terme pro Dokument sind dabei externe Verfahrensparameter. Sind die neuen Terme ermittelt, so werden sie der Ursprungsquery ''Qjt=0'' beigemischt, soda§ eine neue Query ''Qjt=1'' vorliegt, die mit der regulŠren Query-Indexierungsfunktion auf den Queryvektor ''qjt=1'' abgebildet wird, mit dem ein neues retrieval durchgefŸhrt wird. Dieses Verfahren modifiziert die Query im Gegensatz zu dem obigen Verfahren, welches den Queryvektor modifiziert, soda§ dies ein Beispiel eines Query-Relevanz-Feedbacks darstellt. ==Dokumentvektor-Relevanz-Feedback== to do |
|||||||||||||||||||||||||