T-Rex - Terminosaurus Rex - Die Informationswissenschaft in Begriffen

HINWEIS: Dieses Webangebot entstand in den Jahren 1999-2005 an der Universität des Saarlandes und wird nicht mehr aktiv betreut.
Wir empfehlen das InfoWissWiki als neue Quelle.

Index der Begriffe alphabetisch | nach Notation
Top-Down-Navigation
  Hilfswissenschaften
  Informationswissenschaft
      Gegenstandsbereiche
      Grundbegriffe
           Informationsarbeit
                Informationsbedarfsanalyse
                Informationserschließung
                     Clustering
                     Indexierung
                          Intellektuelle Indexierung
                          computergestützte Indexierung
                          automatische Indexierung
                               Freitextverfahren
                               Statistische Verfahren
                               Informationslinguistische Verfahren
                          Additionsmethode
                          Extracting
                          Deskriptor
                          Gleichordnende Indexierung
                          Syntaktische Indexierung
                          Volltextindexierung
                          Bewertungskriterien des Indexierens
                     Katalogisierung
                     Klassifizieren
                     Textkondensierung
                Informationspräsentation
                Informationsvermittlung
           Informationstheorie
           Information
           Interaktion
           Kommunikation
           Wissen
           informationeller Mehrwert
      Methoden und Verfahren
      Problemfelder
      Spezialdisziplinen
  Nachbardisziplinen

Statistische Verfahren (statistical methods)

Definition

Im Gegensatz zur Volltextinvertierung beim Freitextverfahren gibt es bei statistischen Verfahren zwei Grundsätze:

“Nicht alle Terme sind als Indexterme geeignet, eine Auswahl ist erforderlich“ und „nicht alle ausgewählten Terme besitzen die gleiche Wertigkeit hinsichtlich ihrer inhaltlichen Bedeutung, es muss eine Gewichtung vorgenommen werden“.

Die zu klärende Frage ist: „Wann ist ein Term ein guter Indexterm?“, die man versucht mit statistischen Mitteln zu beantworten. Grundlage ist der so genannte Termfrequenzansatz. Danach haben einmal häufig auftretende Wörter eine höhere Signifikanz für die Bedeutung eines Textes als Wörter mit geringem Vorkommen. Andererseits haben seltener in einer Dokumentenmenge auftretende Wörter einen höheren Diskriminanzeffekt als häufig vorkommende Wörter.

Beide Faktoren werden in der so genannten inversen Dokumenthäufigkeit in Beziehung gestellt. Danach weisen wichtige Indexterme eine hohe Frequenz im Dokument bei gleichzeitig niedriger Dokumentfrequenz auf. Eine Verfeinerung kann erfolgen, indem z.B. Wörter in Titeln oder Kapitelüberschriften stärker gewichtet werden.

Literatur

DIN 31623. Indexierung zur inhaltlichen Erschließung von Dokumenten. Berlin 1988

Knorz, G. (1997). Indexieren, Klassieren, Extrahieren. In: Buder/Rehfeld/Seeger/Strauch (Hrsg., 1997): Grundlagen der praktischen Information und Dokumentation.

Lustig, G. (Hrsg., 1986). Automatische Indexierung zwischen Forschung und Anwendung. Hildesheim et al.: Olms

Nohr, Holger (2001). Automatische Indexierung. Einführung in betriebliche Verfahren, Systeme und Anwendungen. Potsdam: Verlag für Berlin-Brandenburg

Synonyme, Unter-/Oberbegriffe, verwandte Begriffe

Oberbegriff: Automatische Indexierung;
Verwandte Begriffe: Information Retrieval, Thesaurus, intellektuelle Indexierung, computergestützte Indexierung, automatische Indexierung, Freitextverfahren, Morphologisch-lexikalische Verfahren, Syntaktische Verfahren

Links

Automatische und intellektuelle Indexierung:
http://is.uni-sb.de/studium/handbuch/exkurs.ind.php,18.7.2000

Harald. H. Zimmermann: Automatische Indexierung und elektronische Thesauri.
http://www.rz.uni-duesseldorf.de/WWW/ulb/mil_zimm.htm

(16.10.2002)

Homepage der Informationswissenschaft

© 2000-2005 FR 5.6 Informationswissenschaft