WebWork Magazin - Webseiten erstellen lassen, Online Medien, html

Webhoster, Webhosting Provider und Domain registrieren

Home | Registrieren | Einloggen | Suchen | Aktuelles | GSL-Webservice | Suleitec Webhosting
Reparatur-Forum | Elektro forum | Ersatzteilshop Haushalt und Elektronik


Homepage und Webhosting-Forum

Scripte und Programme für PHP, MYSQL. Diskussionen zur Programmierung im Web. Fragen zu CMS, Blogsoftware, Shops, Newsletter und vielen weiteren Scripten.


Forum » PHP & MySQL » Stichwörter - "Wichtigste Wörter" aus einem Text filtern » Antworten
Benutzername:
Passwort: Passwort vergessen?
Inhalt der Nachricht: Fett | Kursiv | Unterstrichen | Link | Bild | Smiley | Zitat | Zentriert | Quellcode| Kleiner Text
Optionen: Emailbenachrichtigung bei Antworten
 

Die letzten 5 Postings in diesem Thema » Alle anzeigen
von Korre
Das Teil hat was...
von einstein
Ich habe beim Stöbern eine Software (kommerziell) zu diesem Thema gefunden:

http://www.digicol.de/pages/main.php?lang=ger&page=overview
bzw. die Demo http://rambo.digicol.de/premiere/demo.php
Auf Basis von ca. 500 Millionen Wissensfragmenten analysiert Elektra digitale Informationen. Komplexe heuristische, statistische, semantische und linguistische Verfahren analysieren die wesentlichen inhaltlichen Merkmale eines Dokumentes und ordnen die signifikanten Thesaurusbegriffe und Schlagworte diesen automatisch zu.

Elektra basiert auf einem mathematisch-statistischen Ansatz. Unter Verwendung eines vorhandenen Thesaurus mit 1.370 Deskriptoren, oder eines individuell angepassten Thesaurus wertet Elektra sowohl Einzelbegriffe als auch Phrasen aus. Die Firmen- und Organisationsnamen einschließlich der Synonyme umfassen ca. 20.000 Einträge. Die Namensliste für Personen beinhaltet ca. 140.000 Einträge.
Sofern neue Namen hinzukommen, werden diese von Elektra automatisch erfasst und ausgewiesen. Entscheidend für qualitativ hochwertige Ergebnisse ist die permanente Pflege der Wissensbasen.


Soviel zu den Kriterien
von NetDrag
was du bräuchtest wäre eine implementation der Bayes Wahrscheinlichkeit.
Ich schreib gerade meine diss über bayes, aber eine php implementation ist mir noch nicht untergekommen.

Viele neue Spamfilter verwenden auch Bayes.
von einstein
Ich denke, dass du kaum solch eine Kriterienliste zuverlässig aufstellen kannst. Die Meta-Tag Methode ist die Zuverlässigste, aber die scheinst du ja gerade umgehen zu wollen.
Du könntest auch noch die Worte deiner Ergebnis-Liste auf Ähnlichkeit überprüfen und somit nochmal das Ranking einzelner Wörter nach oben pushen, oder auch die Wörter mit der Überschrift des Textes (falls vorhanden) vergleichen und so nocheinmal das Ranking beeinflussen.
Aber soetwas, dass alle wichtigen Wörter mit "W" anfangen und mit "n" aufhören gibts ja leider nicht.
Auch die vorgeschriebene Wortlänge wird dir gerade bei weit verbreiteten Abkürzungen Probleme bereiten. So würden Artikel in denen zig mal "PHP" vorkommt nie miteinander verknüpft.
Wichtigkeitsstufe für jedes Wort klingt doch interessant ;)
von Korre
Also danke erstmal Jan für deine recht umfangreiche Antwort. Mein Problem ist jetzt aber wengier die technische Umsetzung der bereits aufgelisteten Kriterien, sonder vielmehr, dasa ich weitere aussagekräftige Kriterien suche, um ein gescheites Ergebnis zu erhalten... Also wenn da noch einer ein paar gute Vorschläge hat, die nicht darauf hinaus laufen, dass ich ein Wörterbuch mit einer "Wichtigkeitsstufe für jedes Wort" anlegen muss :D, immer her damit...

Nach oben