Locality Sensitive Hashing

Locality-sensitive hashing
Bandpartitie
Keuze van b & r
LSH samenvatting

Locality-sensitive hashing

Doel: Documenten vinden met een Jaccard-soortgelijkheid van minstens t

Het algemene idee van LSH is om een algoritme te vinden dat, als we handtekeningen van 2 documenten invoeren, ons vertelt of die 2 documenten een kandidaat-paar vormen of niet, d.w.z. dat hun overeenkomst groter is dan een drempel t. Vergeet niet dat we de overeenkomst van de handtekeningen beschouwen als een proxy voor de Jaccard-overeenkomst tussen de originele documenten.

Specifiek voor min-hash handtekening matrix:

Hash kolommen van handtekening matrix M met behulp van verschillende hash functies
Als 2 documenten hash in dezelfde emmer voor ten minste een van de hash-functie kunnen we de 2 documenten als een kandidaat-paar

Nu is de vraag hoe je verschillende hash-functies te creëren. Hiervoor doen we band partitie.

Locality-sensitive hashing

Bandpartitie

Keuze van b & r

LSH samenvatting

Geef een antwoord Antwoord annuleren