Doel: Documenten vinden met een Jaccard-soortgelijkheid van minstens t
Het algemene idee van LSH is om een algoritme te vinden dat, als we handtekeningen van 2 documenten invoeren, ons vertelt of die 2 documenten een kandidaat-paar vormen of niet, d.w.z. dat hun overeenkomst groter is dan een drempel t. Vergeet niet dat we de overeenkomst van de handtekeningen beschouwen als een proxy voor de Jaccard-overeenkomst tussen de originele documenten.
Specifiek voor min-hash handtekening matrix:
Hash kolommen van handtekening matrix M met behulp van verschillende hash functies
Als 2 documenten hash in dezelfde emmer voor ten minste een van de hash-functie kunnen we de 2 documenten als een kandidaat-paar
Nu is de vraag hoe je verschillende hash-functies te creëren. Hiervoor doen we band partitie.