Като сме започнали да коментираме програмиране, да пусна и аз една задачка която му трябва на един колега статистик.
Имаме две колекции от стрингове: А и Б. Стринговете са дълги средно 150 символа, като могат да са и доста по-къси, но е малко вероятно. Колекция А е от 1 милион стринга, колекция Б е от 10 милиона стринга.
За всеки стринг от колекция Б трябва да се намери стринга от колекция А, който е най-близък до него. Разстоянието се мери с Levenshtein distance. Грешките може да са до над 100, но да предположим че ни интересува match с до 64 грешки.
Как ще го смятате, по възможност без "фактори"? :)