Господа, суть проблемы:
У разных поставщиков в прайсах название товаров отличаются, например:
Аспирин 200мг шипуч. №10 /Байер/
Аспирин шип. 200 x10
Как их привести к общему виду?
Я пробовал сравнивать по "похожести" строк - довольно криво и долго получается, сейчас пробую при помощи регулярных выражений проиндексировать таблицу с медикаментами, т.е. из этих строк выделить тип, наименование, дозировку и номер (номер для медикаментов - это количество таблеток, ампул или ещё чего-то в упаковке) медикамента. Если затея не загнётся, то можно будет находить такое же название в таблице и в соответствующих полях брать его описание. Вся проблема в том, что не существует уникального идентификатора для какого-либо товара: ни баркод, ни номер регистрации, ни код мориона (есть такое понятие на украинском фармацевтическом рынке), все они не подходят: не все поставщики ими пользуются, они меняются и т.д. и могут быть одинаковыми у разных товаров.
Я не прошу готового решения, просто может быть (да 100 процентов!) кто-то при разработке каких-либо учётных систем сталкивался с проблемой и может поделится опытом, наработками или подсказать где можно прочитать на эту тему.
Заранее спасибо.