qwertyhp » 01.02.2010 (Пн) 13:50
Кажется, я что-то пропустил (отвлёкся на служебные обязанности). Когда мне пришлось приводить свою электронную библиотеку к одному виду, удаляя дубликаты и т.п., я поступил так: делал копию пытаемых файлов, из этих КОПИЙ удалял пробелы - и сравнивал копии. После чего, при совпадении, удалялся один оригинал и обе изуродованные копии. После чего снова делал копии оригиналов, и удалял из них ещё что-нибудь (гласные, знаки препинания, и т.п.). И снова сравнивал копии. Совпали - смерть одному оригиналу и обеим копиям. Но оригиналы ни в коем случае не модифицировались - а то потом их не узнаешь!
jangle, скажите, а есть ли статистика - какие ошибки наиболее типичны? В начале можно отлавливать именно их - путём подстановок/замен. Потом - приведение к одному виду слов типа "дом" (может писаться как "д.", "д", "д.,"), "квартира" ("кв", "кв.", "кварт", "кварт.", "к", просто цыфирьки, без букв), и т.п. А уже потом - разбирать (если они ещё останутся) конкретные глюки. Собственно, как при рассшифровке египетских письмён - устанавливаеются известные символы; ищутся похожие на известные и приводятся к виду известных; моделируется семантическая структура текста (с использованием известных элементов) на ново-египетском языке, и смотрим - а имеет ли эта фраза смысл?
Пятачок Forever!