alibek » 16.04.2003 (Ср) 11:26
Автораспознавание делается ручками.
А если конкретно, берется фрагмент текста (например, первые 2 тысячи символов) и проводится анализ, символы с каким кодом и в каком процентном отношении встречаются. Точных цифр я не помню, были в каком-то журнале "Компъютерры". Смысл в том, что (например), буква "Р" встречается в 3%, а "А" в 8% и т.п. В кодировке CP1251 у буквы "А" код 192, у буквы "Р" код 208, в кодировке CP866 соответственно 128 и 144. Соответственно, если по результатам твоего анализа символ с кодом 128 встретится 7-8%, а с кодом 144 3-4%, то это, скорее всего, кодировка CP866.
Lasciate ogni speranza, voi ch'entrate.