Техт из Bitmap

Программирование на Visual Basic, главный форум. Обсуждение тем программирования на VB 1—6.
Даже если вы плохо разбираетесь в VB и программировании вообще — тут вам помогут. В разумных пределах, конечно.
Правила форума
Темы, в которых будет сначала написано «что нужно сделать», а затем просьба «помогите», будут закрыты.
Читайте требования к создаваемым темам.
Lenny
Продвинутый пользователь
Продвинутый пользователь
 
Сообщения: 103
Зарегистрирован: 15.04.2005 (Пт) 20:06

Сообщение Lenny » 15.04.2005 (Пт) 23:51

Chto to ne vidno teksta v adobe

BV
Thinker
Thinker
Аватара пользователя
 
Сообщения: 3987
Зарегистрирован: 12.09.2004 (Вс) 0:55
Откуда: Молдавия, г. Кишинёв

Сообщение BV » 15.04.2005 (Пт) 23:59

В каком смысле (ты что - разучился писать на кириллице?)?
Хочу заметить - AAR работает только с английским текстом (по крайней мере у меня). Если в документе есть кириллица, то ни*** он читать не будет.

Lenny
Продвинутый пользователь
Продвинутый пользователь
 
Сообщения: 103
Зарегистрирован: 15.04.2005 (Пт) 20:06

Сообщение Lenny » 16.04.2005 (Сб) 0:02

У меня толко английский текст

FaKk2
El rebelde gurú
El rebelde gurú
Аватара пользователя
 
Сообщения: 2031
Зарегистрирован: 09.03.2003 (Вс) 22:10
Откуда: Los Angeles

Сообщение FaKk2 » 16.04.2005 (Сб) 0:03

Гы народ... ФайнРидер не прочтет цифры на маленьком, загаженном куске картинки :)

А вот я лично щас пишу код который чистит мусор и распознает цифры. Кода не дам, но результат скомпиленный покажу ;)
Для получения ответа надо продемонстрировать качества, позволяющие стать компетентным — внимательность, вдумчивость, наблюдательность, желание активно участвовать в выработке решения.

Lenny
Продвинутый пользователь
Продвинутый пользователь
 
Сообщения: 103
Зарегистрирован: 15.04.2005 (Пт) 20:06

Сообщение Lenny » 16.04.2005 (Сб) 0:04

Если хочешь я могу скинуть картинку, попробуй найди там этот текст

BV
Thinker
Thinker
Аватара пользователя
 
Сообщения: 3987
Зарегистрирован: 12.09.2004 (Вс) 0:55
Откуда: Молдавия, г. Кишинёв

Сообщение BV » 16.04.2005 (Сб) 0:20

2 FAKK2

Скинь код сюда (borisbox@mail.ru) плиз :)...

2 Lenny

Не ну ё маё :evil: Неужели не ясно – это не только от языка зависит. Есть ещё спец. разметки в PDF документах, Bookmark’и и т.п. Лучше не доставай народ, а почитай мануал к AAR (на английском, на русском не видел) или к FR.

Inferno
Продвинутый пользователь
Продвинутый пользователь
 
Сообщения: 179
Зарегистрирован: 26.01.2005 (Ср) 1:06

Сообщение Inferno » 16.04.2005 (Сб) 11:15

To BV. Всю дорогу думал что акробат работает с вектором, а битмапы добавляются только для расширения возможностей. Ровно как и в иллюстраторе и в корэле. Вот как ломаются стереотипы.


Алгоритм распознавания символов подобен примитивным фрактальным преобразованиям. Т.е. ищем совпадение образа с определенной погрешностью.
Рассматриваю примитив: Есть только 1 символ который надо распознать.
1) Рисунок преобразуется к 2 цветам: фон- белый, все остальное черное (максимальный контраст).
2) Берем образ символа и сравнивается с рисунком. Если нет совпадения крутим символ на n градусов опять сравниваем. Крутим до по поворота на 360 градусов. Если не подходит берем следующий символ и производим с ним теже операции. Символ считается распознаным если среднеквадратическое отклонение не превышает M%
PS. В данном случае принимаем, что размер символа нам известен иначе необходимо производить и маштабирование.

На самом деле естественно все сложнее. Необходимо учитывать мусор, размытость, неполную пропечатку символов и т.д

kirrun
Постоялец
Постоялец
Аватара пользователя
 
Сообщения: 514
Зарегистрирован: 06.04.2005 (Ср) 15:41
Откуда: Питер

Сообщение kirrun » 16.04.2005 (Сб) 13:42

да бесполезно все это... если картинка со стороны идет.

Lenny, ты напиши конкретно: откуда берецца картинка и пример такой картинки выложи. Если картинку генерирует сама прога - тогда и проблемы нету.

Насчет акробата: текст там отедльно, картинки - отдельно. И не надо говорить, что текст там в видк картинок хранится, а потом акробат его распазнает (это по крайней мери не удобно).

Для распознания текста я лично знаю только две проги: Adobe FineReader и Microsoft Office Document Imaging.
"Единственный безопасный компьютер - это тот, который выключен из электросети, закрыт в сейфе, который зарыт 20 футов под землей в засекреченной местности. И то я не уверен относительно его безопасности."
(Деннис Хьюджес, ФБР)

13GHOST
Постоялец
Постоялец
Аватара пользователя
 
Сообщения: 305
Зарегистрирован: 09.01.2004 (Пт) 12:48

Сообщение 13GHOST » 16.04.2005 (Сб) 17:01

Эта прога должна обладать офигенным интелектом, ведь мы не знаем в каком именно месте картинки находится эта самая буква Есть еще одна проблема - мы не знаем какой вообще сам шрифт(Time New Roman...), а этих шрифтов до хренища :). Есть идея создать специальные бинарные файлики, в которых хранятся образы всех знаков данного шрифта как это было в DOS машинах (1-закрашеный пиксель 0-незакрашеный) типа:
00000000
00000000
00011000
00111000
01111000
00011000
00011000
00011000
00011000
00011000
01111110
00000000
кто не заметил здесь "1", а потом уже прога сравнивает вот это с опредиленной погрешностью и т.д.
З.Ы. FineReader рулит :)

13GHOST
Постоялец
Постоялец
Аватара пользователя
 
Сообщения: 305
Зарегистрирован: 09.01.2004 (Пт) 12:48

Сообщение 13GHOST » 16.04.2005 (Сб) 17:02

Эта прога должна обладать офигенным интелектом, ведь мы не знаем в каком именно месте картинки находится эта самая буква Есть еще одна проблема - мы не знаем какой вообще сам шрифт(Time New Roman...), а этих шрифтов до хренища :). Есть идея создать специальные бинарные файлики, в которых хранятся образы всех знаков данного шрифта как это было в DOS машинах (1-закрашеный пиксель 0-незакрашеный) типа:
00000000
00000000
00011000
00111000
01111000
00011000
00011000
00011000
00011000
00011000
01111110
00000000
кто не заметил здесь "1", а потом уже прога сравнивает вот это с опредиленной погрешностью и т.д.
З.Ы. FineReader рулит :)

BV
Thinker
Thinker
Аватара пользователя
 
Сообщения: 3987
Зарегистрирован: 12.09.2004 (Вс) 0:55
Откуда: Молдавия, г. Кишинёв

Сообщение BV » 16.04.2005 (Сб) 17:45

kirrun писал(а):Насчет акробата: текст там отдельно, картинки - отдельно. И не надо говорить, что текст там в виде картинок хранится, а потом акробат его распознает (это по крайней мери не удобно).

Вот как :shock:
Это ты с какого потолка снял такое умозаключение :) Интересно, как это просканированные страницы разделяются на рисунки и текст? Или может ты имел ввиду то, что из этих битмапов потом какая-то прога читает текст и ставит его отдельно в файл PDF?


Вообще не понимаю – чем вас не устраивает использование OCX’а? Неужели нужен только свой код?...

kirrun
Постоялец
Постоялец
Аватара пользователя
 
Сообщения: 514
Зарегистрирован: 06.04.2005 (Ср) 15:41
Откуда: Питер

Сообщение kirrun » 16.04.2005 (Сб) 18:26

Я имел ввиду что pdf файл - не картинка, которую акробат при каждом открытии распознает в текст.

А насчет OCX... а где его взять-то?
"Единственный безопасный компьютер - это тот, который выключен из электросети, закрыт в сейфе, который зарыт 20 футов под землей в засекреченной местности. И то я не уверен относительно его безопасности."
(Деннис Хьюджес, ФБР)

xenomorph
Постоялец
Постоялец
Аватара пользователя
 
Сообщения: 508
Зарегистрирован: 18.04.2004 (Вс) 11:41
Откуда: это не важно - на сегодня у меня есть алиби ...

Так - кончайте базар ! ... 8) Кодить нуна 8)

Сообщение xenomorph » 16.04.2005 (Сб) 20:25

1. Уже сделано.
2. На ВБ.
3. У меня есть сорс (полурабоччий 8).
4. Официвльная версия у Flex_2004 (типа его копирайт 8 и просить его ессесно а не меня 8)))).
--
Усё 8).
... Dpkjvfnm dc`xnj itdtkbnmcz, f tckb yt itdtkbnmcz hfcitdtkbnm b dpkjvfnm !!! ...

BV
Thinker
Thinker
Аватара пользователя
 
Сообщения: 3987
Зарегистрирован: 12.09.2004 (Вс) 0:55
Откуда: Молдавия, г. Кишинёв

Сообщение BV » 16.04.2005 (Сб) 20:26

2 kirrun

1. Это не картинка – это набор картинок с разными доп. данными.
2. Почитай нижний пост на стр. 1 этой темы (там я всё указал).

А вот насчёт алгоритма чтения текста из битмапа (возможно это и не так):

Думаю, что в начале выясняется шрифт. Потом берётся набор шаблонов букв этого шрифта и начинает сравниваться с участком рисунка (рисунок подгоняется под шаблон путём масштабирования и/или поворота). Потом идёт фильтрация (более точная проверка сходства символов) и в случае несходства «неопознанные символы» либо заменяются на схожие, либо игнорируются.

kirrun
Постоялец
Постоялец
Аватара пользователя
 
Сообщения: 514
Зарегистрирован: 06.04.2005 (Ср) 15:41
Откуда: Питер

Сообщение kirrun » 16.04.2005 (Сб) 22:47

2 BV
То есть ты утверждаешь, что pdf файл - набор картинок?
"Единственный безопасный компьютер - это тот, который выключен из электросети, закрыт в сейфе, который зарыт 20 футов под землей в засекреченной местности. И то я не уверен относительно его безопасности."
(Деннис Хьюджес, ФБР)

STanli
Продвинутый пользователь
Продвинутый пользователь
Аватара пользователя
 
Сообщения: 163
Зарегистрирован: 31.05.2004 (Пн) 15:22
Откуда: ТОМСК

Сообщение STanli » 16.04.2005 (Сб) 23:08

Я вот что хочу сказать, если это было бы просто взломамть, то это не использовали бы повсеместно. А FineReader действительно может помочь, но реализовать это программно, да ещё и на автоматике будет нереально.
Раз, два, три, четыре, пять, с детства с рифмой я дружу.

Lenny
Продвинутый пользователь
Продвинутый пользователь
 
Сообщения: 103
Зарегистрирован: 15.04.2005 (Пт) 20:06

Сообщение Lenny » 17.04.2005 (Вс) 4:54

Я беру эти картинки на ticketmaster.com если вы ищите билети для show перед тем как зайти на страницу где продают билеты надо ввести в техт бох техт с image.

Lenny
Продвинутый пользователь
Продвинутый пользователь
 
Сообщения: 103
Зарегистрирован: 15.04.2005 (Пт) 20:06

Сообщение Lenny » 17.04.2005 (Вс) 4:56

Тоже самое происходит тут при регистрации. Вы же помните картинку на регистрационной форме. Примерно то же самое

kirrun
Постоялец
Постоялец
Аватара пользователя
 
Сообщения: 514
Зарегистрирован: 06.04.2005 (Ср) 15:41
Откуда: Питер

Сообщение kirrun » 17.04.2005 (Вс) 14:03

эээ, другой мой... Ты это не сделаешь... Они же и делаю картинки в ращете на таких мега-хацкеров =) Такую картинку даже FineReader не разберет...

На самом деле, для этого существуют спец программы, которые генерируют картинки точно также как генератор на сервере. Я знаю есть такие проги для Яндекса, Мейла, Хотбокса... Поищи по сети... Вот она-то тебе и сегерит нужные циферки...
"Единственный безопасный компьютер - это тот, который выключен из электросети, закрыт в сейфе, который зарыт 20 футов под землей в засекреченной местности. И то я не уверен относительно его безопасности."
(Деннис Хьюджес, ФБР)

Lenny
Продвинутый пользователь
Продвинутый пользователь
 
Сообщения: 103
Зарегистрирован: 15.04.2005 (Пт) 20:06

Сообщение Lenny » 03.05.2005 (Вт) 18:43

Искал но к сожалению ничего не нашел

Lenny
Продвинутый пользователь
Продвинутый пользователь
 
Сообщения: 103
Зарегистрирован: 15.04.2005 (Пт) 20:06

Сообщение Lenny » 03.05.2005 (Вт) 18:45

А вообще я думаю что тема задела за живое, столько просмотров и ответов. Спасибо.

kirrun
Постоялец
Постоялец
Аватара пользователя
 
Сообщения: 514
Зарегистрирован: 06.04.2005 (Ср) 15:41
Откуда: Питер

Сообщение kirrun » 03.05.2005 (Вт) 19:11

Lenny писал(а):Искал но к сожалению ничего не нашел


Значит, плохо искал...
"Единственный безопасный компьютер - это тот, который выключен из электросети, закрыт в сейфе, который зарыт 20 футов под землей в засекреченной местности. И то я не уверен относительно его безопасности."
(Деннис Хьюджес, ФБР)

Lenny
Продвинутый пользователь
Продвинутый пользователь
 
Сообщения: 103
Зарегистрирован: 15.04.2005 (Пт) 20:06

Сообщение Lenny » 03.05.2005 (Вт) 20:27

А подсказать можешь где они есть?

Amed
Алфизик
Алфизик
 
Сообщения: 5346
Зарегистрирован: 09.03.2003 (Вс) 9:26

Сообщение Amed » 03.05.2005 (Вт) 20:30

kirrun, не строй из себя умника. Глупее постов давно не читал. Не обижайся, просто перестань говорить о том, о чём не имеешь ни малейшего понятия.

kirrun
Постоялец
Постоялец
Аватара пользователя
 
Сообщения: 514
Зарегистрирован: 06.04.2005 (Ср) 15:41
Откуда: Питер

Сообщение kirrun » 03.05.2005 (Вт) 20:40

Щас поищу эти программки... Где-то давнооооо видел...
"Единственный безопасный компьютер - это тот, который выключен из электросети, закрыт в сейфе, который зарыт 20 футов под землей в засекреченной местности. И то я не уверен относительно его безопасности."
(Деннис Хьюджес, ФБР)

kirrun
Постоялец
Постоялец
Аватара пользователя
 
Сообщения: 514
Зарегистрирован: 06.04.2005 (Ср) 15:41
Откуда: Питер

Сообщение kirrun » 03.05.2005 (Вт) 20:50

Так... Честно говоря, поискал и пока ниче не нашел. Но вот сюда мона почитать (для общего развития) http://www.codenet.ru/webmast/perl/anti_robot_img.php

Ща попью чай и буду дальше искать...
"Единственный безопасный компьютер - это тот, который выключен из электросети, закрыт в сейфе, который зарыт 20 футов под землей в засекреченной местности. И то я не уверен относительно его безопасности."
(Деннис Хьюджес, ФБР)

Lenny
Продвинутый пользователь
Продвинутый пользователь
 
Сообщения: 103
Зарегистрирован: 15.04.2005 (Пт) 20:06

Сообщение Lenny » 03.05.2005 (Вт) 21:10

Spasibo

Andrey Fedorov
Член-корреспондент академии VBStreets
Член-корреспондент академии VBStreets
 
Сообщения: 3287
Зарегистрирован: 21.05.2004 (Пт) 9:28
Откуда: Москва

Сообщение Andrey Fedorov » 04.05.2005 (Ср) 12:38

А ведь весь спор идет из-за того что спамер хочет обойти соответствующую защиту на почтовых сайтах... Оно нам надо?
Фиг Вам! - Сказал Чебурашка, обгладывая Крокодила Гену...

kirrun
Постоялец
Постоялец
Аватара пользователя
 
Сообщения: 514
Зарегистрирован: 06.04.2005 (Ср) 15:41
Откуда: Питер

Сообщение kirrun » 04.05.2005 (Ср) 13:35

Andrey Fedorov

Да лана... Хер с ним... Зато разминка для ума... Все равно у него нихрена не получится. Это надо писать очень мощную прогу... А нас и поспорить повод и подумать... Короче, весело.
"Единственный безопасный компьютер - это тот, который выключен из электросети, закрыт в сейфе, который зарыт 20 футов под землей в засекреченной местности. И то я не уверен относительно его безопасности."
(Деннис Хьюджес, ФБР)

Andrey Fedorov
Член-корреспондент академии VBStreets
Член-корреспондент академии VBStreets
 
Сообщения: 3287
Зарегистрирован: 21.05.2004 (Пт) 9:28
Откуда: Москва

Сообщение Andrey Fedorov » 04.05.2005 (Ср) 13:52

kirrun писал(а):Andrey Fedorov

Да лана... Хер с ним... Зато разминка для ума... Все равно у него нихрена не получится. Это надо писать очень мощную прогу... А нас и поспорить повод и подумать... Короче, весело.


Да не столь уж и мощную - и реально для спеца, к сожалению...
Потому лучше не давать даже случайных намеков.
Фиг Вам! - Сказал Чебурашка, обгладывая Крокодила Гену...

Пред.След.

Вернуться в Visual Basic 1–6

Кто сейчас на конференции

Сейчас этот форум просматривают: AhrefsBot и гости: 12

    TopList