закачать WEB-страницу как TXT

Программирование на Visual Basic, главный форум. Обсуждение тем программирования на VB 1—6.
Даже если вы плохо разбираетесь в VB и программировании вообще — тут вам помогут. В разумных пределах, конечно.
Правила форума
Темы, в которых будет сначала написано «что нужно сделать», а затем просьба «помогите», будут закрыты.
Читайте требования к создаваемым темам.
maxorg
Начинающий
Начинающий
 
Сообщения: 3
Зарегистрирован: 17.11.2008 (Пн) 1:43

закачать WEB-страницу как TXT

Сообщение maxorg » 17.11.2008 (Пн) 2:13

Нужно, чтобы со страниц закачивалась только текстовая информация - типа когда делаешь "сохранить как файл" в броузере. Пробовал несколько примеров, все сохраняют еще и всякие коды, теги. Самый лучший вариант - чтобы качалось сразу только текстовое содержимое страницы. Или хотя бы все качнуть, а потом как-то ненужное отсеять. Пока единственное, что нашел вот http://www.nonhostile.com/page000012.asp заготовка, но никак не соображу как заюзать... :-( Результат надо в массив или в файл записывать.

Antonariy
Повелитель Internet Explorer
Повелитель Internet Explorer
Аватара пользователя
 
Сообщения: 4824
Зарегистрирован: 28.04.2005 (Чт) 14:33
Откуда: Мимо проходил

Re: закачать WEB-страницу как TXT

Сообщение Antonariy » 17.11.2008 (Пн) 11:12

Скачать можно только html целиком, вырезать теги можно с помощью регулярных выражений
Код: Выделить всё
Dim oRegExp As New RegExp
    With oRegExp
        .MultiLine = True
        .Global = 1
        .Pattern = "<([^>]*)>"
        sText = .Replace(sHTML, " ")
    End With
Лучший способ понять что-то самому — объяснить это другому.

SSecurity
Служба безопасности
Аватара пользователя
 
Сообщения: 1283
Зарегистрирован: 19.08.2003 (Вт) 1:11
Откуда: Россия, Мурманск

Re: закачать WEB-страницу как TXT

Сообщение SSecurity » 17.11.2008 (Пн) 19:46

на мой взгляд ... лучше использовать гибридный вариант:

1. закачать html-код в некий файл (есть API функции для этого)
2. вырезать оттудова ХТМЛ тэги (тогда потерятся форматирование) как предложил Antonariy
2.1. лучше частично убить только активное содержимое (картинки и ActiveX-элементы)
3. открыть страницу в WebBrowser (уже с локального диска)
4. после загрузки страницы посмотреть в переменную WebBrowser1.Document.body.OuterTEXT

если не особо страшно, с трафиком - можно сразу
WebBrowser1.Navigate URL
и после загрузки
WebBrowser1.Document.body.OuterTEXT
Программист - это маленький Бог, а все его ошибки - это самостоятельные творения:)
Так задумано:)


Вернуться в Visual Basic 1–6

Кто сейчас на конференции

Сейчас этот форум просматривают: Yandex-бот и гости: 54

    TopList