Коды символов

Программирование на Visual Basic, главный форум. Обсуждение тем программирования на VB 1—6.
Даже если вы плохо разбираетесь в VB и программировании вообще — тут вам помогут. В разумных пределах, конечно.
Правила форума
Темы, в которых будет сначала написано «что нужно сделать», а затем просьба «помогите», будут закрыты.
Читайте требования к создаваемым темам.
Алексей.Ф.
Обычный пользователь
Обычный пользователь
 
Сообщения: 59
Зарегистрирован: 09.09.2004 (Чт) 20:55
Откуда: г. Ставрополь

Сообщение Алексей.Ф. » 02.01.2007 (Вт) 0:50

Antonariy писал(а):
По поводу разбора TextRTF: так и не понял, на что предлагается заменять \u*.
На ASCII-код (типа \'e1) со схожим начертанием. Хотя перечитываю задание автора и не понимаю, как он собирается анализировать текст на предмет частоты встречаемости слов, если он фактически меняет в словах буквы?.. Разве что этот анализ оторван от общего словаря.

Мне надо проанализировать текст на предмет частоты встречаемости слов. Но, как анализировать слова, если часть букв, из которых состоят эти слова не читается? Программок, которые составляют частотные словари полно, но, ни одна из них не может проанализировать текст, набранный некоторыми шрифтами на некоторых языках. Приведённый пример с греческим языком и фонтом Palatino linotip, только частный случай.

tyomitch
Пользователь #1352
Пользователь #1352
Аватара пользователя
 
Сообщения: 12822
Зарегистрирован: 20.10.2002 (Вс) 17:02
Откуда: חיפה

Сообщение tyomitch » 02.01.2007 (Вт) 2:23

В каком виде, на самом деле, исходный текст? Именно Word?
И это действительно Бытие, или оно приведено только для примера? (Потому что для него нормально набранный текст найти проще простого.)
Изображение

Алексей.Ф.
Обычный пользователь
Обычный пользователь
 
Сообщения: 59
Зарегистрирован: 09.09.2004 (Чт) 20:55
Откуда: г. Ставрополь

Сообщение Алексей.Ф. » 02.01.2007 (Вт) 14:32

tyomitch писал(а):В каком виде, на самом деле, исходный текст? Именно Word?
И это действительно Бытие, или оно приведено только для примера? (Потому что для него нормально набранный текст найти проще простого.)

В принципе, пока нужна только Библия целиком, в дальнейшем и др. тексты. Исходный текст вообще в виде html-файла, отображаемого одним приложением, но есть и в Word'e. Есть и другими шрифтами. Но с теми шрифтами та же заморочка. С ударениями найти тескт набранный нормальным шрифтом сложно. Во-вторых, как быть с другими языками (иврит, например)?

tyomitch
Пользователь #1352
Пользователь #1352
Аватара пользователя
 
Сообщения: 12822
Зарегистрирован: 20.10.2002 (Вс) 17:02
Откуда: חיפה

Сообщение tyomitch » 02.01.2007 (Вт) 18:06

Алексей.Ф. писал(а):Исходный текст вообще в виде html-файла, отображаемого одним приложением, но есть и в Word'e. Есть и другими шрифтами. Но с теми шрифтами та же заморочка. С ударениями найти тескт набранный нормальным шрифтом сложно.

Не вижу связи между наличием ударений в тексте и шрифтом, которым этот текст набран. (Вообще до сих пор не могу понять, при чём здесь шрифты. Поменял в прикреплённом файле шрифт на Arial -- всё на месте. Поменял на Courier New -- опять всё в порядке. А где же подвох?)
Можно, например, сохранить весь этот же текст (безо всяких шрифтов) в юникодном плейнтекстовом файле. Хотя бы скопировав его в Блокнот.
И потом работать уже с этим текстовым файлом без Ворда и без RTB.
Подходит?
Изображение

Andrey Fedorov
Член-корреспондент академии VBStreets
Член-корреспондент академии VBStreets
 
Сообщения: 3287
Зарегистрирован: 21.05.2004 (Пт) 9:28
Откуда: Москва

Сообщение Andrey Fedorov » 02.01.2007 (Вт) 20:20

Алексей.Ф. писал(а):Всё верно. Но, как узнать, какой код у какаго символа??? Прошу прощения, я некоторое время не мог отвечать (а, главное, спрашивать), из-за большого дефицита времени.


Ну посмотри же мой последний кусок кода, который я давал - там как раз это и было показано на примере 21-го слова - в нем узнается уникод, производится замена...
Фиг Вам! - Сказал Чебурашка, обгладывая Крокодила Гену...

Andrey Fedorov
Член-корреспондент академии VBStreets
Член-корреспондент академии VBStreets
 
Сообщения: 3287
Зарегистрирован: 21.05.2004 (Пт) 9:28
Откуда: Москва

Сообщение Andrey Fedorov » 02.01.2007 (Вт) 20:27

tyomitch писал(а):Не вижу связи между наличием ударений в тексте и шрифтом, которым этот текст набран.


Ну, скажем, эти "ударения" отображаются в тексте. То есть в фонте есть символы с поставленными "ударениями". И в стандартных шрифтах им нет соответствия. Коды символов с "ударениями", само-собой другие... Их и требуется заменить на нормальные.

tyomitch писал(а):(Вообще до сих пор не могу понять, при чём здесь шрифты. Поменял в прикрепленном файле шрифт на Arial -- всё на месте. Поменял на Courier New -- опять всё в порядке. А где же подвох?)


Подвох в том что у некоторых символов фонт не меняется. Подвигайся по тексту курсором - увидишь.
Фиг Вам! - Сказал Чебурашка, обгладывая Крокодила Гену...

tyomitch
Пользователь #1352
Пользователь #1352
Аватара пользователя
 
Сообщения: 12822
Зарегистрирован: 20.10.2002 (Вс) 17:02
Откуда: חיפה

Сообщение tyomitch » 02.01.2007 (Вт) 22:13

Andrey Fedorov писал(а):Ну, скажем, эти "ударения" отображаются в тексте. То есть в фонте есть символы с поставленными "ударениями". И в стандартных шрифтах им нет соответствия. Коды символов с "ударениями", само-собой другие... Их и требуется заменить на нормальные.

На нормальные -- это на без ударений, что ли?
По-твоему, автору хочется удалить из текста все ударения?
Не сходится с тем, что "С ударениями найти тескт набранный нормальным шрифтом сложно."

Andrey Fedorov писал(а):
tyomitch писал(а):(Вообще до сих пор не могу понять, при чём здесь шрифты. Поменял в прикрепленном файле шрифт на Arial -- всё на месте. Поменял на Courier New -- опять всё в порядке. А где же подвох?)


Подвох в том что у некоторых символов фонт не меняется. Подвигайся по тексту курсором - увидишь.

Правильно, потому что в Arial всей этой политоники нету. А в Tahoma, например, есть. Если менять на Tahoma, шрифт у всех букв заменится. Это, по-твоему, означает, что у Tahoma тоже нестандартная кодировка? :roll:
Изображение

Andrey Fedorov
Член-корреспондент академии VBStreets
Член-корреспондент академии VBStreets
 
Сообщения: 3287
Зарегистрирован: 21.05.2004 (Пт) 9:28
Откуда: Москва

Сообщение Andrey Fedorov » 03.01.2007 (Ср) 5:43

tyomitch писал(а):Правильно, потому что в Arial всей этой политоники нету. А в Tahoma, например, есть. Если менять на Tahoma, шрифт у всех букв заменится. Это, по-твоему, означает, что у Tahoma тоже нестандартная кодировка? :roll:


Вопрос был собственно не в том как поменять фонт, а как определить уенкоды таких символов и заменить их на "без ударений". То бишь получить все в одной кодовой странице. Тогда и фонт поменяется без проблем...
Фиг Вам! - Сказал Чебурашка, обгладывая Крокодила Гену...

tyomitch
Пользователь #1352
Пользователь #1352
Аватара пользователя
 
Сообщения: 12822
Зарегистрирован: 20.10.2002 (Вс) 17:02
Откуда: חיפה

Сообщение tyomitch » 03.01.2007 (Ср) 12:48

По-твоему, автор (с таким трудом) нашёл текст с ударениями именно для того, чтобы эти ударения из него вычистить? :roll: :roll:

Если действительно нужно именно это, готовая Септуагинта без ударений лежит на http://www.septuagint.org/LXX/Genesis/Genesis1.html
Изображение

Алексей.Ф.
Обычный пользователь
Обычный пользователь
 
Сообщения: 59
Зарегистрирован: 09.09.2004 (Чт) 20:55
Откуда: г. Ставрополь

Сообщение Алексей.Ф. » 03.01.2007 (Ср) 13:41

Andrey Fedorov писал(а):
tyomitch писал(а):Не вижу связи между наличием ударений в тексте и шрифтом, которым этот текст набран.


Ну, скажем, эти "ударения" отображаются в тексте. То есть в фонте есть символы с поставленными "ударениями". И в стандартных шрифтах им нет соответствия. Коды символов с "ударениями", само-собой другие... Их и требуется заменить на нормальные.


Естественно, что дело не в ударениях, а в том, как правильно заметил Андрей, что некоторым символам нет соответствия в других шрифтах, и что программы, которые составляют частотные словари правильно отображают почему-то далеко не все шрифты.
Но, я уже не буду возиться с заменой символов, а постараюсь сделать свою прогу для анализа текста на частоту встречаемости в нём слов.

В связи с этим другой вопрос, может не совсем по теме: кто может предложить алгоритм для такой программки?

tyomitch
Пользователь #1352
Пользователь #1352
Аватара пользователя
 
Сообщения: 12822
Зарегистрирован: 20.10.2002 (Вс) 17:02
Откуда: חיפה

Сообщение tyomitch » 03.01.2007 (Ср) 20:26

Я могу предложить сразу реализацию, один-в-один скатанную из книги Вирта.
Что любопытно, проверял я её тоже на Библии, правда на английской :-)
Алгоритм -- самобалансирующееся дерево.
Писалось весной 2003 г. к какой-то олимпиаде.
Вложения
c_wirth.rar
(2.19 Кб) Скачиваний: 48
Изображение

Алексей.Ф.
Обычный пользователь
Обычный пользователь
 
Сообщения: 59
Зарегистрирован: 09.09.2004 (Чт) 20:55
Откуда: г. Ставрополь

Сообщение Алексей.Ф. » 05.01.2007 (Пт) 16:44

tyomitch писал(а):Я могу предложить сразу реализацию, один-в-один скатанную из книги Вирта.
Что любопытно, проверял я её тоже на Библии, правда на английской :-)
Алгоритм -- самобалансирующееся дерево.
Писалось весной 2003 г. к какой-то олимпиаде.

Почему-то у меня вместо файла открывается страница с сообщением, что у меня нет права скачивать или открывать этот файл!!!

tyomitch
Пользователь #1352
Пользователь #1352
Аватара пользователя
 
Сообщения: 12822
Зарегистрирован: 20.10.2002 (Вс) 17:02
Откуда: חיפה

Сообщение tyomitch » 05.01.2007 (Пт) 17:32

Ну что мне его, в мыло скинуть, что ли?
Изображение

Алексей.Ф.
Обычный пользователь
Обычный пользователь
 
Сообщения: 59
Зарегистрирован: 09.09.2004 (Чт) 20:55
Откуда: г. Ставрополь

Сообщение Алексей.Ф. » 07.01.2007 (Вс) 14:49

tyomitch писал(а):Ну что мне его, в мыло скинуть, что ли?

Скинь, пожалуйста.

tyomitch
Пользователь #1352
Пользователь #1352
Аватара пользователя
 
Сообщения: 12822
Зарегистрирован: 20.10.2002 (Вс) 17:02
Откуда: חיפה

Сообщение tyomitch » 07.01.2007 (Вс) 15:32

Ну тогда дай его :-)
Аттач-то точно не качается? Я вот проверил, у меня качается.
Изображение

Алексей.Ф.
Обычный пользователь
Обычный пользователь
 
Сообщения: 59
Зарегистрирован: 09.09.2004 (Чт) 20:55
Откуда: г. Ставрополь

Сообщение Алексей.Ф. » 07.01.2007 (Вс) 15:47

tyomitch писал(а):Ну тогда дай его :-)
Аттач-то точно не качается? Я вот проверил, у меня качается.

Раз 10 проверил, в любой теме форума пробую скачать прикреплённые файлы, скачивается не файл, а страница форума, где написано, что у меня нет прав открывать или просматривать данный файл.
Мыло отправляю в личные сообщения.

Пред.

Вернуться в Visual Basic 1–6

Кто сейчас на конференции

Сейчас этот форум просматривают: SemrushBot и гости: 87

    TopList