Переписал свой алгоритм вращения изображений, отказавшись от применения FPU. Везде вместо этого применяется Fixed Point, то есть Long, в котором младшие 16 бит считаем дробной частью. В результате умножения пришлось заменять на "умножение + деление на &H10000", а кое-где даже на "два умножения + два деления", иначе было переполнение.
Не смотря на это, быстродействие на Athlon выросло более, чем в 2.5 раз, а на интелах от 3-х (с антиалиазингом) до 6-ти раз! (без АА). А ведь у меня и так был самый быстрый пример вращения, из демонстрировавшихся тут...
Смотрите пример с кодом в "Кирпичах":
viewtopic.php?f=28&t=38123