Sunday, 20 July 2008

Как читать защищенные интернет тексты.

Наткнулся на книжку. И нигде нет ссылки на скачку в моем любимом fb2 :(. А читать хоцца на кпк. Правда, они предлагают скачать ее за смешную сумму в 8,3 р. А там, где можно прочитать, текст защищен от копирования. кагбе джаваскриптом. Итак, что надо сделать, чтобы получить текст.

  1. Берем firfox с firebug'ом
  2. Активируем вкладку net
  3. Жимкаем на кнопочку js
  4. Копируем результат запоса, в котором есть знакомые из текста буквы
Затем производим очистку.
  1. грохаем \r\n
  2. грохаем спрятанные <span class=h>
  3. Анэскейпим кавычки
Вуаля! читабельный и сохранябельный текст готов. cons: на выдирание я потратил, наверное, почти столько же, сколько потрачу на прочтение, но при большем размере текста и отработанной технологии метод будет гораздо эффективнее.
Бороться с этим методом можно делая много маленьких js запросов:)

5 comments:

  1. Хороший способ :)

    Я вот тоже придумал =)

    Итак:
    1. Берем прикольный плагин для Firefox'a - "NoScript", ставим его себе приспокойно, заходим на этот сайт. НоуСкрипт заблочит скрипты.
    2. Разблокируем скрипты для этого сайта - они нам пока нужны =)
    3. Получаем доступ к тексту, просто сохраняем страничку на диск как .html-документ, открываем его.
    4. А сейчас уже блочим эту страничку NoScript'ом! Вуаля: текст выделяется =)
    5. Копипастим, сохраняем в txt, pdf, doc, etc...

    ReplyDelete
  2. гы, опенид провайдер.
    Ахуеть! работает!
    А есть способ еще проще, я сначала протупил протупил :( — Opera DOM snapshot.

    ReplyDelete
  3. >гы, опенид провайдер.
    Не, всего лишь Name/URL

    >Opera DOM snapshot.
    У меня отобразил просто сурс-код страницы

    [Моя_Опера]
    Версия: 9.51
    Сборка: 10081
    Платформа: Win32
    Система: Windows XP
    [/Моя_Опера]

    ReplyDelete
  4. Ни! Dom Snapshot — это сорс, того, что изменено джаваскриптом, как раз то, что нужно)

    ReplyDelete