вторник, 15 января 2008 г.

Несложный способ получить полный текст статьи из rss ленты используя yahoo pipes

RSS ленты как много в этом слове для сердца (нужное вписать) слилось, отличное средство получения контента для своего сайта, блога etc...

Одна маленькая проблема, найти rss ленту выдающую полный текст статей бывает не так уж и легко, обычно самые вкусные фиды выдают лишь первые несколько строк статьи, остальной текст доступен только после перехода по ссылкe.

Поигравшись с трубами yahoo удалось найти относительно простой способ решить проблему отсутствия полных текстов статей.

В качестве примера небольшая труба позволяющая выдирать статьи с новостной ленты cnn.com
Вот как это все дело выглядит



Думаю в принципе уже все всем понятно. Для танкистов небольшое описание процесса.

1. Сначала через Fetch Feed парсим rss ленту cnn.
2. Сортируем по дате, это в принципе совсем не обязательно, это мне нужно было по своим темам.
3. Выкидываем все после первой записи. Также как и второй пункт необязательно.
4. Тут вставляем Loop, в который запихиваем URL builder. Для чего это нужно? Просто страницу cnn'овскую с новостью парсить весьма неудобно, потому просто делаем ту же статью только в версии для печати, для этого создаем урл с основой http://www.printthis.clickability.com/pt/printThis к которой добавляем урл исходной страницы новости в параметре url.
5. В принципе после этого страница почти готова. Осталось только выкинуль лишний хтмл код и прочую фигню, что я и делаю с помощью опять-же loop'a и fetch page.

Вот такой несложный способ. В результате имеем полный текст новости в rss ленте.



Где это использовать оставляю на ваше усмотрение. ;)

4 комментария:

Agent Insurance комментирует...

друг) скинь пожалуйста урл пайпа. спасибо за инфу по пайпам

4yka комментирует...

Так пример же на картинке есть, по нему пайп сделать дело 1 минуты ;)

Анонимный комментирует...
Этот комментарий был удален автором.
Анонимный комментирует...
Этот комментарий был удален автором.