Создаем автонаполняемый блог

May 2, 2008

Статья о построении автонаполняемого блога на базе движка Wordpress.

Русская локализация – http://mywordpress.ru). Установку движка, минимальную настройку, установку шаблонов и т.п. я пропущу, т.к. эти операции весьма просты и с ними справится даже ребенок Скажу только вкратце о системных требованиях. На вашем сервере должен быть установлен php четвертой или пятой версии + mysql, кроме того, ваши скрипты должны обладать правом делать исходящие запросы, стало быть бесплатный хостинг не пойдет. Ну и еще, очень не помешает возможность использовать Cron.

Автонаполнение происходит за счет наглого воровства чужого контента путем грабинга RSS-лент других сайтов. Использовать для этого будем плагин для Wordpress под названием Smart RSS (www.devplug.net). Скачать его можно по ссылке http://www.devplug.net/download/smartrss.zip В архиве находятся два файла – smart_rss.php и wp_smartrss.php. Первый файл мы загружаем в папку /wp-content/plugins/, А второй в корень сайта. Теперь активируем плагин в админке и, собственно, практически все.

Теперь можно перейти к настройкам плагина и добавить первую rss-ленту (можно указывать в какую рубрику будут падать новости). RSS-ленты удобно искать в каталоге этих самых лент, который находится по адресу http://kanban.ru Теперь, если пройти по адресу http://your-site.ru/wp_smartrss.php мы активируем плагин и новости успешно перекочуют из удаленной rss-ленты на наш сайт. Осталось добавить crontab-задание для скрипта wp_smartrss.php и всё, теперь без нашего участия сайт будет регулярно обновляться.

Иногда возникают проблемы с кодировками (импортируются или кракозябры или совсем ничего). Я эту проблему решил примерно так. В файле wp_smartrss.php нужно код

if($content = file($filename))
$data = @implode("", $content);

Заменить на

if($content = file($filename)){
$data = @implode("", $content);

if (strstr($data,’encoding="windows-1251"’))
$data = mb_convert_encoding($data, ‘UTF-8′, ‘WINDOWS-1251′);
}

Как можно получать ссылки на свои зарубежные блоги

April 24, 2008

? Расскажу, как он работает. Если на каком-либо блоге он установлен, то когда вы комментируете какую-то из его записей вам предлагается поставить галочку рядом с текстом: “Enable CommentLuv which will try and get your last blog post, please be patient while it finds it for you”, это означает то, что вконце вашего комментария будет стоять ссылка на последний ваш пост.

Уловили ход моих мыслей? Итак, у вас есть блог на англ.яз (у русских блогеров я даже не искал, не очень интересует) например той же сеошной тематики.

Идем в гугл и ищем по запросу: Ключевик “Enable CommentLuv which will try and get your last blog post, please be patient while it finds it for you”, а для нас интересно Seo “Enable CommentLuv which will try and get your last blog post, please be patient while it finds it for you” и видим что в выдаче больше 90к сайтов/блогов. Но понятное дело из них процентов 10 подойдут, что уже будет хорошо…

————–

SeoWriter

Постим без капчи: бэклинки через Trackback и Pingback

February 22, 2008

Не буду объяснять что такое trackback и pingback, об этом можно почитать здесь и  здесь

Как видите в обоих случаях результат выполнения функций это ссылки в заголовке коммента, причем track можно посылать с кейвордом сразу, а пинг самостоятельно выдирает кейворд из титла страницы, с которой его посылают.

Как это использовать в своих целях, Вы, наверняка уже догадались. Осталось автоматизировать этот процесс. Нам же дорого наше время?

Что самое интересное писать почти ничего не нужно. За нас это уже сделали Умы и гуру инета и супер CMS WordPress :)  , итак:

  Как послать трэк?

Чтобы послать трэк на чужой блог нужно сначала специальный линк, на который он посылается. Этот линк можно получить загрузив страницу со статьей. Блок, в котором прописана ссылка выглядит так:

вот под словом
trackback

как раз и есть ссылка для посылки трэка. Поиск и выдергивание ссылки из текста HTML оставляю на Ваших плечах.
Выглядит эта ссылка примерно так:
http://ruskii10k.com/wp-trackback.php?p=15

или так

http://www.quietlyscheming.com/blog/2006/03/06/flex-and-ajax/trackback/

 .

или так

http://eightbar.co.uk/2006/09/29/google-sketchup-second-life-export/trackback/

 .

Теперь осталось дело за мылым: Чтобы наш трэк опубликовался нужно его просто послать блогу товарища :)  . Для этого составляем обычный POST запрос в теле которого следующие параметры:

title=My Super Blog&url=http://mysuperblog.com&blog_name=Super Ankor&excerpt=Description


Расшифрую:

title – Заголовок коммента, будет писаться в тэге <strong> гугл это любит, так что можно писать какой-нить кейворд

url – Урл, на который хотим поставить трэк.

blog_name – используем как Анкор к ссылке – будет светится вместо имени.

excerpt – Сам коммент. Ну тут уж думайте сами , хотя многие здесь благодарят автора за пост , хвалят его. Некоторые , умные парни, даже научились цитировать часть сообщения, чтобы обойти Akismet :)

Вот и все, после посылки POST’а Вам придет XML-ответ:

  <?xml version=”1.0″ encoding=”utf-8″ ?>
  <response>
  <error>0</error>
  </response>

 

Здесь циферка 0 между <error> обозначает, что все прошло гладко и ваш трэк понравился блогу.



Как послать пинг ?

Тут методика чутка усложняется, но также остается на уровне “начинающего пхп-кодера”. Для работы с этим делом нам понадобится библиотека для работы с интерфесом XML-RPC. Библиотека эта распространяется бесплатно и скачать ее можно
здесь

 или выдрать опять же из WordPress’a (файл с именем class-IXR.php).

Для посылки пинга нам нужны три вещи:

1. Линк на статью в нашем блоге, от которой мы посылаем пинг.

2. Линк на статью в чужом блоге, в коменты которой мы посылаем пинг.

3. Линк на XML-RPC сервер  блога, в который постим и который принимает пинги.

С первыми двумя пунктами все ясно. Сосредоточимся на третьем:

Если блог принимает пинги, то по спецификации
pingback

он обязан передавать ссылку на pingback url в HTTP-заголовке ответа на каждый запрос параметр X-Pingback, например:

X-Pingback:
http://ruskii10k.com/pingback/xmlrpc

либо в заголовке HTML документа, пример:

<link rel=”pingback” href=”http://ruskii10k.com/pingback/xmlrpc”>

В моем полюбившемся движке блога есть функция, которая находит и возвращает pingback url. Так что снова всю грязную работу сделали за нас:

PHP 

function discover_pingback_server_uri($url, $timeout_bytes = 2048) {
global $wp_version;
$byte_count = 0;
$contents = ;
$headers = ;
$pingback_str_dquote = rel="pingback";
$pingback_str_squote = rel=pingback;
$x_pingback_str = x-pingback: ;
$pingback_href_original_pos = 27;
extract(parse_url($url));
if (!isset($host)) {
// Not an URL. This should never happen.
return false;
}
$path = (!isset($path)) ? / : $path;
$path .= (isset($query)) ? ?.$query : ;
$port = (isset($port)) ? $port : 80;
// Try to connect to the server at $host
$fp = @fsockopen($host, $port, $errno, $errstr, 2);
if (!$fp) {
// Couldnt open a connection to $host;
return false;
}
// Send the GET request
$request = "GET $path HTTP/1.1 Host: $host User-Agent: WordPress/$wp_version ";
// ob_end_flush();
fputs($fp, $request);
// Lets check for an X-Pingback header first
while (!feof($fp)) {
$line = fgets($fp, 512);
if (trim($line) == ) {
break;
}
$headers .= trim($line)." ";
$x_pingback_header_offset = strpos(strtolower($headers), $x_pingback_str);
if ($x_pingback_header_offset) {
// We got it!
preg_match(#x-pingback: (.+)#is, $headers, $matches);
$pingback_server_url = trim($matches[1]);
return $pingback_server_url;
}
if(strpos(strtolower($headers), content-type: )) {
preg_match(#content-type: (.+)#is, $headers, $matches);
$content_type = trim($matches[1]);
}
}
if (preg_match(#(image|audio|video|model)/#is, $content_type)) {
// Not an (x)html, sgml, or xml page, no use going further
return false;
}
while (!feof($fp)) {
$line = fgets($fp, 1024);
$contents .= trim($line);
$pingback_link_offset_dquote = strpos($contents, $pingback_str_dquote);
$pingback_link_offset_squote = strpos($contents, $pingback_str_squote);
if ($pingback_link_offset_dquote || $pingback_link_offset_squote) {
$quote = ($pingback_link_offset_dquote) ? " : ;
$pingback_link_offset = ($quote==") ? $pingback_link_offset_dquote : $pingback_link_offset_squote;
$pingback_href_pos = @strpos($contents, href=, $pingback_link_offset);
$pingback_href_start = $pingback_href_pos+6;
$pingback_href_end = @strpos($contents, $quote, $pingback_href_start);
$pingback_server_url_len = $pingback_href_end - $pingback_href_start;
$pingback_server_url = substr($contents, $pingback_href_start, $pingback_server_url_len);
// We may find rel="pingback" but an incomplete pingback URI
if ($pingback_server_url_len >
0) {
// We got it!
return $pingback_server_url;
}
}
$byte_count += strlen($line);
if ($byte_count >
$timeout_bytes) {
// Its no use going further, there probably isnt any pingback
// server to find in this file. (Prevents loading large files.)
return false;
}
}
// We didnt find anything.
return false;
}

Получаем линк:

PHP

$pagelinkedfrom = "http://yabadan.net/?p=40";
$pagelinkedto = "http://ruskii10k.com/2007/03/13/i-love-404-not-found-2/";
$pingback_server_url = discover_pingback_server_uri($pagelinkedto,2048);

И постим:

PHP

$client = new IXR_Client($pingback_server_url);
$client->
timeout = 3;
$client->
useragent .= — WordPress/ . $wp_version;
$client->
debug = false;
$client->
query(pingback.ping, $pagelinkedfrom, $pagelinkedto );

Есть один нюанс

, чтобы все
прошло антиспам

 прошло гладко нужно сначала в свой пост, от имени которого посылается пинг, добавить ссылку на адресата пинга (т.е. урл в которой мы пингуем). А после того как пинг успешно завершен можно
оставить

 :D удалить ненужные внешние ссылки.

Пример XML переговоров на уровне XML-RPC-сервера:

Посылаем запрос пинга:

POST /xmlrpc.php HTTP/1.0
Host: ruskii10k.com
Content-Type: text/xml
User-Agent: Incutio XML-RPC — WordPress/
Content-length: 286 <?xml version=”1.0″?>
<methodCall>
<methodName>pingback.ping</methodName>
<params>
<param><value><string>
http://yabadan.net/?p=40</string></value></param>
<param><value><string>
http://ruskii10k.com/2007/03/13/i-love-404-not-found-2/</string></value></param>
</params></methodCall>

 

Получаем ответ:

 

<?xml version=”1.0″?>
<methodResponse>
<params>
<param>
<value>
<string>Pingback from http://yabadan.net/?p=40 to http://ruskii10k.com/2007/03/13/i-love-404-not-found-2/ registered. Keep the web talking! </string>
</value>
</param>
</params>
</methodResponse>

 

Вот и все . Всем удачного трэкинга и пингига :)

© http://seorepa.com/show.php?id=991

Джентльменский набор профессионального робоблогера (ДНПР)

February 11, 2008
  1. Unlimited Domain Hosting + $2.99 .INFO Domains at GoDaddy.com
  2. WordPress + WP Themes
  3. Technorati + Google Blog Search
  4. Google Hot Trends
  5. Flickr RSS + YouTube RSS
  6. Yahoo Pipes
  7. WP-o-Matic (Feedwordpress, WP-Autoblog)
  8. CyberSEO (см. Simple-Syn) + Google Language Tools
  9. Similar Posts + Popularity Contest
  10. Ping-o-Matic + Blog Directories

Автонаполняемый блог на блоггере

December 27, 2007

Скрипт добавляет (отправляет мылом) новости (по 1 посту за раз) на ваш блог, предварительно укажите в блоге(на блоггере) адрес мыла - куда слать письма скипту.

Контент берется из Bloglines, BlogPulse, Findory, Google Blog Search, Google News, Ice Rocket, Technorati, Yahoo! News, MSN Live News.
Потом переводится с англ. на ит. а потом обратно.
На выходе получаем уникальный текст обновляемый каждые 5-10 минут.
Ссылок в теле поста на источник на блоге не будет, если хотите, пределывайте скрипт или вставляйте в трубы свои ссылочки на тдски и т.п.(кодеки и т.п.)
Кто умеет пользоваться yahoo pipes вот ссылочка на трубу
http://pipes.yahoo.com/pipes/pipe.ed…201c58d8acb3c3
Переделывайте как хотите.

PHP код:
<?php 
// RSS2email  v 1.1
//by medar & goarmy

// Тут адрес фида
// key кей
// kolvo  количество новостей в рсс ленте
$content = file_get_contents(’http://pipes.yahoo.com/pipes/pipe.run?_id=

6841b9ab55dcbc0423201c58d8acb3c3&_render=rss&key=viagra&kolvo=1‘);  

$content = str_replace("\n","",$content);
unset($match);  
preg_match("#<item>(.*?)<\/item>#", $content, $match); 
$item = $match[1]; 
$err = preg_match("#<title>(.*?)<\/title>#", $item, $match); 
$title = $match[1]; 
$err = preg_match("#<description>(.*?)<\/description>#", $item, $match); 
$description = $match[1]; 
$subject = $title; 
$message = $description; 

//тут ваше мыло на блоггере
//Настройки > Электронная почта > Адрес электронной почты Blogger
mail(’robocop.0156545@blogger.com‘, $subject, $message); 
?>

Путь к скрипту добавляете в крон и ставите время когда будут отправлятся письма.
Сколько блогов, столько и файлов с этим скриптом, меняете только кей и адрес мыла.
Все, вставляйте рекламу, ссылки, баннеры и все остальное в ваши блоги.
Скрипт протестирован и готов к использованию

утилитка, для тех у кого нет доступа к крону, мануал внутрях

http://scripts.mydiv.net/dlfile8231_1166-pseudo-cron.html

Бесплатные шаблоны для блога

December 2, 2007

Шаблоны для Blogger:

blogger-templates.blogspot.com - подборка шаблонов в основном гламурной и альтернативной тематики. Если вам нужно сделать гламурный или альтернативный блог. То там запросто что-нибудь найдется. Так же можно вполне найти шаблоны для сайта о путешествиях или природе или обзора фильмов. Музыкальным, автомобильным, стоительным тематикам особо делать нечего. Готичным сайтам тоже ничего не обломится. Впрочем кроме собственно бесплатных шаблонов на сайте есть и пошаговое руководство с картинками о том, как устанавливать шаблоны на блоггере.

blogspottemplates.blogspot.com/ - опять-таки бесплатные шаблоны для блоггер. Есть следующие темы. Дети, медицина, кулинария, путешествия, спорт. Опять-таки много гламурных тем.

freetemplates.blogspot.com/ - большая помойка. Но если вам близка тема антиквариата а e-bay для вас не пустой звук, то с этого сайта вы можете скачать шаблон себе по-душе.

www.pannasmontata-templates.net/ - музыка, искусство, литература. В общем раздолье для графомана. А вообще шаблоны хороши!

www.thestylecontest.com/ - тематики любые. На сайте очень удобный поиск и навигация. Незаезженые шаблоны. В общем рекомендую начинать поиск бесплатного шаблона отсюда.

Бесплатные темы для wordpress:

www.kaushalsheth.com/ - темы достаточно заезжены. Но если хочется быстро найти нейтральный шаблон для wordpress то запросто подойдет

www.wordpressthemes.nl/ - адалт, гламур. А так же немного нейтральных тем.

topwpthemes.com/ - классическая помойка шаблонов для wordpress. Впрочем, если вас интересуют темы заточенные под adsense, то стоит заглянуть.

————–

Банановый рай

Список пинг-сервисов

November 21, 2007

Список пинг-сервисов

Это сервисы, которые WordPress уведомляет об изменениях на нем. Т.е. как только вы написали пост в блоге, он автоматически уведомляет пинг-сервисы о том, что на таком-то блоге тогда-то появилась такая-то информация :) Прописываются они в свойствах WordPress (Options->Writing). Большинство представленных здесь сервисов - англоязычные, но и русскоязычные блоги они так же принимают.

http://1470.net/api/ping
http://api.feedster.com/ping
http://api.feedster.com/ping.php
http://api.moreover.com/ping
http://api.moreover.com/RPC2
http://api.mw.net.tw/RPC2/
http://api.my.yahoo.co.jp/RPC2
http://api.my.yahoo.com/ping
http://api.my.yahoo.com/RPC2
http://api.my.yahoo.com/rss/ping
http://bblog.com/ping.php
http://bitacoras.net/ping
http://blog.goo.ne.jp/XMLRPC
http://blogbot.dk/io/xml-rpc.php
http://blogdb.jp/xmlrpc
http://blogmatcher.com/u.php
http://blogoole.com/ping
http://blogroots.com/tb_populi.blog?id=1
http://blogsearch.google.ae/ping/RPC2
http://blogsearch.google.at/ping/RPC2
http://blogsearch.google.be/ping/RPC2
http://blogsearch.google.bg/ping/RPC2
http://blogsearch.google.ch/ping/RPC2
http://blogsearch.google.cl/ping/RPC2
http://blogsearch.google.co.hu/ping/RPC2
http://blogsearch.google.co.id/ping/RPC2
http://blogsearch.google.co.il/ping/RPC2
http://blogsearch.google.co.it/ping/RPC2
http://blogsearch.google.co.jp/ping/RPC2
http://blogsearch.google.co.ma/ping/RPC2
http://blogsearch.google.co.th/ping/RPC2
http://blogsearch.google.co.uk/ping/RPC2
http://blogsearch.google.com.ar/ping/RPC2
http://blogsearch.google.com.au/ping/RPC2
http://blogsearch.google.com.co/ping/RPC2
http://blogsearch.google.com.do/ping/RPC2
http://blogsearch.google.com.mx/ping/RPC2
http://blogsearch.google.com.pe/ping/RPC2
http://blogsearch.google.com.sa/ping/RPC2
http://blogsearch.google.com.sg/ping/RPC2
http://blogsearch.google.com.tr/ping/RPC2
http://blogsearch.google.com.vn/ping/RPC2
http://blogsearch.google.com/ping/RPC2
http://blogsearch.google.es/ping/RPC2
http://blogsearch.google.fi/ping/RPC2
http://blogsearch.google.hr/ping/RPC2
http://blogsearch.google.in/ping/RPC2
http://blogsearch.google.it/ping/RPC2
http://blogsearch.google.nl/ping/RPC2
http://blogsearch.google.pl/ping/RPC2
http://blogsearch.google.ro/ping/RPC2
http://blogsearch.google.se/ping/RPC2
http://blogsearch.google.sk/ping/RPC2
http://blogsearch.google.us/ping/RPC2
http://blogsnow.com/ping
http://bulkfeeds.net/rpc
http://coreblog.org/ping/
http://effbot.org/rpc/ping.cgi
http://fgiasson.com/pings/ping.php
http://godesigngroup.com/blog/feed
http://imblogs.net/ping
http://lasermemory.com/lsrpc
http://mod-pubsub.org/kn_apps/blogchatt
http://ping.amagle.com/
http://ping.bitacoras.com
http://ping.blo.gs/
http://ping.blogg.de
http://ping.bloggers.jp/rpc/
http://ping.blogmura.jp/rpc/
http://ping.blogs.yandex.ru/RPC2
http://ping.cocolog-nifty.com/xmlrpc
http://ping.exblog.jp/xmlrpc
http://ping.fakapster.com/rpc
http://ping.feedburner.com
http://ping.myblog.jp
http://ping.rootblog.com/rpc.php
http://ping.syndic8.com/xmlrpc.php
http://ping.weblogalot.com/rpc.php
http://ping.weblogs.se/
http://ping.wordblog.de
http://pinger.blogflux.com/rpc
http://pinger.onejavastreet.com
http://pingoat.com/goat/RPC2
http://pingqueue.com/rpc
http://popdex.com/addsite.php
http://rcs.datashed.net/RPC2
http://rpc.blogbuzzmachine.com/RPC2
http://rpc.blogrolling.com/pinger/
http://rpc.britblog.com
http://rpc.icerocket.com:10080
http://rpc.newsgator.com
http://rpc.pingomatic.com
http://rpc.tailrank.com/feedburner/RPC2
http://rpc.technorati.com/rpc/ping
http://rpc.weblogs.com/RPC2
http://rpc.wpkeys.com
http://services.newsgator.com/ngws/xmlrpcping.aspx
http://snipsnap.org/RPC2
http://thingamablog.sourceforge.net/ping.php
http://topicexchange.com/RPC2
http://trackback.bakeinu.jp/bakeping.php
http://weblogues.com/RPC
http://www.a2b.cc/setloc/bp.a2b
http://www.bitacoles.net/ping.php
http://www.blogdigger.com/RPC2
http://www.blogoole.com/ping/
http://www.blogoon.net/ping/
http://www.blogpeople.net/servlet/weblogUpdates
http://www.blogsdominicanos.com/ping/
http://www.blogshares.com/rpc.php
http://www.blogsnow.com/ping
http://www.blogstreet.com/xrbin/xmlrpc.cgi
http://www.catapings.com/ping.php
http://www.feedsky.com/api/RPC2
http://www.focuslook.com/ping.php
http://www.holycowdude.com/rpc/ping/
http://www.imblogs.net/ping
http://www.lasermemory.com/lsrpc/
http://www.mod-pubsub.org/kn_apps/blogchatter/ping.php
http://www.mod-pubsub.org/ping.php
http://www.newsisfree.com/RPCCloud
http://www.newsisfree.com/xmlrpctest.php
http://www.popdex.com/addsite.php
http://www.rssfwd.com/xmlrpc/api
http://www.snipsnap.org/RPC2
http://www.wasalive.com/ping/
http://www.weblogues.com/RPC
http://www.xianguo.com/xmlrpc/ping.php
http://xmlrpc.blogg.de
http://xping.pubsub.com/ping/
https://phobos.apple.com/WebObjects/MZFinance.woa/wa/pingPodcast

Блогорама - Feed urls

October 18, 2007

General Feeds

http://topix.net/search/article?xml=1&q={keyword} http://blogpulse.com/rss?query={keyword}&sort=date&operator=and http://news.search.yahoo.com/news/rss?ei=UTF-8&p={keyword} http://feedsfarm.com/s/{keyword}&format=rss http://newspad.prweb.com/rss.php?textQuery={keyword} http://rss.findory.com/rss/News?q={keyword} http://search.msn.com/news/results.aspx?q={keyword}&format=rss http://digg.com/rss_search?search={keyword}&area=&type=&age= http://feeds.technorati.com/feed/posts/tag/{keyword} http://news.google.com/news?hl=en&q={keyword}&ie=UTF-8&output= rss&num=100 http://blogsearch.google.com/blogsearch_feeds?hl=en&q={keyword}& ie=utf-8&num=100&output=atom http://del.icio.us/rss/tag/{keyword}
http://icerocket.com/search?tab=news&q={keyword}&rss=1 http://p.moreover.com/page?o=rss002&query={keyword} http://newsvine.com/_feeds/rss2/tag?id={keyword}
http://zniff.com/index.php?s={keyword}&p=osrss http://feedster.com/search.php?q={keyword}&sort=date&ie=UTF%2D8& hl=&content=full&type=rss&limit=100 http://www.blogdigger.com/search?q={keyword}&sortby=date&type=rss http://www.blogpulse.com/rss?query={keyword}&sort=date&operator=and http://www.daypop.com/search?q={keyword}&s=1&c=10&ext=true&sort= date&t=a &o=rss http://www.rocketnews.com/news/RocketinfoXMLBlog.jsp?must= {keyword}&age=4 http://www.blogdigger.com/search?q=yourkeyword&sortby=date&type=rss

Images & Photos Feeds

http://api.search.yahoo.com/ImageSearchService/rss/imageSearch.xml? appid=yahoosearchimagerss&query={k eyword}&adult_ok=1 http://www.blogdigger.com/media/rss.jsp?q={keyword}&media= image&sortby=date http://www.flickr.com/services/feeds/photos_public.gne?format= rss_200&tags={keyword} http://www.buzznet.com/www/buzzwords%2Drss10.xml?buzz={keyword}

Audio / Video / Podcast Feeds

http://video.google.com/videofeed?type=search&num=20&output=rss &q={keyword} http://api.search.yahoo.com/VideoSearchService/rss/videoSearch.xml? appid=ysearchblog&adult_ok=1&resul ts=50&query={keyword} http://www.feedster.com/search/type/rss/category/podcast/{keyword} http://www.blogdigger.com/media/rss.jsp?q={keyword}&media= video&media=audio&sortby =date http://www.podscope.com/rsssearch.php?s=d&assetID=&q={keyword} http://del.icio.us/rss/tag/system:filetype:mp3+{keyword} http://www.youtube.com/rss/tag/{keyword}.rss

Как парсить блоги

October 14, 2007

inurl:blog - дохуя блогов
inurl:blog "" - в кавычки подставь разные буквы из разных алфавитов
inurl:blog "" "post a comment" -те что допускают комменты :D
для увеличения и улучшения базы напарсенного юзаем разные опреторы и подстановки в вариациях, для расширении и доменных зон, filetype:.php site:.mil …

-"comments closed" -"Comment posting closed" добавив это убираем блоги где комменты закрыты

-"comments closed" -"You must be logged in" а так убираем те в которых надо регится

Блогорама без бана и саплиментал (Мануал)

September 24, 2007

Несколько советов как избежать супа в бане при использовании Блогорамы. Хотя он подойдет и для других продуктов.
Контент:
1.Замена слов синонимами.
http://www.trishin.ru/slovar.html (русский словарь)
http://wordnet.princeton.edu/ (хороший словарь синонимов)
http://www.englspace.com/dl/files/oxfrd_s.zip (Oxford Thesaurus, этот попроще будет)
Все словари надо править под скрипты или скрипты писать под определенный словарь. Их конечно намного больше, просто выложил то что нашел.
Можно попробовать импортировать в саму Блогораму или РССВолшебник. Но думаю это будет довольно сильно нагружать сервак.
2. Марков и другие алгоритмы преобразования.
Импорт контента посредством РСС или еще каким-то Макаром из контент генераторов или простр доргенов.
Например РСС отдают REDButton, DMI 2.X…
—Импорт контента из DMI 2.1
—Импорт контента из DMI 2.2 встроен по умолчанию.
Жалко одно, что такой контент будет висеть в выдаче максимум до первого стука. Так как он не очень понятен обитателям планеты Земля ))
3. Тупой импорт RSS/HTML/других типов предоставления информации.
Блогорама как мы знаем грабит новости с обще доступных источников.
Вот парочка
http://rss.findory.com/rss/Blogs?q={keyword}
http://www.blogdigger.com/search?q={keyword}&sortby=date&type=rss
http://www.blogpulse.com/rss?query={keyword}&sort=date&operator=and
http://www.icerocket.com/search?tab=blog&q={keyword}&rss=1
Посредством фильтров можно пробовать изменять тексты/дописывать ключевики/свой контент. Если все сделать правильно, то можно добиться хороших результатов при минимальных затратах на софт и нервные клетки. У меня пока не сильно получается ))
4. Перевод текста. Например англ-нем-англ
Опять же пробовать перегонять таким образом контент. Интересные связки получаются
РССВолшебник (англ-нем, например) -> Блогорама/фильтры ( нем-англ, то есть назад).
Или писать свой софт для двойного перевода и отдавать Блогораме или в другое место Посредством РСС и другими методами. Но это скорее для програмеров, нежели для простых пользователей(каким тоже являюсь) ((
Почитать и поковырять Тут
Теперь о шаблонах:
Их можно/нужно:
1. Генерировать
Получается не очень красиво но быстро.
2. Просто скачать их архива или где-то еще.
Ребята из Нашего Сообщества уже об этом позаботились
3. Взять у соседа
Самый красивый и быстрый вариант как мы все знаем
4. Самому что-то придумать и сверстать.
Самый жесткий вариант, в частности для меня ибо не верстальщик и очень ленивый ))
Пинги и спам:
На своей практике убедился что не всегда много = хорошо.
Лучше идем сюда или сюда. А также сами ищем пинг страничкии вставляем в Блогораму ))
На последок читаем (наверное надо было это в начале написать):
http://womg.ru/manual/kos_man.htm
http//theblogorama.com/demo.php
http://halfagain.com/knowledgebase
А также мануалы от разрабов и форум. Они рулят.
Это конечно далеко не полный материал как избежать бана, но мне после проб и ошибок начинает помагать.
Все это и так “на плаву”, просто не все хорошо плавают (С)