DEDE的采集功能是和强大的,如果别的网站有好东西,我们拿来用也是不错的哦~嘿嘿。在采集的时候,输入以下过滤规则,就会轻松过滤一些不必要的代码,很方便的。
规则如下:
Quote:
{dede:trim}<span(.*)>{/dede:trim}
{dede:trim}</span>{/dede:trim}
{dede:trim}<div(.*)>{/dede:trim}
{dede:trim}</div>{/dede:trim}
{dede:trim}<table(.*)>{/dede:trim}
{dede:trim}</table>{/dede:trim}
{dede:trim}<tbody(.*)>{/dede:trim}
{dede:trim}</tbody>{/dede:trim}
{dede:trim}<tr(.*)>{/dede:trim}
{dede:trim}</tr>{/dede:trim}
{dede:trim}<td(.*)>{/dede:trim}
{dede:trim}</td>{/dede:trim}
{dede:trim}<a(.*)>{/dede:trim}
{dede:trim}</a>{/dede:trim}
{dede:trim}<iframe(.*)</iframe>{/dede:trim}
{dede:trim}<style(.*)</style>{/dede:trim}
{dede:trim}<script(.*)</script>{/dede:trim}
{dede:trim}<option(.*)</option>{/dede:trim}
{dede:trim}<select(.*)</select>{/dede:trim}
{dede:trim}<embed(.*)>{/dede:trim}
{dede:trim}</embed>{/dede:trim}
{dede:trim}<param(.*)</param>{/dede:trim}
{dede:trim}<object(.*)</object>{/dede:trim}
另外,很多网站的图片地址想相对的,就是没有域名而直接是/img/xxx.jpg 等格式,这样的情况,如果我们不做改动,图片采集下来是无效的,那么怎么办呢?我们可以在自定义接口输入以下语句:
@me=str_replace(‘/uploads/’,’http://www.chinae.org/uploads/’,@me);
提示:域名请替换成你想要采集的网站域名,另外,uploads是采集对象网站的图片存放目录。如果图片的地址为:/img/2012/1.jpg 那么,请把 “uploads”替换成“img”