标签:网页 ast get bin creat action back attribute 排序
public StartContext()
通经常使用来充当seedRequest的容器
public StartContext(java.lang.String url, java.lang.Class<? extends PageProcessor> processorCls)
url
- processorCls
- public StartContext(java.lang.String url, java.lang.Class<? extends PageProcessor> processorCls, PageRequest.PageEncoding pageEncoding)
url
- processorCls
- pageEncoding
- URL相应网页的编码public PageRequest createPageRequest(java.lang.String url, java.lang.Class<? extends PageProcessor> processorCls)
url
- 这个请求相应的http或者https 地址processorCls
- 下载完毕后处理这个网页Page的PageProcessor的class对象public PageRequest createPageRequest(java.lang.String url, java.lang.Class<? extends PageProcessor> processorCls, int priority, PageRequest.PageEncoding pageEncoding)
url
- 这个请求相应的http或者https 地址processorCls
- 下载完毕后处理这个网页Page的PageProcessor的class对象priority
- 设置这个PageRequest的priority。须要注意的仅仅有使用crawTaskBuilder.useQueuePriorityRequest或者crawTaskBuilder.useQueueDelayedPriorityRequest的时候 priority才会起作用并排序。pageEncoding
- 这个PageRequest相应URL的网页编码格式。假设不指定那么会用crawTaskBuilder中指定的usePageEncoding。假设crawTaskBuilder没有 使用usePageEncoding。则默认用UTF-8编码
public PageRequest createPageRequest(java.lang.String url, java.lang.Class<? extends PageProcessor> processorCls, int priority)
url
- 这个请求相应的http或者https 地址processorCls
- 下载完毕后处理这个网页Page的PageProcessor的class对象priority
- 设置这个PageRequest的priority。须要注意的仅仅有使用crawTaskBuilder.useQueuePriorityRequest或者crawTaskBuilder.useQueueDelayedPriorityRequest的时候 priority才会起作用并排序。public BinaryRequest createBinaryRequest(java.lang.String url, java.lang.Class<? extends BinaryProcessor> processorCls)
url
- 这个请求相应的http或者https 地址processorCls
- 文件下载时处理这个InputStream的BinaryProcessor的class对象public TransactionRequest createTransactionRequest(TransactionCallBack transactionCallBack)
transactionCallBack
- 事务完毕后的回调接口的Classpublic TransactionRequest createTransactionRequest(TransactionCallBack transactionCallBack, BasicRequest... child)
transactionCallBack
- 事务完毕后的回调接口child
- child集合public void injectSeed(BasicRequest request)
request
- public java.util.List<BasicRequest> getSeedRequests()
public java.lang.Object getContextAttribute(java.lang.String attribute)
key
- public java.lang.Object putContextAttribute(java.lang.String attribute, java.lang.Object value)
假设之前没有attribute属性那么返回null。这种方法是线程安全的
attribute
- value
- public int getSeedSize()
public boolean isEmpty()
GuozhongCrawler系列教程 (4) StartContext具体解释
标签:网页 ast get bin creat action back attribute 排序
原文地址:http://www.cnblogs.com/yutingliuyl/p/6718310.html