網站域名採集_如何採集導航裡面網站域名和網站名字

1、如何抓取一個網址下的所有頁面鏈接？

由於題目是放在【編程語言】欄目下的，但沒有指定希望使用哪種編程語言，我選擇使用java語言來實現。

在Java中，使用HttpURLConnection即可連接URL，隨後可以使用InputStreamReader獲取網頁內容文本。然後，使用正則表達式解析網頁內容文本，找到所有的<a>標簽即實現需求。

以下是詳細代碼：

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;
import java.util.ArrayList;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class HtmlParser {
/**
  * 要分析的網頁
  */
String htmlUrl;
/**
  * 分析結果
  */
ArrayList<String> hrefList = new ArrayList();
/**
  * 網頁編碼方式
  */
String charSet;
public HtmlParser(String htmlUrl) {
  // TODO 自動生成的構造函數存根
  this.htmlUrl = htmlUrl;
}
/**
  * 獲取分析結果
  *
  * @throws IOException
  */
public ArrayList<String> getHrefList() throws IOException {
  parser();
  return hrefList;
}
/**
  * 解析網頁鏈接
  *
  * @return
  * @throws IOException
  */
private void parser() throws IOException {
  URL url = new URL(htmlUrl);
  HttpURLConnection connection = (HttpURLConnection) url.openConnection();
  connection.setDoOutput(true);
  String contenttype = connection.getContentType();
  charSet = getCharset(contenttype);
  InputStreamReader isr = new InputStreamReader(
    connection.getInputStream(), charSet);
  BufferedReader br = new BufferedReader(isr);
  String str = null, rs = null;
  while ((str = br.readLine()) != null) {
   rs = getHref(str);
   if (rs != null)
    hrefList.add(rs);
  }
}
/**
  * 獲取網頁編碼方式
  *
  * @param str
  */
private String getCharset(String str) {
  Pattern pattern = Pattern.compile("charset=.*");
  Matcher matcher = pattern.matcher(str);
  if (matcher.find())
   return matcher.group(0).split("charset=")[1];
  return null;
}
/**
  * 從一行字元串中讀取鏈接
  *
  * @return
  */
private String getHref(String str) {
  Pattern pattern = Pattern.compile("<a href=.*</a>");
  Matcher matcher = pattern.matcher(str);
  if (matcher.find())
   return matcher.group(0);
  return null;
}
public static void main(String[] arg) throws IOException {
  HtmlParser a = new HtmlParser("http://news.163.com/");
  ArrayList<String> hrefList = a.getHrefList();
  for (int i = 0; i < hrefList.size(); i++)
   System.out.println(hrefList.get(i));
}
}

2、如何批量提取網站所有的URL鏈接

有誰會這樣提交sitemap,提交sitemap是不用全部鏈接都提交的,只需要列出主要分類就行了，站內的其他鏈接百度自然會去找的

3、有沒有可以像百度爬蟲一樣的python程序。把中國所有域名都採集保存下來。希望有大哥可以給我一份，

你表達的不是很清楚！
採集域名有啥用？
你是說採集每個正常運行的域名下的網站內容嗎？

但我得告訴，這個程序很多，搜索引擎很多人都寫過！但你得有硬體成本才行啊！中國啊，多少個網站！你如果你用單台電腦採集，估計你的從現在開始到你老死還採集不完！百度的伺服器數量已經數以萬計，懂嗎？

如果你只採集幾個特定的網站，還可以搞的定啊

4、如何採集一個國家的所有域名.fr

這個還真不好統計，可能要聯系注冊商或者注冊局問了，可以看看top

5、求一個匹配域名採集的正則表達式，比如 www.yuming.com 我要匹配頁面中所有包含域名：yuming 的鏈接

string pattern="(http://){0,1}(/w/d)*.yuming.(com|cn|net)";
解析：(http://){0,1}指示無論域名出現時是否帶有http://字樣都要進行匹配。
(/w/d)*：指示無論出現二級域名與否，只要帶有yuming字樣都要進行匹配
yuming指你要採集的域名，你自行替換吧。
(com|net|cn):要取域名的後綴，根據需要，你可以自行添加或刪減。
這個表達式相比較來說比做蜘蛛程序的表達式容易寫，你應當研究一下。做.net採集，不會正則無疑是瘸了條腿。

6、想問一下，有沒有那款網路爬蟲是根據特定關鍵詞，來採集互聯網上所有域名的主頁含有特定的關鍵詞。

前嗅的 ForeSpider數據採集系統可以，你這是數據挖掘的需求，ForeSpider可以設置關鍵詞搜索，結合數據挖掘，挖掘對應的網頁內容，或域名什麼的。

7、如何採集導航裡面網站域名和網站名字？

有很多採集器可以使用，如果只要採集標題和鏈接的話，很容易的。建議用火車頭

8、網站api域名授權代碼，我有個電影資源網站，想實現域名授權才能採集，那位大神能幫忙寫段代碼？

你這個花括弧怎麼這么亂，
大概看了下 auth相當於一個檢索文件，提交 url GET參數過去返回json數據，解json有一個code的key。如果是1就是已授權，其他就是沒授權

寫一個文件 query.php 內容如下
<?php
echo json_encode(array('code'=>1));
?>
即可，有問題請回復，沒問題請採納謝謝

9、常見的信息採集工具有哪些？

1、NSLOOKUP

nslookup命令幾乎在所有的PC操作系統上都有安裝，用於查詢DNS的記錄，查看域名解析是否正常，在網路故障的時候用來診斷網路問題。信息安全人員，可以通過返回的信息進行信息搜集。

2、DIG

Dig也是對DNS信息進行搜集的工具，dig 相比nsllooup不光功能更豐富，首先通過默認的上連DNS伺服器去查詢對應的IP地址，然後再以設置的dnsserver為上連DNS伺服器。

3、Whois

whois就是一個用來查詢域名是否已經被注冊，以及注冊域名的詳細信息的資料庫（如域名所有人、域名注冊商）。通過whois來實現對域名信息的查詢。早期的whois查詢多以命令列介面存在，但是現在出現了一些網頁介面簡化的線上查詢工具，可以一次向不同的資料庫查詢。

網頁介面的查詢工具仍然依賴whois協議向伺服器發送查詢請求，命令列介面的工具仍然被系統管理員廣泛使用。whois通常使用TCP協議43埠。每個域名/IP的whois信息由對應的管理機構保存。

5、主動信息搜集

Recon-ng是一個信息搜集的框架，它之於信息搜集完全可以和exploit之於metasploit framework、社會工程學之於SET。

5、主動信息搜集

主動信息搜集是利用一些工具和手段，與搜集的目標發生一些交互，從而獲得目標信息的一種行為。主動信息搜集的過程中無法避免會留下一些痕跡。

10、批量域名採集器的真正用處是什麼?

信息時代一個好的域名夠給您的網站帶來超大的訪問量、也就給你的企業帶來超大的利益，通常人們會一個一個去手工查詢，這樣非常慢也非常費力。只要你設置域名位數，如前綴或後綴，加上你自定義的字母或數字，軟體即可批量採集出相關的域名來進行查詢。

導航:首頁 > IDC知識 > 網站域名採集

網站域名採集

與網站域名採集相關的知識