導航:首頁 > IDC知識 > 網站域名採集

網站域名採集

發布時間:2020-10-17 11:25:20

1、如何抓取一個網址下的所有頁面鏈接 ?

由於題目是放在【編程語言】欄目下的,但沒有指定希望使用哪種編程語言,我選擇使用java語言來實現。

在Java中,使用HttpURLConnection即可連接URL,隨後可以使用InputStreamReader獲取網頁內容文本。然後,使用正則表達式解析網頁內容文本,找到所有的<a>標簽即實現需求。

以下是詳細代碼:

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;
import java.util.ArrayList;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class HtmlParser {
 /**
  * 要分析的網頁
  */
 String htmlUrl;
 /**
  * 分析結果
  */
 ArrayList<String> hrefList = new ArrayList();
 /**
  * 網頁編碼方式
  */
 String charSet;
 public HtmlParser(String htmlUrl) {
  // TODO 自動生成的構造函數存根
  this.htmlUrl = htmlUrl;
 }
 /**
  * 獲取分析結果
  * 
  * @throws IOException
  */
 public ArrayList<String> getHrefList() throws IOException {
  parser();
  return hrefList;
 }
 /**
  * 解析網頁鏈接
  * 
  * @return
  * @throws IOException
  */
 private void parser() throws IOException {
  URL url = new URL(htmlUrl);
  HttpURLConnection connection = (HttpURLConnection) url.openConnection();
  connection.setDoOutput(true);
  String contenttype = connection.getContentType();
  charSet = getCharset(contenttype);
  InputStreamReader isr = new InputStreamReader(
    connection.getInputStream(), charSet);
  BufferedReader br = new BufferedReader(isr);
  String str = null, rs = null;
  while ((str = br.readLine()) != null) {
   rs = getHref(str);
   if (rs != null)
    hrefList.add(rs);
  }
 }
 /**
  * 獲取網頁編碼方式
  * 
  * @param str
  */
 private String getCharset(String str) {
  Pattern pattern = Pattern.compile("charset=.*");
  Matcher matcher = pattern.matcher(str);
  if (matcher.find())
   return matcher.group(0).split("charset=")[1];
  return null;
 }
 /**
  * 從一行字元串中讀取鏈接
  * 
  * @return
  */
 private String getHref(String str) {
  Pattern pattern = Pattern.compile("<a href=.*</a>");
  Matcher matcher = pattern.matcher(str);
  if (matcher.find())
   return matcher.group(0);
  return null;
 }
 public static void main(String[] arg) throws IOException {
  HtmlParser a = new HtmlParser("http://news.163.com/");
  ArrayList<String> hrefList = a.getHrefList();
  for (int i = 0; i < hrefList.size(); i++)
   System.out.println(hrefList.get(i));
 }
}

2、如何批量提取網站所有的URL鏈接

有誰會這樣提交sitemap,提交sitemap是不用全部鏈接都提交的,只需要列出主要分類就行了,站內的其他鏈接百度自然會去找的

3、有沒有可以像百度爬蟲一樣的python程序。把中國所有域名都採集保存下來。希望有大哥可以給我一份,

你表達的不是很清楚!
採集域名有啥用?
你是說採集每個正常運行的域名下的網站內容嗎?

但我得告訴,這個程序很多,搜索引擎很多人都寫過!但你得有硬體成本才行啊!中國啊,多少個網站!你如果你用單台電腦採集,估計你的從現在開始到你老死還採集不完!百度的伺服器數量已經數以萬計,懂嗎?

如果你只採集幾個特定的網站,還可以搞的定啊

4、如何採集一個國家的所有域名.fr

這個還真不好統計,可能要聯系注冊商或者注冊局問了,可以看看top

5、求一個匹配域名採集的正則表達式,比如 www.yuming.com 我要匹配頁面中所有包含域名 :yuming 的鏈接

string pattern="(http://){0,1}(/w/d)*.yuming.(com|cn|net)";
解析:(http://){0,1}指示無論域名出現時是否帶有http://字樣都要進行匹配。
(/w/d)*:指示無論出現二級域名與否,只要帶有yuming字樣都要進行匹配
yuming指你要採集的域名,你自行替換吧。
(com|net|cn):要取域名的後綴,根據需要,你可以自行添加或刪減。
這個表達式相比較來說比做蜘蛛程序的表達式容易寫,你應當研究一下。做.net採集,不會正則無疑是瘸了條腿。

6、想問一下,有沒有那款網路爬蟲是根據特定關鍵詞,來採集互聯網上所有域名的主頁含有特定的關鍵詞。

前嗅的 ForeSpider數據採集系統可以,你這是數據挖掘的需求,ForeSpider可以設置關鍵詞搜索,結合數據挖掘,挖掘對應的網頁內容,或域名什麼的。

7、如何採集導航裡面網站域名和網站名字?

有很多採集器可以使用,如果只要採集標題和鏈接的話,很容易 的。建議用火車頭

8、網站api域名授權代碼,我有個電影資源網站,想實現域名授權才能採集,那位大神能幫忙寫段代碼?

你這個花括弧怎麼這么亂,
大概看了下 auth相當於一個檢索文件,提交 url GET參數過去返回json數據,解json有一個code的key。如果是1就是已授權,其他就是沒授權


寫一個文件 query.php 內容如下
<?php
echo json_encode(array('code'=>1));
?>
即可,有問題請回復,沒問題請採納謝謝

9、常見的信息採集工具有哪些?

1、NSLOOKUP

nslookup命令幾乎在所有的PC操作系統上都有安裝,用於查詢DNS的記錄,查看域名解析是否正常,在網路故障的時候用來診斷網路問題。信息安全人員,可以通過返回的信息進行信息搜集。

2、DIG

Dig也是對DNS信息進行搜集的工具,dig 相比nsllooup不光功能更豐富,首先通過默認的上連DNS伺服器去查詢對應的IP地址,然後再以設置的dnsserver為上連DNS伺服器。

3、Whois

whois就是一個用來查詢域名是否已經被注冊,以及注冊域名的詳細信息的資料庫(如域名所有人、域名注冊商)。通過whois來實現對域名信息的查詢。早期的whois查詢多以命令列介面存在,但是現在出現了一些網頁介面簡化的線上查詢工具,可以一次向不同的資料庫查詢。

網頁介面的查詢工具仍然依賴whois協議向伺服器發送查詢請求,命令列介面的工具仍然被系統管理員廣泛使用。whois通常使用TCP協議43埠。每個域名/IP的whois信息由對應的管理機構保存。

5、主動信息搜集

Recon-ng是一個信息搜集的框架,它之於信息搜集完全可以和exploit之於metasploit framework、社會工程學之於SET。

5、主動信息搜集

主動信息搜集是利用一些工具和手段,與搜集的目標發生一些交互,從而獲得目標信息的一種行為。主動信息搜集的過程中無法避免會留下一些痕跡。

10、批量域名採集器的真正用處是什麼?

信息時代一個好的域名夠給您的網站帶來超大的訪問量、也就給你的企業帶來超大的利益,通常人們會一個一個去手工查詢,這樣非常慢也非常費力。只要你設置域名位數,如前綴或後綴,加上你自定義的字母或數字,軟體即可批量採集出相關的域名來進行查詢。

與網站域名採集相關的知識