1、生物系統建模 名詞解釋
沒人回答我的問題!真的就沒人懂混沌理學?... (引自布萊克:《混沌 開創新科學》)現在,「混沌」這個名詞正越來越多地出現在生活的各個領域,不僅出現在數學、物理和生物等自然科學,而且出現在金融、經濟和管理等社會科學,甚至還出現在文學和藝術的范疇。本文通過計算機輔助的方法研究一個簡單的非線性方程 ,...電影電視 - 2個回答-解決時間 2008-07-24
2、舉例序列模式挖掘演算法有哪些
序列模式的概念最早是由Agrawal和Srikant 提出的。
動機:大型連鎖超市的交易數據有一系列的用戶事務資料庫,每一條記錄包括用戶的ID,事務發生的時間和事務涉及的項目。如果能在其中挖掘涉及事務間關聯關系的模式,即用戶幾次購買行為間的聯系,可以採取更有針對性的營銷措施。
例:一個事務資料庫,一個事務代表一筆交易,一個單項代表交易的商品,單項屬性中的數字記錄的是商品ID。
序列(Sequence):以SID表示,一個序列即是一個完整的信息流。
項目(Item):序列中最小組成單位的集合,比如在這個樣例中的項目為{A, B, C}。
事件(Event):通常用時間戳標志,標識事件之間的前後關系。又叫Itemset,是Item的集合,樣例中以EID表示。
k頻繁序列:如果頻繁序列的項目個數為k,則稱之為k頻繁序列,以Fk表示(圖1的F1,F2,F3)。
序列的包含關系:對於序列x和y,如果存在著一個保序的映射,使得x中的每個事件都被包含於y中的某個事件,則稱為x被包含於y(x是y的子序列),例如序列B->AC是序列AB->E->ACD的子序列。
支持度(support):某序列x的支持度是指在整個序列集中包含x的序列的頻次。
序列模式定義
給定一個由不同序列組成的集合,其中,每個序列由不同的元素按順序有序排列,每個元素(交易)由不同項目組成,同時給定一個用戶指定的最小支持度閾值,序列模式挖掘就是找出所有的頻繁子序列,即該子序列在序列集中的出現頻率不低於用戶指定的最小支持度閾值。
符號化表示
項目集(Itemset)是各種項目組成的集合
序列(Sequence)是不同項目集(ItemSet)的有序排列,序列s可以表示為s = <s1s2…sl>,sj(1 <= j <= l)為項目集(Itemset),也稱為序列s的元素
序列的元素(Element)可表示為(x1x2…xm), xk(1 <= k <= m)為不同的項目,如果一個序列只有一個項目,則括弧可以省略
一個序列包含的所有項的個數稱為序列的長度。長度為l的序列記為l-序列
序列挖掘演算法步驟
1) 排序階段。資料庫D以客戶號為主鍵交易時間為次鍵進行排序。這個階段將原來的事務資料庫轉換成由客戶序列組成的資料庫。[1]
2) 頻繁項集階段。找出所有頻繁項集組成的集合L。也同步得到所有頻繁1-序列組成的集合。[1]
3) 轉換階段。在找序列模式的過程中要不斷地進行檢測一個給定的頻繁集是否包含於一個客戶序列中。[1]
4) 序列階段利用已知的頻繁集的集合來找到所需的序列。類似於關聯的Apriori演算法。[1]
AprioriAll演算法
AprioriAll演算法與Apriori演算法的執行過程是一樣的,不同點在於候選集的產生,具體候選者的產生如下:
候選集生成的時候需要區分最後兩個元素的前後,因此就有<p.item1,p.item2,…,p.,q.>和<p.item1,p.item2,…, q.,p.>兩個元素。[1]
AprioriSome演算法
AprioriSome演算法可以看做是AprioriAll演算法的改進,具體可以分為兩個階段:
(1)Forward階段:找出置頂長度的所有大序列,在產生Li後,根據判斷函數j=next(last),此時last=i,j>i,下個階段不產生i+1的候選項,而是產生j的候選項,如果j=i+1,那麼就根據Li生成Cj,如果j>i+1,那麼Cj就有Cj-1產生。然後掃描資料庫計算Cj的支持度。
(2)Backward階段:根據Lj中的大項集,去掉Ci(i<j)中出現的Lj項,然後計算Ci中的支持度,判斷那些在Forward階段被漏判的項集。
AprioriAll演算法和AprioriSome演算法的比較:
(1)AprioriAll用去計算出所有的候選Ck,而AprioriSome會直接用去計算所有的候選,因為包含,所以AprioriSome會產生比較多的候選。
(2)雖然AprioriSome跳躍式計算候選,但因為它所產生的候選比較多,可能在回溯階段前就占滿內存。
(3)如果內存占滿了,AprioriSome就會被迫去計算最後一組的候選。
(4)對於較低的支持度,有較長的大序列,AprioriSome演算法要好些。[1]
GSP演算法
GSP(Generalized Sequential Patterns)演算法,類似於Apriori演算法大體分為候選集產生、候選集計數以及擴展分類三個階段。與AprioriAll演算法相比,GSP演算法統計較少的候選集,並且在數據轉換過程中不需要事先計算頻繁集。
GSP的計算步驟與Apriori類似,但是主要不同在於產生候選序列模式,GSP產生候選序列模式可以分成如下兩個步驟:
(1)連接階段:如果去掉序列模式S1的第一個項目與去掉序列模式S2的最後一個項目所得到的序列相同,則可以將S1和S2進行連接,即將S2的最後一個項目添加到S1中去。
(2)剪枝階段:若某候選序列模式的某個子集不是序列模式,則此候選序列模式不可能是序列模式,將它從候選序列模式中刪除。[1]
序列模式 VS 關聯規則
問題
序列模式挖掘
關聯規則挖掘
數據集
序列資料庫
事務資料庫
關注點
單項間在同一事務內以及事務間的關系
單項間在同一事務內的關系
典型的工具
SAS Enterprise Miner:提供的數據挖掘包括回歸、分類和統計分析包。它的特色是具有多種統計分析工具。[2]
SGI的MineSet:提供的挖掘演算法有關聯和分類以及高級統計和可視化工具。特色是具有強大的圖形工具包括規則可視化工具、樹可視化工具、地圖可視化工具和多維數據分散可視化工具它們用於實現數據和數據挖掘結果的可視化。[2]
ISL的Clementine:為終端用戶和開發者提供了一個集成的數據挖掘開發環境。系統集成了多種數據挖掘演算法如規則歸納、神經網路、分類和可視化工具。Clementine現已被SPSS公司收購。
3、請問羊群效應出自哪本書?
一、羊群效應是指:
羊群行為也可以稱為群體心理,社會壓力,傳染(contagion) 羊群效應——跟隨現象 等,最早是股票投資中的一個術語,主要是指投資者在交易過程中存在學習與模仿現象,「有樣學樣」,盲目效仿別人,從而導致他們在某段時期內買賣相同的股票。在一群羊前面橫放一根木棍,第一隻羊跳了過去,第二隻、第三隻也會跟著跳過去;這時,把那根棍子撤走,後面的羊,走到這里,仍然像前面的羊一樣,向上跳一下,盡管攔路的棍子已經不在了,這就是所謂的「羊群效應」,也稱「從眾心理」。
羊群效應也是管理學上一些企業的市場行為的一種常見現象。是指由於對信息不充分的和缺乏了解,投資者很難對市場未來的不確定性作出合理的預期,往往是通過觀察周圍人群的行為而提取信息,在這種信息的不斷傳遞中,許多人的信息將大致相同且彼此強化,從而產生的從眾行為。
「羊群效應」是由個人理性行為導致的集體的非理性行為的一種非線性機制。 羊群效應的出現一般在一個競爭非常激烈的行業上,而且這個行業上有一個領先者(領頭羊)占據了主要的注意力,那麼整個羊群就會不斷摹仿這個領頭羊的一舉一動,領頭羊到哪裡去「吃草」,其它的羊也去哪裡「淘金」。
古斯塔夫·勒·邦(Gustave Le Bon)認為一個心理群體表現出的最顯著的特點是:無論構成這個群體的個人是誰,他們的生活方式、職業、性格、智力有多麼的相似或者不相似,只要他們構成了一個群體,他們的感覺、思考、行為方式就會和他們處於獨立狀態時有很大的不同 。
二、 羊群效應模
羊群效應模型認為投資者羊群行為是符合最大效用准則的,是「群體壓力」等情緒下貫徹的非理性行為,分為序列型和非序列型兩種模型。
1、序列型羊群效應模型
序列型羊群效應模型由Banerjee(1992) 提出,在該模型中,投資者通過典型的貝葉斯過程從市場雜訊以及其它個體的決策中依次獲取決策信息,這類決策的最大特徵是其決策的序列性。但是現實中要區分投資者順序是不現實的。因而這一假設在實際金融市場中缺乏支持。非序列型則論證無論仿效傾向強或弱,都不會得到現代金融理論中關於股票的零點對稱、單一模態的厚尾特徵。 行為金融理論中的一個重要的模型是羊群效應模型。實際上,羊群行為同樣也是由模仿造成的。Scharfstein and Stein (1990)指出,在一些情況中,經營者簡單地模仿其他經營者的投資決策,忽略獨立的私人信息,雖然從社會角度看這種行為是無效的,但對於關心其在勞動市場聲譽的經營者而言卻是合理的。Banerjee (1992)提出序列決策模型分析羊群行為,在這個模型中,每個決策者在進行決策時都觀察其前面的決策者做出的決策,對他而言,這種行為是理性的,因為其前面的決策者可能擁有一些重要的信息,因而他可能模仿別人的決策而不使用其自己的信息,由此產生的均衡是無效的。Banerjee序列決策模型假定投資者的決策次序,投資主體通過典型的貝葉斯過程從市場雜訊以及其他個體的決策中獲取自己決策的信息,這種依次決策的過程導致市場中的「信息流」。
2、非序列型羊群效應模型
與Banerjee序列決策模型相對的是非序列羊群行為模型。該模型也是由貝葉斯法則下得出的。模型假設任意兩個投資主體之間的模仿傾向是固定相同的,當模仿傾向較弱時,市場主體的表現是收益服從高斯分布,而當模仿傾向較強時,市場主體的表現是市場崩潰。此外,Rajan(1994)、Maug & Naik(1996)、Devenow & Welch(1996)分別從投資者的信息不對稱、機構運作中的委託——代理關系、經濟主體的有限理性等角度探討羊群行為的內在產生機制。
4、在物理層為什麼是透明的傳輸
網路協議設計者不應當設計一個單一、巨大的協議來為所有形式的通信規定完整的細節,而應把通信問題劃分成多個小問題,然後為每一個小問題設計一個單獨的協議。這樣做使得每個協議的設計、分析、時限和測試比較容易。協議劃分的一個主要原則是確保目標系統有效且效率高。為了提高效率,每個協議只應該注意沒有被其他協議處理過的那部分通信問題;為了主協議的實現更加有效,協議之間應該能夠共享特定的數據結構;同時這些協議的組合應該能處理所有可能的硬體錯誤以及其它異常情況。為了保證這些協議工作的協同性,應當將協議設計和開發成完整的、協作的協議系列(即協議族),而不是孤立地開發每個協議。
在網路歷史的早期,國際標准化組織(ISO)和國際電報電話咨詢委員會(CCITT)共同出版了開放系統互聯的七層參考模型。一台計算機操作系統中的網路過程包括從應用請求(在協議棧的頂部)到網路介質(底部) ,OSI參考模型把功能分成七個分立的層次。圖2.1表示了OSI分層模型。
┌—————┐
│ 應用層 │←第七層
├—————┤
│ 表示層 │
├—————┤
│ 會話層 │
├—————┤
│ 傳輸層 │
├—————┤
│ 網路層 │
├—————┤
│數據鏈路層│
├—————┤
│ 物理層 │←第一層
└—————┘
圖2.1 OSI七層參考模型
OSI模型的七層分別進行以下的操作:
第一層??物理層
第一層負責最後將信息編碼成電流脈沖或其它信號用於網上傳輸。它由計算機和網路介質之間的實際界面組成,可定義電氣信號、符號、線的狀態和時鍾要求、數據編碼和數據傳輸用的連接器。如最常用的RS-232規范、10BASE-T的曼徹斯特編碼以及RJ-45就屬於第一層。所有比物理層高的層都通過事先定義好的介面而與它通話。如乙太網的附屬單元介面(AUI),一個DB-15連接器可被用來連接層一和層二。
第二層??數據鏈路層
數據鏈路層通過物理網路鏈路提供可靠的數據傳輸。不同的數據鏈路層定義了不同的網路和協議特徵,其中包括物理編址、網路拓撲結構、錯誤校驗、幀序列以及流控。物理編址(相對應的是網路編址)定義了設備在數據鏈路層的編址方式;網路拓撲結構定義了設備的物理連接方式,如匯流排拓撲結構和環拓撲結構;錯誤校驗向發生傳輸錯誤的上層協議告警;數據幀序列重新整理並傳輸除序列以外的幀;流控可能延緩數據的傳輸,以使接收設備不會因為在某一時刻接收到超過其處理能力的信息流而崩潰。數據鏈路層實際上由兩個獨立的部分組成,介質存取控制(Media Access Control,MAC)和邏輯鏈路控制層(Logical Link Control,LLC)。MAC描述在共享介質環境中如何進行站的調度、發生和接收數據。MAC確保信息跨鏈路的可靠傳輸,對數據傳輸進行同步,識別錯誤和控制數據的流向。一般地講,MAC只在共享介質環境中才是重要的,只有在共享介質環境中多個節點才能連接到同一傳輸介質上。IEEE MAC規則定義了地址,以標識數據鏈路層中的多個設備。邏輯鏈路控制子層管理單一網路鏈路上的設備間的通信,IEEE 802.2標準定義了LLC。LLC支持無連接服務和面向連接的服務。在數據鏈路層的信息幀中定義了許多域。這些域使得多種高層協議可以共享一個物理數據鏈路。
第三層??網路層
網路層負責在源和終點之間建立連接。它一般包括網路尋徑,還可能包括流量控制、錯誤檢查等。相同MAC標準的不同網段之間的數據傳輸一般只涉及到數據鏈路層,而不同的MAC標准之間的數據傳輸都涉及到網路層。例如IP路由器工作在網路層,因而可以實現多種網路間的互聯。
第四層??傳輸層
傳輸層向高層提供可靠的端到端的網路數據流服務。傳輸層的功能一般包括流控、多路傳輸、虛電路管理及差錯校驗和恢復。流控管理設備之間的數據傳輸,確保傳輸設備不發送比接收設備處理能力大的數據;多路傳輸使得多個應用程序的數據可以傳輸到一個物理鏈路上;虛電路由傳輸層建立、維護和終止;差錯校驗包括為檢測傳輸錯誤而建立的各種不同結構;而差錯恢復包括所採取的行動(如請求數據重發),以便解決發生的任何錯誤。傳輸控制協議(TCP)是提供可靠數據傳輸的TCP/IP協議族中的傳輸層協議。
第五層??會話層
會話層建立、管理和終止表示層與實體之間的通信會話。通信會話包括發生在不同網路應用層之間的服務請求和服務應答,這些請求與應答通過會話層的協議實現。它還包括創建檢查點,使通信發生中斷的時候可以返回到以前的一個狀態。
第六層??表示層
表示層提供多種功能用於應用層數據編碼和轉化,以確保以一個系統應用層發送的信息可以被另一個系統應用層識別。表示層的編碼和轉化模式包括公用數據表示格式、性能轉化表示格式、公用數據壓縮模式和公用數據加密模式。
公用數據表示格式就是標準的圖像、聲音和視頻格式。通過使用這些標准格式,不同類型的計算機系統可以相互交換數據;轉化模式通過使用不同的文本和數據表示,在系統間交換信息,例如ASCII(American Standard Code for Information Interchange,美國標准信息交換碼);標准數據壓縮模式確保原始設備上被壓縮的數據可以在目標設備上正確的解壓;加密模式確保原始設備上加密的數據可以在目標設備上正確地解密。
表示層協議一般不與特殊的協議棧關聯,如QuickTime是Applet計算機的視頻和音頻的標准,MPEG是ISO的視頻壓縮與編碼標准。常見的圖形圖像格式PCX、GIF、JPEG是不同的靜態圖像壓縮和編碼標准。
第七層??應用層
應用層是最接近終端用戶的OSI層,這就意味著OSI應用層與用戶之間是通過應用軟體直接相互作用的。注意,應用層並非由計算機上運行的實際應用軟體組成,而是由向應用程序提供訪問網路資源的API(Application Program Interface,應用程序介面)組成,這類應用軟體程序超出了OSI模型的范疇。應用層的功能一般包括標識通信夥伴、定義資源的可用性和同步通信。因為可能丟失通信夥伴,應用層必須為傳輸數據的應用子程序定義通信夥伴的標識和可用性。定義資源可用性時,應用層為了請求通信而必須判定是否有足夠的網路資源。在同步通信中,所有應用程序之間的通信都需要應用層的協同操作。
OSI的應用層協議包括文件的傳輸、訪問及管理協議(FTAM) ,以及文件虛擬終端協議(VIP)和公用管理系統信息(CMIP)等。
2.2 TCP/IP分層模型
TCP/IP分層模型(TCP/IP Layening Model)被稱作網際網路分層模型(Internet Layering Model)、網際網路參考模型(Internet Reference Model)。圖2.2表示了TCP/IP分層模型的四層。
┌————————┐┌—┬—┬—┬—┬—┬—┬—┬—┬—┬—┬—┐
│ ││D│F│W│F│H│G│T│I│S│U│ │
│ ││N│I│H│T│T│O│E│R│M│S│其│
│第四層,應用層 ││S│N│O│P│T│P│L│C│T│E│ │
│ ││ │G│I│ │P│H│N│ │P│N│ │
│ ││ │E│S│ │ │E│E│ │ │E│它│
│ ││ │R│ │ │ │R│T│ │ │T│ │
└————————┘└—┴—┴—┴—┴—┴—┴—┴—┴—┴—┴—┘
┌————————┐┌—————————┬———————————┐
│第三層,傳輸層 ││ TCP │ UDP │
└————————┘└—————————┴———————————┘
┌————————┐┌—————┬————┬——————————┐
│ ││ │ICMP│ │
│第二層,網間層 ││ └————┘ │
│ ││ IP │
└————————┘└—————————————————————┘
┌————————┐┌—————————┬———————————┐
│第一層,網路介面││ARP/RARP │ 其它 │
└————————┘└—————————┴———————————┘
圖2.2 TCP/IP四層參考模型
TCP/IP協議被組織成四個概念層,其中有三層對應於ISO參考模型中的相應層。ICP/IP協議族並不包含物理層和數據鏈路層,因此它不能獨立完成整個計算機網路系統的功能,必須與許多其他的協議協同工作。
TCP/IP分層模型的四個協議層分別完成以下的功能:
第一層??網路介面層
網路介面層包括用於協作IP數據在已有網路介質上傳輸的協議。實際上TCP/IP標准並不定義與ISO數據鏈路層和物理層相對應的功能。相反,它定義像地址解析協議(Address Resolution Protocol,ARP)這樣的協議,提供TCP/IP協議的數據結構和實際物理硬體之間的介面。
第二層??網間層
網間層對應於OSI七層參考模型的網路層。本層包含IP協議、RIP協議(Routing Information Protocol,路由信息協議),負責數據的包裝、定址和路由。同時還包含網間控制報文協議(Internet Control Message Protocol,ICMP)用來提供網路診斷信息。
第三層??傳輸層
傳輸層對應於OSI七層參考模型的傳輸層,它提供兩種端到端的通信服務。其中TCP協議(Transmission Control Protocol)提供可靠的數據流運輸服務,UDP協議(Use Datagram Protocol)提供不可靠的用戶數據報服務。
第四層??應用層
應用層對應於OSI七層參考模型的應用層和表達層。網際網路的應用層協議包括Finger、Whois、FTP(文件傳輸協議)、Gopher、HTTP(超文本傳輸協議)、Telent(遠程終端協議)、SMTP(簡單郵件傳送協議)、IRC(網際網路中繼會話)、NNTP(網路新聞傳輸協議)等,這也是本書將要討論的重點。
5、羊群效應的效應模型
羊群效應模型認為投資者羊群行為是符合最大效用准則的,是「群體壓力」等情緒下貫徹的非理性行為,分為序列型和非序列型兩種模型。
序列型羊群效應模型
序列型羊群效應模型由Banerjee(1992) 提出,在該模型中,投資者通過典型的貝葉斯過程從市場雜訊以及其它個體的決策中依次獲取決策信息,這類決策的最大特徵是其決策的序列性。但是現實中要區分投資者順序是不現實的。因而這一假設在實際金融市場中缺乏支持。非序列型則論證無論仿效傾向強或弱,都不會得到現代金融理論中關於股票的零點對稱、單一模態的厚尾特徵。
行為金融理論中的一個重要的模型是羊群效應模型。實際上,羊群行為同樣也是由模仿造成的。Scharfstein and Stein (1990)指出,在一些情況中,經營者簡單地模仿其他經營者的投資決策,忽略獨立的私人信息,雖然從社會角度看這種行為是無效的,但對於關心其在勞動市場聲譽的經營者而言卻是合理的。Banerjee (1992)提出序列決策模型分析羊群行為,在這個模型中,每個決策者在進行決策時都觀察其前面的決策者做出的決策,對他而言,這種行為是理性的,因為其前面的決策者可能擁有一些重要的信息,因而他可能模仿別人的決策而不使用其自己的信息,由此產生的均衡是無效的。Banerjee序列決策模型假定投資者的決策次序,投資主體通過典型的貝葉斯過程從市場雜訊以及其他個體的決策中獲取自己決策的信息,這種依次決策的過程導致市場中的「信息流」。
非序列型羊群效應模型
與Banerjee序列決策模型相對的是非序列羊群行為模型。該模型也是由貝葉斯法則下得出的。模型假設任意兩個投資主體之間的模仿傾向是固定相同的,當模仿傾向較弱時,市場主體的表現是收益服從高斯分布,而當模仿傾向較強時,市場主體的表現是市場崩潰。此外,Rajan(1994)、Maug & Naik(1996)、Devenow & Welch(1996)分別從投資者的信息不對稱、機構運作中的委託——代理關系、經濟主體的有限理性等角度探討羊群行為的內在產生機制。
6、數據流和信息流怎麼區別?
數據流(data stream)最初是通信領域使用的概念,代表傳輸中所使用的信息的數字編碼信號序列。然而,我們所提到的數據流概念與此不同。這個概念最初在1998年由Henzinger在文獻87中提出,他將數據流定義為「只能以事先規定好的順序被讀取一次的數據的一個序列」。
信息流有廣義和狹義兩種。廣義指在空間和時間上向同一方向運動過程中的一組信息,它們有共同的信息源和信息的接收者,即由一個信息源向另一個單位傳遞的全部信息的集合。狹義指信息的傳遞運動,這種傳遞運動是在現代信息技術研究、發展、應用的條件中,信息按照一定要求通過一定渠道進行的。
隨著社會的信息化和信息大量涌現,以及人們對信息要求的激增,信息流形成了錯綜復雜、瞬息萬變的形態。這種流動可以在人和人之間、人和機構之間、機構內部以及機構與機構之間發生,包括有形流動和無形流動,前者如報表、圖紙、書刊等,後者如電信號、聲信號、光信號等。在社會經濟生活中,隨著商流、物流與資金流的分離,信息流的作用越來越重要,其功能主要體現在溝通連接、引導調控、輔助決策以及經濟增值等方面。
7、什麼是羊群效應?
8、計算機在執行程序過程中有哪兩股信息流在流動
是數據流和控制流!
數據流是一個按照時間遞增順序排列的無窮序列,可以表示為: I = α1, α2 ,…,αt的形式,αt 是時刻t 出現的序列元素。
數據流與一般的數據的區別在於它的到達是快速的,無界的,時變的和不可預測的,從而不可能將原始數據流中的數據完全存儲。
數據流模型能夠應用到各種數據類型如電話記錄,web文檔,網路流量管理等,近期已經引起了廣泛注意。