导航:首页 > 新媒体 > 序列信息流

序列信息流

发布时间:2020-08-06 20:32:55

1、生物系统建模 名词解释

没人回答我的问题!真的就没人懂混沌理学?... (引自布莱克:《混沌 开创新科学》)现在,“混沌”这个名词正越来越多地出现在生活的各个领域,不仅出现在数学、物理和生物等自然科学,而且出现在金融、经济和管理等社会科学,甚至还出现在文学和艺术的范畴。本文通过计算机辅助的方法研究一个简单的非线性方程 ,...电影电视 - 2个回答-解决时间 2008-07-24

2、举例序列模式挖掘算法有哪些

序列模式的概念最早是由Agrawal和Srikant 提出的。
动机:大型连锁超市的交易数据有一系列的用户事务数据库,每一条记录包括用户的ID,事务发生的时间和事务涉及的项目。如果能在其中挖掘涉及事务间关联关系的模式,即用户几次购买行为间的联系,可以采取更有针对性的营销措施。
例:一个事务数据库,一个事务代表一笔交易,一个单项代表交易的商品,单项属性中的数字记录的是商品ID。
序列(Sequence):以SID表示,一个序列即是一个完整的信息流
项目(Item):序列中最小组成单位的集合,比如在这个样例中的项目为{A, B, C}。
事件(Event):通常用时间戳标志,标识事件之间的前后关系。又叫Itemset,是Item的集合,样例中以EID表示。
k频繁序列:如果频繁序列的项目个数为k,则称之为k频繁序列,以Fk表示(图1的F1,F2,F3)。
序列的包含关系:对于序列x和y,如果存在着一个保序的映射,使得x中的每个事件都被包含于y中的某个事件,则称为x被包含于y(x是y的子序列),例如序列B->AC是序列AB->E->ACD的子序列。
支持度(support):某序列x的支持度是指在整个序列集中包含x的序列的频次。

序列模式定义
给定一个由不同序列组成的集合,其中,每个序列由不同的元素按顺序有序排列,每个元素(交易)由不同项目组成,同时给定一个用户指定的最小支持度阈值,序列模式挖掘就是找出所有的频繁子序列,即该子序列在序列集中的出现频率不低于用户指定的最小支持度阈值。

符号化表示
项目集(Itemset)是各种项目组成的集合
序列(Sequence)是不同项目集(ItemSet)的有序排列,序列s可以表示为s = <s1s2…sl>,sj(1 <= j <= l)为项目集(Itemset),也称为序列s的元素
序列的元素(Element)可表示为(x1x2…xm), xk(1 <= k <= m)为不同的项目,如果一个序列只有一个项目,则括号可以省略
一个序列包含的所有项的个数称为序列的长度。长度为l的序列记为l-序列

序列挖掘算法步骤
1) 排序阶段。数据库D以客户号为主键交易时间为次键进行排序。这个阶段将原来的事务数据库转换成由客户序列组成的数据库。[1]
2) 频繁项集阶段。找出所有频繁项集组成的集合L。也同步得到所有频繁1-序列组成的集合。[1]
3) 转换阶段。在找序列模式的过程中要不断地进行检测一个给定的频繁集是否包含于一个客户序列中。[1]
4) 序列阶段利用已知的频繁集的集合来找到所需的序列。类似于关联的Apriori算法。[1]

AprioriAll算法
AprioriAll算法与Apriori算法的执行过程是一样的,不同点在于候选集的产生,具体候选者的产生如下:
候选集生成的时候需要区分最后两个元素的前后,因此就有<p.item1,p.item2,…,p.,q.>和<p.item1,p.item2,…, q.,p.>两个元素。[1]

AprioriSome算法
AprioriSome算法可以看做是AprioriAll算法的改进,具体可以分为两个阶段:
(1)Forward阶段:找出置顶长度的所有大序列,在产生Li后,根据判断函数j=next(last),此时last=i,j>i,下个阶段不产生i+1的候选项,而是产生j的候选项,如果j=i+1,那么就根据Li生成Cj,如果j>i+1,那么Cj就有Cj-1产生。然后扫描数据库计算Cj的支持度。
(2)Backward阶段:根据Lj中的大项集,去掉Ci(i<j)中出现的Lj项,然后计算Ci中的支持度,判断那些在Forward阶段被漏判的项集。
AprioriAll算法和AprioriSome算法的比较:
(1)AprioriAll用去计算出所有的候选Ck,而AprioriSome会直接用去计算所有的候选,因为包含,所以AprioriSome会产生比较多的候选。
(2)虽然AprioriSome跳跃式计算候选,但因为它所产生的候选比较多,可能在回溯阶段前就占满内存。
(3)如果内存占满了,AprioriSome就会被迫去计算最后一组的候选。
(4)对于较低的支持度,有较长的大序列,AprioriSome算法要好些。[1]

GSP算法
GSP(Generalized Sequential Patterns)算法,类似于Apriori算法大体分为候选集产生、候选集计数以及扩展分类三个阶段。与AprioriAll算法相比,GSP算法统计较少的候选集,并且在数据转换过程中不需要事先计算频繁集。
GSP的计算步骤与Apriori类似,但是主要不同在于产生候选序列模式,GSP产生候选序列模式可以分成如下两个步骤:
(1)连接阶段:如果去掉序列模式S1的第一个项目与去掉序列模式S2的最后一个项目所得到的序列相同,则可以将S1和S2进行连接,即将S2的最后一个项目添加到S1中去。
(2)剪枝阶段:若某候选序列模式的某个子集不是序列模式,则此候选序列模式不可能是序列模式,将它从候选序列模式中删除。[1]

序列模式 VS 关联规则

问题

序列模式挖掘

关联规则挖掘

数据集

序列数据库

事务数据库

关注点

单项间在同一事务内以及事务间的关系

单项间在同一事务内的关系

典型的工具
SAS Enterprise Miner:提供的数据挖掘包括回归、分类和统计分析包。它的特色是具有多种统计分析工具。[2]
SGI的MineSet:提供的挖掘算法有关联和分类以及高级统计和可视化工具。特色是具有强大的图形工具包括规则可视化工具、树可视化工具、地图可视化工具和多维数据分散可视化工具它们用于实现数据和数据挖掘结果的可视化。[2]
ISL的Clementine:为终端用户和开发者提供了一个集成的数据挖掘开发环境。系统集成了多种数据挖掘算法如规则归纳、神经网络、分类和可视化工具。Clementine现已被SPSS公司收购。

3、请问羊群效应出自哪本书?

一、羊群效应是指:

羊群行为也可以称为群体心理,社会压力,传染(contagion) 羊群效应——跟随现象 等,最早是股票投资中的一个术语,主要是指投资者在交易过程中存在学习与模仿现象,“有样学样”,盲目效仿别人,从而导致他们在某段时期内买卖相同的股票。在一群羊前面横放一根木棍,第一只羊跳了过去,第二只、第三只也会跟着跳过去;这时,把那根棍子撤走,后面的羊,走到这里,仍然像前面的羊一样,向上跳一下,尽管拦路的棍子已经不在了,这就是所谓的“羊群效应”,也称“从众心理”。
羊群效应也是管理学上一些企业的市场行为的一种常见现象。是指由于对信息不充分的和缺乏了解,投资者很难对市场未来的不确定性作出合理的预期,往往是通过观察周围人群的行为而提取信息,在这种信息的不断传递中,许多人的信息将大致相同且彼此强化,从而产生的从众行为。
“羊群效应”是由个人理性行为导致的集体的非理性行为的一种非线性机制。 羊群效应的出现一般在一个竞争非常激烈的行业上,而且这个行业上有一个领先者(领头羊)占据了主要的注意力,那么整个羊群就会不断摹仿这个领头羊的一举一动,领头羊到哪里去“吃草”,其它的羊也去哪里“淘金”。
古斯塔夫·勒·邦(Gustave Le Bon)认为一个心理群体表现出的最显著的特点是:无论构成这个群体的个人是谁,他们的生活方式、职业、性格、智力有多么的相似或者不相似,只要他们构成了一个群体,他们的感觉、思考、行为方式就会和他们处于独立状态时有很大的不同 。
二、 羊群效应模
羊群效应模型认为投资者羊群行为是符合最大效用准则的,是“群体压力”等情绪下贯彻的非理性行为,分为序列型和非序列型两种模型。
1、序列型羊群效应模型
序列型羊群效应模型由Banerjee(1992) 提出,在该模型中,投资者通过典型的贝叶斯过程从市场噪声以及其它个体的决策中依次获取决策信息,这类决策的最大特征是其决策的序列性。但是现实中要区分投资者顺序是不现实的。因而这一假设在实际金融市场中缺乏支持。非序列型则论证无论仿效倾向强或弱,都不会得到现代金融理论中关于股票的零点对称、单一模态的厚尾特征。 行为金融理论中的一个重要的模型是羊群效应模型。实际上,羊群行为同样也是由模仿造成的。Scharfstein and Stein (1990)指出,在一些情况中,经营者简单地模仿其他经营者的投资决策,忽略独立的私人信息,虽然从社会角度看这种行为是无效的,但对于关心其在劳动市场声誉的经营者而言却是合理的。Banerjee (1992)提出序列决策模型分析羊群行为,在这个模型中,每个决策者在进行决策时都观察其前面的决策者做出的决策,对他而言,这种行为是理性的,因为其前面的决策者可能拥有一些重要的信息,因而他可能模仿别人的决策而不使用其自己的信息,由此产生的均衡是无效的。Banerjee序列决策模型假定投资者的决策次序,投资主体通过典型的贝叶斯过程从市场噪声以及其他个体的决策中获取自己决策的信息,这种依次决策的过程导致市场中的“信息流”。
2、非序列型羊群效应模型
与Banerjee序列决策模型相对的是非序列羊群行为模型。该模型也是由贝叶斯法则下得出的。模型假设任意两个投资主体之间的模仿倾向是固定相同的,当模仿倾向较弱时,市场主体的表现是收益服从高斯分布,而当模仿倾向较强时,市场主体的表现是市场崩溃。此外,Rajan(1994)、Maug & Naik(1996)、Devenow & Welch(1996)分别从投资者的信息不对称、机构运作中的委托——代理关系、经济主体的有限理性等角度探讨羊群行为的内在产生机制。

4、在物理层为什么是透明的传输

网络协议设计者不应当设计一个单一、巨大的协议来为所有形式的通信规定完整的细节,而应把通信问题划分成多个小问题,然后为每一个小问题设计一个单独的协议。这样做使得每个协议的设计、分析、时限和测试比较容易。协议划分的一个主要原则是确保目标系统有效且效率高。为了提高效率,每个协议只应该注意没有被其他协议处理过的那部分通信问题;为了主协议的实现更加有效,协议之间应该能够共享特定的数据结构;同时这些协议的组合应该能处理所有可能的硬件错误以及其它异常情况。为了保证这些协议工作的协同性,应当将协议设计和开发成完整的、协作的协议系列(即协议族),而不是孤立地开发每个协议。
在网络历史的早期,国际标准化组织(ISO)和国际电报电话咨询委员会(CCITT)共同出版了开放系统互联的七层参考模型。一台计算机操作系统中的网络过程包括从应用请求(在协议栈的顶部)到网络介质(底部) ,OSI参考模型把功能分成七个分立的层次。图2.1表示了OSI分层模型。

┌—————┐
│ 应用层 │←第七层
├—————┤
│ 表示层 │
├—————┤
│ 会话层 │
├—————┤
│ 传输层 │
├—————┤
│ 网络层 │
├—————┤
│数据链路层│
├—————┤
│ 物理层 │←第一层
└—————┘
图2.1 OSI七层参考模型

OSI模型的七层分别进行以下的操作:

第一层??物理层
第一层负责最后将信息编码成电流脉冲或其它信号用于网上传输。它由计算机和网络介质之间的实际界面组成,可定义电气信号、符号、线的状态和时钟要求、数据编码和数据传输用的连接器。如最常用的RS-232规范、10BASE-T的曼彻斯特编码以及RJ-45就属于第一层。所有比物理层高的层都通过事先定义好的接口而与它通话。如以太网的附属单元接口(AUI),一个DB-15连接器可被用来连接层一和层二。
第二层??数据链路层
数据链路层通过物理网络链路提供可靠的数据传输。不同的数据链路层定义了不同的网络和协议特征,其中包括物理编址、网络拓扑结构、错误校验、帧序列以及流控。物理编址(相对应的是网络编址)定义了设备在数据链路层的编址方式;网络拓扑结构定义了设备的物理连接方式,如总线拓扑结构和环拓扑结构;错误校验向发生传输错误的上层协议告警;数据帧序列重新整理并传输除序列以外的帧;流控可能延缓数据的传输,以使接收设备不会因为在某一时刻接收到超过其处理能力的信息流而崩溃。数据链路层实际上由两个独立的部分组成,介质存取控制(Media Access Control,MAC)和逻辑链路控制层(Logical Link Control,LLC)。MAC描述在共享介质环境中如何进行站的调度、发生和接收数据。MAC确保信息跨链路的可靠传输,对数据传输进行同步,识别错误和控制数据的流向。一般地讲,MAC只在共享介质环境中才是重要的,只有在共享介质环境中多个节点才能连接到同一传输介质上。IEEE MAC规则定义了地址,以标识数据链路层中的多个设备。逻辑链路控制子层管理单一网络链路上的设备间的通信,IEEE 802.2标准定义了LLC。LLC支持无连接服务和面向连接的服务。在数据链路层的信息帧中定义了许多域。这些域使得多种高层协议可以共享一个物理数据链路。
第三层??网络层
网络层负责在源和终点之间建立连接。它一般包括网络寻径,还可能包括流量控制、错误检查等。相同MAC标准的不同网段之间的数据传输一般只涉及到数据链路层,而不同的MAC标准之间的数据传输都涉及到网络层。例如IP路由器工作在网络层,因而可以实现多种网络间的互联。
第四层??传输层
传输层向高层提供可靠的端到端的网络数据流服务。传输层的功能一般包括流控、多路传输、虚电路管理及差错校验和恢复。流控管理设备之间的数据传输,确保传输设备不发送比接收设备处理能力大的数据;多路传输使得多个应用程序的数据可以传输到一个物理链路上;虚电路由传输层建立、维护和终止;差错校验包括为检测传输错误而建立的各种不同结构;而差错恢复包括所采取的行动(如请求数据重发),以便解决发生的任何错误。传输控制协议(TCP)是提供可靠数据传输的TCP/IP协议族中的传输层协议。
第五层??会话层
会话层建立、管理和终止表示层与实体之间的通信会话。通信会话包括发生在不同网络应用层之间的服务请求和服务应答,这些请求与应答通过会话层的协议实现。它还包括创建检查点,使通信发生中断的时候可以返回到以前的一个状态。
第六层??表示层
表示层提供多种功能用于应用层数据编码和转化,以确保以一个系统应用层发送的信息可以被另一个系统应用层识别。表示层的编码和转化模式包括公用数据表示格式、性能转化表示格式、公用数据压缩模式和公用数据加密模式。
公用数据表示格式就是标准的图像、声音和视频格式。通过使用这些标准格式,不同类型的计算机系统可以相互交换数据;转化模式通过使用不同的文本和数据表示,在系统间交换信息,例如ASCII(American Standard Code for Information Interchange,美国标准信息交换码);标准数据压缩模式确保原始设备上被压缩的数据可以在目标设备上正确的解压;加密模式确保原始设备上加密的数据可以在目标设备上正确地解密。
表示层协议一般不与特殊的协议栈关联,如QuickTime是Applet计算机的视频和音频的标准,MPEG是ISO的视频压缩与编码标准。常见的图形图像格式PCX、GIF、JPEG是不同的静态图像压缩和编码标准。
第七层??应用层
应用层是最接近终端用户的OSI层,这就意味着OSI应用层与用户之间是通过应用软件直接相互作用的。注意,应用层并非由计算机上运行的实际应用软件组成,而是由向应用程序提供访问网络资源的API(Application Program Interface,应用程序接口)组成,这类应用软件程序超出了OSI模型的范畴。应用层的功能一般包括标识通信伙伴、定义资源的可用性和同步通信。因为可能丢失通信伙伴,应用层必须为传输数据的应用子程序定义通信伙伴的标识和可用性。定义资源可用性时,应用层为了请求通信而必须判定是否有足够的网络资源。在同步通信中,所有应用程序之间的通信都需要应用层的协同操作。
OSI的应用层协议包括文件的传输、访问及管理协议(FTAM) ,以及文件虚拟终端协议(VIP)和公用管理系统信息(CMIP)等。

2.2 TCP/IP分层模型

TCP/IP分层模型(TCP/IP Layening Model)被称作因特网分层模型(Internet Layering Model)、因特网参考模型(Internet Reference Model)。图2.2表示了TCP/IP分层模型的四层。
┌————————┐┌—┬—┬—┬—┬—┬—┬—┬—┬—┬—┬—┐
│ ││D│F│W│F│H│G│T│I│S│U│ │
│ ││N│I│H│T│T│O│E│R│M│S│其│
│第四层,应用层 ││S│N│O│P│T│P│L│C│T│E│ │
│ ││ │G│I│ │P│H│N│ │P│N│ │
│ ││ │E│S│ │ │E│E│ │ │E│它│
│ ││ │R│ │ │ │R│T│ │ │T│ │
└————————┘└—┴—┴—┴—┴—┴—┴—┴—┴—┴—┴—┘
┌————————┐┌—————————┬———————————┐
│第三层,传输层 ││ TCP │ UDP │
└————————┘└—————————┴———————————┘
┌————————┐┌—————┬————┬——————————┐
│ ││ │ICMP│ │
│第二层,网间层 ││ └————┘ │
│ ││ IP │
└————————┘└—————————————————————┘
┌————————┐┌—————————┬———————————┐
│第一层,网络接口││ARP/RARP │ 其它 │
└————————┘└—————————┴———————————┘
图2.2 TCP/IP四层参考模型
TCP/IP协议被组织成四个概念层,其中有三层对应于ISO参考模型中的相应层。ICP/IP协议族并不包含物理层和数据链路层,因此它不能独立完成整个计算机网络系统的功能,必须与许多其他的协议协同工作。
TCP/IP分层模型的四个协议层分别完成以下的功能:
第一层??网络接口层
网络接口层包括用于协作IP数据在已有网络介质上传输的协议。实际上TCP/IP标准并不定义与ISO数据链路层和物理层相对应的功能。相反,它定义像地址解析协议(Address Resolution Protocol,ARP)这样的协议,提供TCP/IP协议的数据结构和实际物理硬件之间的接口。
第二层??网间层
网间层对应于OSI七层参考模型的网络层。本层包含IP协议、RIP协议(Routing Information Protocol,路由信息协议),负责数据的包装、寻址和路由。同时还包含网间控制报文协议(Internet Control Message Protocol,ICMP)用来提供网络诊断信息。
第三层??传输层
传输层对应于OSI七层参考模型的传输层,它提供两种端到端的通信服务。其中TCP协议(Transmission Control Protocol)提供可靠的数据流运输服务,UDP协议(Use Datagram Protocol)提供不可靠的用户数据报服务。
第四层??应用层
应用层对应于OSI七层参考模型的应用层和表达层。因特网的应用层协议包括Finger、Whois、FTP(文件传输协议)、Gopher、HTTP(超文本传输协议)、Telent(远程终端协议)、SMTP(简单邮件传送协议)、IRC(因特网中继会话)、NNTP(网络新闻传输协议)等,这也是本书将要讨论的重点。

5、羊群效应的效应模型

羊群效应模型认为投资者羊群行为是符合最大效用准则的,是“群体压力”等情绪下贯彻的非理性行为,分为序列型和非序列型两种模型。
序列型羊群效应模型
序列型羊群效应模型由Banerjee(1992) 提出,在该模型中,投资者通过典型的贝叶斯过程从市场噪声以及其它个体的决策中依次获取决策信息,这类决策的最大特征是其决策的序列性。但是现实中要区分投资者顺序是不现实的。因而这一假设在实际金融市场中缺乏支持。非序列型则论证无论仿效倾向强或弱,都不会得到现代金融理论中关于股票的零点对称、单一模态的厚尾特征。
行为金融理论中的一个重要的模型是羊群效应模型。实际上,羊群行为同样也是由模仿造成的。Scharfstein and Stein (1990)指出,在一些情况中,经营者简单地模仿其他经营者的投资决策,忽略独立的私人信息,虽然从社会角度看这种行为是无效的,但对于关心其在劳动市场声誉的经营者而言却是合理的。Banerjee (1992)提出序列决策模型分析羊群行为,在这个模型中,每个决策者在进行决策时都观察其前面的决策者做出的决策,对他而言,这种行为是理性的,因为其前面的决策者可能拥有一些重要的信息,因而他可能模仿别人的决策而不使用其自己的信息,由此产生的均衡是无效的。Banerjee序列决策模型假定投资者的决策次序,投资主体通过典型的贝叶斯过程从市场噪声以及其他个体的决策中获取自己决策的信息,这种依次决策的过程导致市场中的“信息流”。
非序列型羊群效应模型
与Banerjee序列决策模型相对的是非序列羊群行为模型。该模型也是由贝叶斯法则下得出的。模型假设任意两个投资主体之间的模仿倾向是固定相同的,当模仿倾向较弱时,市场主体的表现是收益服从高斯分布,而当模仿倾向较强时,市场主体的表现是市场崩溃。此外,Rajan(1994)、Maug & Naik(1996)、Devenow & Welch(1996)分别从投资者的信息不对称、机构运作中的委托——代理关系、经济主体的有限理性等角度探讨羊群行为的内在产生机制。

6、数据流和信息流怎么区别?

数据流(data stream)最初是通信领域使用的概念,代表传输中所使用的信息的数字编码信号序列。然而,我们所提到的数据流概念与此不同。这个概念最初在1998年由Henzinger在文献87中提出,他将数据流定义为“只能以事先规定好的顺序被读取一次的数据的一个序列”。
信息流有广义和狭义两种。广义指在空间和时间上向同一方向运动过程中的一组信息,它们有共同的信息源和信息的接收者,即由一个信息源向另一个单位传递的全部信息的集合。狭义指信息的传递运动,这种传递运动是在现代信息技术研究、发展、应用的条件中,信息按照一定要求通过一定渠道进行的。
随着社会的信息化和信息大量涌现,以及人们对信息要求的激增,信息流形成了错综复杂、瞬息万变的形态。这种流动可以在人和人之间、人和机构之间、机构内部以及机构与机构之间发生,包括有形流动和无形流动,前者如报表、图纸、书刊等,后者如电信号、声信号、光信号等。在社会经济生活中,随着商流、物流与资金流的分离,信息流的作用越来越重要,其功能主要体现在沟通连接、引导调控、辅助决策以及经济增值等方面。

7、什么是羊群效应?

8、计算机在执行程序过程中有哪两股信息流在流动

是数据流和控制流!

数据流是一个按照时间递增顺序排列的无穷序列,可以表示为: I = α1, α2 ,…,αt的形式,αt 是时刻t 出现的序列元素。 

数据流与一般的数据的区别在于它的到达是快速的,无界的,时变的和不可预测的,从而不可能将原始数据流中的数据完全存储。 

数据流模型能够应用到各种数据类型如电话记录,web文档,网络流量管理等,近期已经引起了广泛注意。

与序列信息流相关的知识