1.3 WebRTC的网络拓扑
WebRTC规范主要介绍了使用ICE技术建立P2P的网络连接,即Mesh网络结构。在WebRTC技术的实际应用中,衍生出了媒体服务器的用法。
使用媒体服务器的场景,通常是因为P2P连接不可控,而使用媒体服务器可以对媒体流进行修改、分析、记录等P2P无法完成的操作。实际上,如果我们把媒体服务器看作WebRTC连接的另外一端,就很容易理解媒体服务器的工作原理了。媒体服务器是WebRTC在服务器端的实现,起到了桥梁的作用,用于连接多个WebRTC客户端,并增加了额外的媒体处理功能。通常根据提供的功能,将媒体服务器区分成MCU和SFU。
1. Mesh网络结构
Mesh是WebRTC多方会话最简单的网络结构。在这种结构中,每个参与者都向其他所有参与者发送媒体流,同时接收其他所有参与者发送的媒体流。说这是最简单的网络结构,是因为它是Web-RTC原生支持的,无须媒体服务器的参与。Mesh网络结构如图1-2所示。
图1-2 Mesh网络结构
在Mesh网络结构中,每个参与者都以P2P的方式相互连接,数据交换基本不经过中央服务器(部分无法使用P2P的场景,会经过TURN服务器)。由于每个参与者都要为其他参与者提供独立的媒体流,因此需要N-1个上行链路和N-1个下行链路。众多上行和下行链路限制了参与人数,参与人过多会导致明显卡顿,通常只能支持6人以下的实时互动场景。
由于没有媒体服务器的参与,Mesh网络结构难以对视频做额外的处理,不支持视频录制、视频转码、视频合流等操作。
2. MCU网络结构
MCU(Multipoint Control Unit)是一种传统的中心化网络结构,参与者仅与中心的MCU媒体服务器连接。MCU媒体服务器合并所有参与者的视频流,生成一个包含所有参与者画面的视频流,参与者只需要拉取合流画面,MCU网络结构如图1-3所示。
图1-3 MCU网络结构
这种场景下,每个参与者只需要1个上行链路和1个下行链路。与Mesh网络结构相比,参与者所在的终端压力要小很多,可以支持更多人同时在线进行音视频通信,比较适合多人实时互动场景。但是MCU服务器负责所有视频编码、转码、解码、合流等复杂操作,服务器端压力较大,需要较高的配置。同时由于合流画面固定,界面布局也不够灵活。
3. SFU网络结构
在SFU(Selective Forwarding Unit)网络结构中,仍然有中心节点媒体服务器,但是中心节点只负责转发,不做合流、转码等资源开销较大的媒体处理工作,所以服务器的压力会小很多,服务器配置也不像MCU的要求那么高。每个参与者需要1个上行链路和N-1个下行链路,带宽消耗低于Mesh,但是高于MCU。
我们可以将SFU服务器视为一个WebRTC参与方,它与其他所有参与方进行1对1的建立连接,并在其中起到桥梁的作用,同时转发各个参与者的媒体数据。SFU服务器具备复制媒体数据的能力,能够将一个参与者的数据转发给多个参与者。SFU服务器与TURN服务器不同,TURN服务器仅仅是为WebRTC客户端提供的一种辅助数据转发通道,在无法使用P2P的情况下进行透明的数据转发,TURN服务器不具备复制、转发媒体数据的能力。
SFU对参与实时互动的人数也有一定的限制,适用于在线教学、大型会议等场景,其网络结构如图1-4所示。
图1-4 SFU网络结构