第二章
二十四节气色彩提取
常用的色彩提取方法
田野调查
田野调查(field research)是一种深入到研究对象的生活环境中,以参与观察和无结构访谈的方式收集资料,并通过对这些资料的定性分析来理解和解释现象的社会研究方法。该方法的基本特征是强调“身临其境”,即研究者一定要深入到所研究对象的社会生活环境中,在相当长的一段时间内,靠观察、询问、感受和领悟去理解所研究的现象。
在二十四节气色彩的田野调查中,可以通过不断走访与节气色彩有关的地方,观察随节气变化而改变的自然景色和生活习俗,用随身携带的摄影器材记录下各种典型的色彩图片。在对不同节气色彩进行定性分析和归纳后,第二年从不同的地方、不同的视角、不同的人群开始进一步观察和归纳,经过多次循环,筛选形成不同节气的色彩图片库。最后从得出的自然景色与生活风俗的图片库中提取出频率最高、面积最大的系列色彩。
田野调查是目前节气色彩提取的最方便最常用的方法,其主要优点有:(1)节气色彩作为时节景象和生活风俗的视觉文化,选用田野调查这种在自然条件下观察和研究人们行为的方法,能够获得更具有情感性和直觉性的色彩资料。(2)研究的可靠性和有效程度较高,田野调查的深入观察,设身处地的感受和拍摄记录,具有很强的真实性与实效性。(3)用眼睛观察生活,用心灵记录生活,田野调查的方式灵活,有弹性。(4)田野调查适用于调研节气这种随时节不同而色彩不断变化的现象。由于实地研究所得到的基本都是定性资料,也存在过于主观的问题,且调研时间一般需要两年以上,还存在所需时间较长等缺点[1]。
色卡取色法
色卡是一种将自然界与生活中的颜色在相应材质上呈现的方式,用于色彩的选择、比对、沟通,是色彩实现在一定范围内具有统一标准的工具和载体。国际上有很多标准色卡,其中影响力最大的是美国Pantone(潘通)色卡,其次是在欧洲使用最广泛的瑞典NCS色卡,此外还有Munsell(孟塞尔)等国际通用色卡。这些色卡被广泛应用于纺织服装、纸媒印刷、家具、汽车、涂料油漆等领域。
潘通色卡
色卡在我国纺织、建筑、汽车、化学等多个领域被普遍应用。1993年我国完成了《中国颜色体系问题研究》,并制定了《中国颜色体系》,之后中国建筑科学研究院物理研究所与多个单位合作共同制定了《建筑色彩体系和建筑色卡》,从而建立了中国建筑的色彩体系[2]。二十四节气的色彩研究,可以采用色卡对节气生活中典型的色彩进行比对,选择最吻合和最匹配的材质色卡色彩记录下节气色彩对应的数值,并将该色彩数值按照不同的材质类别整理放入不同的色彩库。
采用色卡比对的方式提取的色彩在一定程度上减少了因拍摄技术、显像设备而引起的色彩偏差,通过调整所拍摄照片的亮度、饱和度与彩度等,使拍摄的照片能更真实地还原物像本身的色彩,后期将拍摄的照片与色卡颜色进行比对,防止光线过强、过暗等对物像色彩的影响。因此,色卡取色具有感性与理性共存的特点,既可以通过感性的视觉去选择色彩,又可以根据理性的色卡数值去确定和标识色彩。但是这种方式因需要大量的统计工作而导致效率较低;虽然对实体材质的色彩更有效,但对于数字色彩则不方便采集。
软件取色
目前很多PC端和移动端软件都可以实现色彩的提取。
其中,Photoshop作为设计工作者较为常用的软件工具就提供了图像色彩提取的功能。在Photoshop中,通过“色彩索引模式”和“色彩表”功能即可获得图像的色彩数据。索引颜色模式是网页中常用的图像模式,包含近256种颜色。当把图像转换为该模式时,系统会构建一个调色板用以存放和索引图像中的颜色。如果原图像中的颜色不能用这256色来显示,Photoshop 就会从可用的色彩中选出最匹配的色彩来模拟这些颜色。在该模式下,通过减少调色板中色彩的数目,可以在保持视觉上的画质基本不变的同时缩减文件的大小[3]。
同时,使用Photoshop中的“Web所用格式”来生成色彩分区图,也可以提取色彩。以下内容将展示提取色彩的详细步骤。首先通过Photoshop打开图片,依次选择“文件”“导出”“存储为Web所用格式”之后会弹出一个窗口。在右面操作区中选择“PNG-8”,图片呈现类型选择“无仿色”,并选择颜色的个数。“PNG-8”是256色PNG的别名,是将全色图片转化成256种颜色,但是画面的色彩倾向基本不变;“无仿色”是使图片呈现出色彩分区的样式;颜色个数的减少可以使画面的色彩倾向发生微小的变化。为了保留一些点睛色,可以选中此颜色,选择界面中的锁子的图标,该颜色就被锁定,也可以通过垃圾桶的图标,直接删除此颜色。
Photoshop“存储为Web所用格式”窗口
移动端同样有简单的色彩提取软件,如palette和色彩工具箱等。其中色彩工具箱不仅可以提取图像色彩,还可以提供相应的色彩搭配。
“色彩工具箱”软件界面
利用软件辅助提取色彩操作简单且色彩效果较好,不仅可以在较大程度上提高效率,还方便设计与应用。但提取的色彩会受到算法提取模式的不同而产生一定差异,同时提取的色彩受到图像质量的影响,不一定符合真实世界人眼看到的色彩。而且通常情况我们不需要256个色彩代表一张图片,16个左右的色彩已经可以满足色彩提取的需要。即使如此仍然会存在提取出近似颜色的情况,此时可以采用人眼筛选的方式去除杂色和近似色。一般情况,可以选择5位色彩研究和对应领域的专家对提取出来的色彩进行选择,选择出能够代表图片的主要色彩,这种色彩筛选的方法能够让提取出来的色彩更加符合人们的主观联想,取得更好的色彩搭配效果。
大数据算法取色
前面提到的提取颜色的方法都更加适用于单张图像的提取,而实际情况下我们有时会需要快速提取大量图像的色彩并对色彩进行统计归类,上述单张图片的色彩提取方法会显得效率较低。随着大数据时代的到来,计算机色彩提取的方法越来越多,针对不同的提取对象,提取方法也会相应调整,主要涉及用于数据抓取的python爬虫技术,用于色彩特征提取的配色提取算法,用于节气色彩特征提取的特征筛选和降维算法等。
色彩数据抓取技术
数据抓取技术,通常是指通过程序对电子内容进行收集、筛选、清洗的过程。高效获取图片的爬虫程序的核心流程包括:首先通过人工方式获取初始网页链接(URL)。之后对初始URL进行管理并存入爬取队列中,爬取队列要对已爬取URL和未爬取URL进行管理。然后根据爬取队列中提供的URL,完成对应网页内容的抓取。最后将网页的文本、图片、链接等内容下载至本地,对于下载至本地的网页内容进行解析。由于网页内容包含大量html,js,css等代码结构,需要对内容进行分析提取。
色彩特征提取技术
提取图片色彩需要对图片的关键色彩特征进行提取,图片色彩特征包括基础色值特征、主色特征、对比度、彩度等。其中难点主要在于图片主色的提取。下面主要介绍以下几种主色提取的算法。
Median Cut算法:将图片映射到三维色彩空间(如RGB空间)中,将此色彩空间看作是色彩空间中的长方体(VBox)。开始时,获取能够包含图片色值点的最小长方体,沿长方体的最长边,对色值点进行划分,使得两个子长方体中所包含的色值点数量相同,重复分割过程直到切分所得的子长方体的数量和所要提取数量相等为止。
聚类算法:也是常用的一种从图片中提取特定数目色彩的方法。通常使用的有K-means和Fuzzy C-means。K-means算法需要指定需要聚类得到的分类数目k,算法可以找到合适的分类使得色值点到各个分类的距离最短。但是K-means算法的初始聚类点是随机生成的,因此对于一些数量较少、位置较偏的色点很难提取到准确的色值。Fuzzy C-means是一种无监督的模糊聚类算法。与K-means不同的是,C-means不会给出每个数据点的具体分类,而是给出点对每个分类的隶属程度。C-means对初始数据点的选择敏感度较低,但对模型参数较为敏感。
八叉树算法:会将色值点的色值按照R、G、B三个色彩通道分别提取出来,并用二进制表示,同时较低位(八叉树中位置较深层)数值将被压缩进较高位(八叉树中较浅层)数值中。八叉树算法对色彩空间模型结构有着较强的依赖性,且RGB模型是基于计算机模型的色彩模式,并不是最符合人眼认知的模型,因此存在一定的局限性。
颜色直方图法:是最常用的提取图像颜色特征的方法,由Swain和Ballard最先提出。该算法是将图像中每一个像素对应的光谱映射到柱状图中,通过统计每个像素点在不同柱状图中出现的频次,从全局描述图像颜色的数量特征。但这种算法忽视了像素的空间位置信息,只对图像颜色做了统计分布,因此可能出现相同或近似的颜色直方图所对应的图像完全不同的情况。
颜色聚合向量:是Pass提出的对颜色直方图的一种较为复杂的演变,包含了像素的空间信息,它的检索和识别效果都优于颜色直方图。它将图像分为聚合像素和非聚合像素,首先对图像进行平滑滤波,对图像的色彩空间进行量化以减少图像的复杂度,方便计算机进行特征提取。之后遍历图像,将图像划分为若干个连通区域,统计每个连通区域内的像素数来生成图像的颜色聚合向量。
颜色相关图:既包括图像颜色的统计信息,也包含颜色的空间关系。当考虑全部颜色之间的空间关系时,这样的颜色相关图会相当复杂。颜色相关图是一个简化方式,只考虑相同颜色的像素之间的空间关系,降低了空间复杂度。
色彩特征选择方法
通过特征提取的算法,我们可以提取大量图片特征。特征数量可高达上百维度。如果将高维数据直接作为学习模型的输入,很容易产生欠拟合,从而影响模型的准确性。因此,对输入特征进行缩减,是机器学习建模的重要步骤。通常来说,特征筛选的方法包括以下几类。
Filter类方法:通过自变量和目标变量的关系选择特征,包括卡方检验、互信息等。卡方检验统计样本的实际观测值与理论推断值之间的偏离程度决定卡方值的大小,卡方值是判断哪些特征与结果具有更高的相关性的依据;互信息是用来评价一个事件的出现对于另一个事件的出现所贡献的信息量,通过计算公式可以得出输入和输出信息之间的关联性。
降维类方法:降维类方法不是简单进行特征选择,而是通过将多个特征映射到一个特征,来达到降低特征个数的目的。最常用的降维方法是主成分分析(PCA),相比Filter类方法,降维方法的最大优势是信息损失少,利用PCA可以把原本具有共线性的特征进行整合,最后得到的都是正交的特征。
Embeded方法:除了可以使用特征筛选和降维方法进行特征预处理,还可以通过一些具有特征选择功能的学习模型完成特征筛选/降维步骤,如Lasso、XGBoost。Lasso是由Robert Tibshirani提出的一种回归算法。与简单的线性回归不同,该算法引入了L1正则项作为惩罚项,可以有效压缩特征的系数,同时使得一些不重要的特征系数为零,具备良好的抗过拟合的特性。与Lasso不同,XGBoost是一种基于树形分类器的模型,同时运用了集成学习的思想。XGBoost能通过计算不同特征的importance值,来实现特征的筛选[4]。
传统文化色彩的提取范式
首先,进行文献研究及用户访谈,搜集传统文化色彩相关的文献资料,为提取色彩提供依据,若研究与生活习俗相关的传统文化,还需要结合用户访谈来完善调研资料。其次,通过田野调查或实地拍摄,获取传统文化色彩的图片素材。在开始提取色彩前,需要对采集的素材做预处理,使用图片处理软件让图片色彩尽可能还原研究对象本身的色彩,同时对于高精度图片,在保留图片色彩信息的同时对图片进行压缩处理,以提高算法的运算效率。最后,在进行色彩提取时,应结合图片的色彩特点与提取算法特性,选择适合的算法来提取图片特征,可以同时采用多种提取算法处理图片,比较处理结果,选择色彩提取效果好的算法。获取特征结果后,对色彩特征进行降维处理和人工筛选,得到传统文化色彩库。
传统文化色彩的提取范式
[1]风笑天。社会学研究方法[M],北京:中国人民大学出版社,2009年6月.
[2]刘毅娟。苏州古典园林色彩体系的研究[D],北京:北京林业大学,2014年.
[3]杨立新. Photoshop色彩模式浅探[J],合肥:电脑知识与技术,2008年6月,第1136-1138页.
[4]吴桐。基于机器学习的典型节气色彩特征识别研究[D],北京:北京邮电大学,2018年.