-
来源:互联网指北 2022年,当人们提起“AI画画”,第一反应不是Adobe Illustrator,而是Artificial Intelligence 上个月,当我在文章中提及AI绘画工具Disco Diffusion(下称DD)时,它还仅被我当做一个例证,用来证明AI从事创意性内容的局限,因为它直接用来生成人脸、动物还存在缺陷,需要人力加工。但AI绘画工具的迭代和升级,远超我的想象。DDv5.6新更新的portrait generator模组,就大幅提升人脸生成效果。虽然某些角度还是会有变形,或者看上去带有“玻尿酸感”,但是越来越像“人”了。 (文章配图均来自西乔的生成图,有额外标注和水印除外) 虽然在AI发展的时间线上,调教AI画画并不是一件新鲜事,早在2015年谷歌就推出过DeepDream,初试AI的“艺术创作能力”。但在2022年,以DD为代表的最新一批AI绘画工具的出圈,不仅源于技术层面的突破,更在于其生成图,所带来的视觉冲击。 人们愈发认真地,讨论AI绘画是否会对美术行业产生影响——即使它可能无法真正替代人类艺术家,但它目前所展现的生产力,已经足以有效地辅助人类创作,成为底稿、成为素材、成为灵感。 除了成为设计师、插画师的工具,AI绘画也向普通人铺开画布,无需美术基础,通过对照教程,编写描述词、调节参数,就能够用文字的想象交换图像成果。并且拥有一些“平易近人”的应用,比如和菜头拿它来画公众号的封面,两个月里封图来源已经从某某图库/版权,变成了“和菜头的小肉手”。 鉴于行业里已经有专业对口的文章科普技术原理,介绍各类AI绘画工具及使用教程。我更好奇的,是AI绘画正在给人们带来哪些变化,以及人们在变化中如何行动。 带着这些疑问我找到了西乔。她是一名设计师、漫画《神秘的程序员》的主创。今年5月起,她几乎全身心投入AI绘画的尝试中,除了每天跑图,也看论文、写科普。她对AI绘画抱以极大的期待,相信“AI对艺术及插画的冲击,等同另一次‘相机的发明’,艺术史又可以分册了。” 如果你想找到“AI绘画工具是什么”的答案,建议阅读更专业系统的文章,比如西乔公众号里的教程(神秘的程序员们:coderstory)。但如果你好奇AI绘画“和我有什么关系” “我能用它做什么” “它会带来什么”,不妨接着往下读。 中文网络中关于AI绘画的讨论,集中出现在今年4月。随美术圈、程序圈从业者的使用和交流,AI绘画工具DD逐渐被更多人知晓。这是一个GitHub开源项目,尚未封装,在谷歌Colab中以代码的形式呈现,其绘制过程,可以简单概括为输入关键词就能生成图像。相较于早前AI绘画的刻板风格,缺少整体美感以及完成度欠佳,DD在构图、色彩、氛围感等方面,都呈现很大突破。 与此同时,OpenAI结合扩散模型和CLIP在今年4月提出的DALL·E 2,DD作者Somnai所在公司推出的Midjourney等工具也开始进入人们的讨论和使用。设计师、插画师开始制作“从0开始学习AI绘画”教程,例如@JZ_打个比方在B站发布教学视频,@Simon_阿文在微博持续更新AI绘画资料,又或者人们在知乎讨论“像disco diffusion这类ai绘画会对美术行业产生什么样的影响?” 和大多数专业画师一样,西乔被AI绘画击中的原因,是因为“可能性”。这种“可能性”既可以像PS、3D辅助软件等工具带来的创作流程的变革,也能够在内容上带来的解放,“它能够帮助我去创造一些我之前不会,甚至不敢去创造的风格。” 但比起将AI视为“创作者”,西乔认为更合适的表述是,AI是她画布上的另一只手。有时可以“放手”,交给AI自己去跑,会带来很多意想不到的惊喜。例如在她《西藏往事》的系列作品中,AI在雪山顶上放了一个塔吊。 在Prompt (提词)设计和无尽头的参数分析机调整之外,还有另一种具有高可控性的玩法。当画师对于生成图的结果有预期目标时,可以通过设计底图、设置底图跳过步数(跳过步数越多,AI生成图越接近底图)进行人工引导。或取得生成过程中的中间步骤,对中间步骤进行修改后放回AI里继续生成。还可以根据同一提词,调整参数输出多组结果,在后期中人工选择更符合创作者预期的局部进行合成甚至重绘等形式进行二次创作。 两只手画画,正带给她创作的解放,探索学习新知识的乐趣、以及一种近乎于开盲盒的快乐,“晚上写好队列,等早上起来捡图,只是费点电,获得的快乐是一样的。”而且比起盲盒有限的选择,AI绘画能够完成的组合,理论上是无限大的。 有赖于专业的爱好者编译的中文资料、保姆式教程、封装的程序、支持中文描述词的AI绘画工具,AI绘画逐渐出现“出圈”的苗头,进入大众讨论语境。比如和菜头自今年5月以来,多次推文介绍AI绘画。 技术的向下兼容,让AI绘画为更多普通人打开绘画的可能性。毕竟绘画对于大多数人来说,要么是一扇从没有打开过的门,要么就是有着很高门槛。但通过AI,却能让一部分从没有试过画画的人,不需要依赖多年学习和经验积累,就能够去创造图像。 “人们创造图像的直觉是与生俱来的。你会发现很多人画画的巅峰其实是在小时候,随着他逐渐长大,接受越来越多已有的视觉绘制模式,后天的输入就把这种直觉覆盖了。” 当先天的图像创作直觉被现实规训后,“多数人试图去创作的,不是凭借直觉把脑子里的东西画出来,而是尽可能让自己画的东西符合现有的绘画,比如模仿照片、模仿别人的画,涂填色书,等慢慢发现自己在模仿上差距太远,就放弃画画这件事了。” 当“绘画”可以像“自拍”一样,能够用于分享,满足成就感时,AI绘画工具或许能帮助普通人找到被偷走的自由,享受到创作带来的快乐。为此,一些AI绘画平台也正在利用这一价值实现商业回报,例如提供将AI生成画印刷成挂画的服务,以供用户购买实物。 DD这类通过文字生成图像的AI绘画工具,绕不来一个叫“CLIP”的模型,它是AI如何“理解”人类语义这一问题的关键。CLIP (Contrastive Language–Image Pre-training),是一种基于对比的图片-文本学习的跨模态预训练模型,由OpenAI于去年1月发布。同一时间发布的,还有初代DALL·E图片生成模型。 DD正是运用CLIP来“理解”用户输入的文本,再使用扩散模型来生成图像。这一过程可以理解为:给AI输入文本关键词,它基于训练数据集的学习,从一堆噪点中把这个图像反推出来,通过不断进行文本与图像的匹配,检查搜索结果是否符合文字描述,进而逐步消除噪声,添加细节,最终生成图像。 “宇航员骑马”和“马骑宇航员”是解释AI理解语义的一个常用例子,AI有能力描绘前者,但由于后者的“反经验”,就不那么容易实现。 AI得以生成带有风格化的图像,也源自于数量庞大的训练数据集灌输的画家风格。以DD为例,prompt是影响生成图中一个重要的构成因素,包含作品媒介、描绘对象或主题、各种风格和质感的修饰词、参考艺术家等。 根据西乔的实验和理解,AI会提炼一个艺术家画作中特征,比如整体创作的主题和对象、笔触、肌理、明暗度、调色板等。其学习成果也受到画家部分作品知名度和主题多样性的影响,像是AI所理解的塞尚、雷诺阿这样的画家,其特征可能源于所有的作品,但如果一些画家有特别出名的作品,那么该幅画的特征权重也会相对较高。 例如,西乔使用DD生成一幅蓝色海洋风景画,将画家设定为卡斯帕·大卫·弗里德里希(Caspar David Friedrich),发现生成的多幅的作品都带有黑衣背影。她推断这一元素出自弗里德里希的《雾海旅人》。 (左为西乔的AI生成画,右为《雾海旅人》) 除了学习艺术作品、画家的国籍、文化背景也会影响AI的理解。例如使用中国艺术家画建筑,就会看起来很像中国风,使用画日漫的艺术家输出肖像画,人物大概率能是锥子脸,眼睛也比正常的大。 上图是基于同一张底图生成的肖像实验。除了参考艺术家之外,题词和参数都相同。左图参考艺术家为anime girl,右图参考艺术家是陈逸飞。 理解AI如何“思考”,从而调节描述词的编写方式和技巧,也是为了让AI更好地“理解”创作者意图。 (如何编写描述词,是教程的一大内容) 从目前行业已有的应用来看,AI绘画工具对于“绘画”的改变将会是系统性的——在创作过程中,作为生产工具提供新的技能点;成为艺术品的新变量,影响作品创作风格和价值;以NFT、拍卖画等形式,直接参与艺术品市场交易。 在AI绘画工具辅助创作的维度上,它可以被用于生成底图,画师以其为底稿,进行二次创作,或者直接用作远景贴图。 画师也可以通过简单的色块勾出底稿,交给AI生成“幻想生物”,作为灵感素材。 在AI绘画工具的介入下,工具链将可能面临重新整合,从AI生成的十几张结果中挑选,用作插画创作中的局部素材,再利用PS或其他的鼠绘工具进行调光、调色、边缘处理、纹理整合等。 另一方面,AI也正在成为影响艺术评价的新变量。 “艺术品的价值评判标准就是很主观的,而且这个评价也不是一成不变的。一个新的流派、新的媒介诞生之初,肯定是存在一个接受和过渡的时期。”人们对于AI绘画的评判,在当下必然是需要面临不少争议的。 但随着AI绘画的普及,人们是沿用已有的评价体系去看AI绘画,还是说会出现一套适用于AI画的评论标准,目前还难说。西乔认为,这可能会成为接下来几年里艺术史研究、艺术评论家的选题,学者会寻找到一套他的评价体系,大众也会选择自己的标准。 (对于AI生成图的两极化评价) 在她看来,尽管AI绘画工具正展现出不错的生产力,但就实际应用的场景,还是存在较大差异的。比如AI特别擅长产出场景概念图,这一特点会使它在游戏、动漫、设计等领域里有着不错的表现,用于辅助创作。但如果拿去做工业设计,生成产品或者设计服装,尚未展现出足够的应用能力。 此外,影响一项技术是否投入于商用,有两个需要考虑的内容,第一是否满足需求,第二衡量投入产出比。就目前而言,AI输出图片的尺寸还比较小,由于切片算法和模型的局限DD在生成宽边超过1280的图时,布局会很不理想。、MidJourney最大为(1664,1664)、DALL·E 2(1024,1024)。如果要做出一个能够被打印的尺寸,需要经过后期放大或者再生成。 至于AI生成画直接被用于售卖,已经有过行业先例。2018年一幅由巴黎艺术团体Obvious使用GAN(生成对抗网络)完成的肖像画拍出432500美元。 也有AI绘画平台及创作者将生成画铸造成NFT,但这笔买卖也面临很大的不确定性,比起想通过NFT赚得盆满钵满,AI挑战图库的生意,或许更为现实。 随着AI绘画工具的普及,部分功能也有着被挪用,造成负面影响的可能。例如通过添加“蒙版”可以对图像的部分内容进行重新绘制,将一张大象的背影更改为大象的正面照,或者在空无一物的茶几上,自然地放进一个苹果。 工具对所有人的想象开放,意味着它既可以被用来进行艺术创作和表达,也可能在别有用心的人的使用下,成为伪造图像,制造假新闻的“凶器”。 前车之鉴是能替换视频中视觉和音频内容的“Deepfakes”,被用于伪造名人色情视频、欺诈勒索、假新闻等内容,而遭限制使用。2019年,在国内一夜爆红的AI换脸应用“ZAO”,也受到用户隐私、信息安全等问题的质疑。 除却用户使用上造成可见的“垃圾内容”,在AI的图像学习过程中,也不可避免地吸纳了人类认知中对于性别、职业、种族的刻板印象和偏见,并潜移默化反映在AI绘画的生成结果中。 为应对上述可能存在的负面影响,AI绘画工具的开发者们所采取的,是以谨慎的开放、更长的内测期、调试图像描述词的过滤器等方式,加之控制。 由国内开发者设计的AI绘画工具Tiamat,向用户解释为什么内测周期较长时写道,“AI生成艺术是一个比较敏感,也是全新的领域,里面的不可控性,合规性,以及用户体验都需要我们多次迭代,包括其中的云端部署,模型调整等等,我们也很希望TIA尽早和大家相见,但客观上技术是不允许的。” OpenAI的订阅邮件显示,DALL·E在近期的更新中,“减少了对于人种的偏见,更准确地反映世界人口的多样性。”未来,还将根据用户的反馈和标记进一步优化。 至于开发者们对过滤器的调试,目前仍处在摸索阶段。从西乔的个人体验来看,她多次被过滤器“绊倒”。 (系统疑似把“悬崖边祈祷”判定为“消极内容”) AI绘画另一大被诟病的问题是“侵权的边界”,就目前而言这是一个灰色地带,且尚未有行业定论。 以DD为例,工具遵循MIT开源协议,理论上生成图可以免费商用。但在实际使用中也会存在,因为描述词使用造成的画风雷同,这就容易造成抄袭争议。此外,“如果你用别人的作品‘垫’成底图,再把skip开得很高,最终出来的结果,也是很难定义是否构成作品侵权。” 事实上,界定真人画手是否抄袭,是否构成侵权也存在种种复杂的争议,放到AI绘画的侵权问题上,或许也需要足够多的经验和案例,形成行业认知。 最后西乔也补充到,AI绘画也有面临“负反馈”的可能,即人们用AI绘画工具生成的图像,又进一步作用于AI的优化和训练中,“AI 模型可能会呈现类似放大器的效果,最后会是出现什么情况,大家现在是不知道的。” 西乔喜欢拿“相机”比喻AI绘画,“相机刚诞生的时候成像非常慢,暗房冲洗也很麻烦,设备的携带及使用都不便,成像效果也不一定好。”当时的肖像画画家们,对于拿相机拍摄人像,有很多的批评和嘲讽。 “但我们知道在几十年之后,画家几乎都会使用相机拍摄的照片作为绘画时的参考。因为一天内光线的变化非常快,你的模特也不太愿意在那儿坐上几个小时。” 不仅是肖像画、风景画,以照片为基础后期加工完成的数字绘画创作等,或多或少都因为相机应用,带来艺术形式变革。 而在社会层面,“照相”也从一种背靠特定阶级的特定生活方式,走进市民阶级,记录社会变迁和普通人的日常生活。这种技术力的解放和扩散,随今天智能手机发展尤盛,普通人以更低廉的成本,更便捷的使用,掌握相机的摄影摄像能力。 可以预见的是,AI绘画工具的技术迭代用不了像“相机”发展所需的几十上百年。除了上文提到的DD、DALL·E 2、Midjourney等工具,互联网大厂们也相继入局,谷歌的Imagen/Parti、Meta的Make a scene、微软的NUWA等等。国内的开发者们也致力于接壤全球AI艺术的浪潮,例如正在举办“千人共创-AI艺术创作大赛”的Tiamat。 人们对于AI绘画的使用和认知,时间尚短,其影响力目前还是更多的存在于艺术圈和程序圈。但在未来,AI绘画是否能像“相机”那样,跨越阶级、圈层,浸润进普通人生活,是一件引发足够遐想的事情。
2022年8月14日157 Views -
来源:腾讯研究院 作者:曹建峰 腾讯研究院高级研究员 摘要:当前,因“算法黑箱”而导致的人工智能系统的不透明与不可解释问题是人工智能信任与问责的一大困扰。在这样的背景下,国内外立法开始从权利、义务等不同角度对人工智能的可解释性进行规制,提出了算法解释权、算法说明义务等规则。但可解释性要求的有效落实仍面临着技术可行性、经济成本、法律规则和价值冲突、社会需求差异等多方面挑战。面向未来,人工智能可解释性要求的实现,需要法律、技术、市场、规范等多种力量共同发挥作用,侧重通过“算法说明书”、算法相关信息披露等方式增进算法透明、促进用户理解。 当前,人工智能应用的持续创新和广泛普及,主要得益于以深度学习为代表的机器学习技术的发展进步。机器学习技术使得人工智能系统可以自主进行感知、学习、决策和行动,但这些所谓的“学习算法”(Learning Algorithm)却为“黑箱问题”(Black Box Problem)所困扰。 虽然人们可以知晓一个算法模型的输入和输出,但在很多情况下却难以理解其运作过程。人工智能开发者设计了算法模型,但通常却不决定某个参数的权重以及某个结果是如何得出的。这意味着,即便开发者可能也难以理解他们所开发的人工智能系统。 对人工智能系统如何运作缺乏理解,是人工智能带来诸如安全、歧视、责任等新的法律、伦理问题的一个主要原因。作为“黑箱”的深度学习模型易于遭受对抗攻击,容易产生种族、性别、年龄等方面歧视,可能导致追责困难。在医疗、借贷、刑事司法等攸关个人重大权益的应用场景中,人工智能的不透明性尤其是有问题的。 因此,考虑到人工智能的不透明性和不可解释性,对人工智能进行适当的监管和治理显得尤为重要。 在实践中,人工智能的规模化应用推广,在很大程度上依赖于用户能否充分理解、合理信任并且有效管理人工智能这一新型伙伴。为此,确保人工智能产品、服务和系统具有透明性(Transparency)与可解释性(Explainability)是至关重要的。 实际上,各界已经将透明性和可解释性确立为人工智能研发应用的一个基本的指导性原则。 在伦理层面,欧盟发布的《可信人工智能的伦理指南》(Ethics Guidelines for Trustworthy AI)将可解释性作为可信人工智能的四个伦理原则这一,将透明性作为可信人工智能的七个关键要求之一。联合国发布的首个全球性人工智能伦理协议《人工智能伦理问题建议书》(Recommendation on the Ethics of Artificial Intelligence),提出了人工智能系统生命周期的所有行为者都应当遵循的十个原则,其中就包括“透明度和可解释性”。中国国家新一代人工智能治理专业委员会发布的《新一代人工智能伦理规范》针对人工智能提出了包括透明性和可解释性在内的多项伦理要求;中国国家互联网信息办公室等9个部门联合发布的《关于加强互联网信息服务算法综合治理的指导意见》将“透明可释”作为算法应用的基本原则,呼吁企业促进算法公开透明,做好算法结果解释。 在技术层面,自从2015年美国国防高级研究计划局(DARPA)提出可解释人工智能(Explainable AI,简称为XAI)研究项目以来,XAI已日渐成为人工智能领域的重要研究方向,研究人员和主流科技公司纷纷探索技术上的和管理上的解决方案,IEEE、ISO等国际标准制定组织则积极推动制定与XAI相关的技术标准。 在立法方面,无论是在中国,还是在美国、欧盟等其他国家和地区,人工智能都已进入了立法者和监管者的视野。个人信息、人工智能等方面的国内外立法尝试从权利、义务、责任等不同角度对人工智能的透明性和可解释性进行规制。 虽然可解释性要求已经成为人工智能监管的一个重要维度,但可解释性要求的有效落实依然面临着诸多困难和挑战。例如,可解释性要求的落实至少需要回答五个关键问题:向谁解释?为什么解释?何时解释?如何解释?解释的方法是什么?除了这些问题,人工智能系统的可解释性要求也面临着与个人隐私、模型安全、预测准确性、知识产权等诸多其他价值追求相平衡的问题。 本文旨在厘清这些问题,并从技术和产业发展的状况出发,为人工智能可解释性要求的法律规制之完善优化提出具体可行的思路。 人工智能 可解释性要求及其立法现状 (一)人工智能系统的可解释性及其价值 一般而言,解释(Explanation)是指“说明某事的含义、原因、理由等”。根据这一定义,人工智能系统的可解释性意味着通过提供关于决策和事件如何产生的信息,来促进利益相关者和AI系统之间的交互,但开发者、领域专家、终端用户、监管者等不同的利益相关者对于AI模型具有不同的解释需求。 联合国的《人工智能伦理问题建议书》将人工智能的可解释性界定为:“让人工智能系统的结果可以理解,并提供阐释说明”,也包括“各个算法模块的输入、输出和性能的可解释性及其如何促成系统结果”。美国国家标准与技术研究院(NIST)在其研究报告《可解释人工智能的四个原则》(Four Principles of Explainable Artificial Intelligence)中提出了可解释的AI系统的四个基本特征: (1)解释(Explanation),即AI系统对其决策过程和结果提供依据或理由; (2)有效性(Meaningful),即AI系统提供的解释对于目标受众而言是清晰易懂的; (3)解释准确性(Explanation Accuracy),即解释可以准确反映AI系统产生特定输出的原因,或者准确反映AI系统的运作过程; (4)知识局限性(Knowledge Limits),即AI系统只有在其设计条件下对其输出具有充分的信心时才可运行。 因此,AI系统的可解释性不仅关注AI系统的特定输出结果,而且关注AI系统的内在原理和运作过程;例如,负责信贷审批的AI系统需要向用户解释为什么拒绝发放贷款,推荐系统需要让用户理解基于用户的搜索历史、浏览记录、交易习惯等个人数据进行个性化推荐的基本原理。 在解释的分类上,业界一般区分事前解释(Ante-Hoc Explanation)和事后解释(Post-Hoc Explanation)。 事前解释一般指自解释模型(Self-Interpretable Model),是可以被人类直接查看和理解的算法模型,即模型自身就是解释。比较常见的自解释模型包括决策树、回归模型(包括逻辑回归)等。 事后解释通常是由其他软件工具或者人工方式生成的解释,旨在描述、说明特定算法模型如何运作或特定输出结果如何得出。对于具有“黑箱”属性的深度学习算法,通常只能诉诸事后解释。事后解释分为局部解释(Local Explanation)和全局解释(Global Explanation):局部解释聚焦于理解算法模型的特定输出结果,全局解释侧重于对算法模型整体的理解。 此外,英国信息专员办公室(ICO)在其发布的指南《解释人工智能的决策》(Explaining Decisions Made with AI)中区分基于过程的解释(Process-Based Explanation)和基于结果的解释(Outcome-Based Explanation),并从解释所涉内容的角度提出了解释的六个主要类型: (1)原理解释,即说明AI系统作出决策的理由; (2)责任解释,即AI系统开发、管理和运行过程中的参与人员,以及对决策进行人工审查的联系人员; (3)数据解释,即AI系统的决策使用了哪些数据以及是如何使用的; (4)公平性解释,即为确保决策的公平性和非歧视性而采取的步骤和措施; (5)安全和性能解释,即为确保AI系统的决策和行为的准确性、可靠性、安全性和稳健性而采取的步骤和措施; (6)影响解释,即为监测、评估AI系统的使用及其决策对个人和社会的影响而采取的步骤和措施。英国ICO的分类对于理解可解释性要求的具体解释内容具有较大参考意义。 人工智能的可解释性与透明度、责任、问责等概念密切相关。透明度意味着保障用户等相关对象对AI系统的知情,包括将在产品或服务中使用AI系统的事实告知用户,也包括给用户提供关于AI系统的适当的信息,在必要时甚至包括源代码、数据集等。因此,人工智能的可解释性与透明度息息相关;具体而言,增进透明度是人工智能的可解释性的一个主要目标,而可解释性则是实现人工智能的透明度的一个有效方式。此外,在很多时候,AI系统的可解释性要求主要是为了确保能够对AI系统进行问责并让相关行动者承担责任。因此可以说,AI系统的可解释性要求本身不是最终目的,而是实现诸如责任、问责等其他目的的手段和前提条件。 增进AI系统的可解释性具有多方面的价值: 第一,增强用户对AI系统的信任。用户信任是AI系统的可用性的一个重要条件。在现实中,用户对AI系统的不信任,往往源于用户不理解AI系统的内在决策过程,不知道AI系统如何作出决定。尤其是在诸如金融、医疗、司法等高风险的应用场景中,如果AI模型缺乏可解释性,就可能不被用户信任。DARPA的研究发现,相比于只提供决策结果的AI系统,用户更倾向于既提供决策结果又提供附带解释的AI系统。 第二,防范算法歧视,确保AI系统的公平性。增进AI系统的可解释性,有助于人们对AI系统进行审计或者审查,进而可以识别、减少、消除算法歧视。 第三,支持内部治理,帮助打造可信的、负责任的AI系统。开发者只有充分理解AI系统,才能及时发现、分析、修正缺陷,进而才有可能打造出更加可靠的AI系统。 第四,从人机协作的角度看,用户只有理解AI系统,才能更好地与之进行交互,在实现AI系统的预期目的的同时,帮助AI系统更好地进行改进和完善。 第五,解决人工智能造成损害的法律责任难题,对人工智能进行解释可以帮助探查因果,进而有助于实现法律责任的目的,包括实现法律责任的预防目的。正因如此,可解释性要求已经成为人工智能的法律规制的一个核心考量。 (二)人工智能可解释性要求的立法进展 全球来看,欧盟《一般数据保护条例》(GDPR)较早对人工智能算法的可解释性进行法律规制,主要体现在GDPR第22条。GDPR第22条重点规制产生法律效果或类似的重大效果(如影响信贷、就业机会、健康服务、教育机会等)的完全自动化决策(Solely Automated Decision-Making,即完全通过技术方式作出的决策,不存在人类参与)。 具体而言,对于完全自动化决策,一方面,数据主体的知情权和访问权至少涉及以下三个方面:(1)告知存在该项处理的事实;(2)提供关于内在逻辑的有意义的信息;(3)解释该项处理的重要性和预想的后果。 另一方面,数据主体有权请求人为干预,表达其观点并提出质疑;根据GDPR前言部分(Recitals)的内容,数据主体的权利甚至包括获得解释的权利和挑战该项决策的权利,即所谓的“算法解释权”。 中国对人工智能透明度和可解释性的法律规制,在很大程度上借鉴了欧盟GDPR的立法思路。 首先,根据中国《个人信息保护法》第7条规定的公平、透明原则,以及第44条赋予个人的知情权、决定权,AI系统在处理个人信息时需要对用户保持必要的透明度。 其次,该法第24条对基于个人信息的算法自动化决策作出了专门规定:一是,要求个人信息处理者保证算法自动化决策的透明度和结果公平、公正,此为透明度要求;二是,对于旨在进行个性化信息推荐的算法自动化决策应用,个人可以选择退出(Opt-Out),此为退出权;三是,对于对个人权益有重大影响的算法自动化决策,个人享有要求说明的权利和拒绝个人信息处理者仅通过自动化决策方式作出决定的权利,此为算法说明权。这些规定尤其是第24条的规定被认为是构成了中国版的算法解释权。 中国国家互联网信息办公室出台的《互联网信息服务算法推荐管理规定》则提出了算法解释义务,核心是对算法相关信息的公示义务和对算法决策结果的说明义务。具体而言: 一是,提供算法推荐服务需要遵循公平公正、公开透明等原则。 二是,算法推荐服务提供者需要制定并公开算法推荐服务相关规则。 三是,该法规鼓励算法推荐服务提供者优化检索、排序、选择、推送、展示等规则的透明度和可解释性。 四是,算法推荐服务提供者需要告知用户其提供算法推荐服务的情况,并公示算法推荐服务的基本原理、目的意图和主要运行机制等。 五是,算法推荐服务提供者需要向用户提供便捷的关闭算法推荐服务的选项。 六是,对于对用户权益造成重大影响的算法应用,算法推荐服务提供者需要提供说明并承担相应责任。 总结来看,中国对人工智能可解释性的法律规制主要有两个路径: 其一,一般性地给AI系统的开发者施加公开算法相关信息、优化算法可解释性等义务,从而促进用户对AI系统整体的理解; 其二,在个案意义上,对于给个人权益造成重大影响的算法决策结果,通过配置算法解释或说明的权利与义务来保障用户权益,并解决用户与开发者之间信息和权力不对称的问题。 但在实践中,这两种路径依然面临着一些问题,例如算法解释相关的权利与义务应适用于哪些AI系统?为了全局可解释的目的,AI系统的哪些信息需要对外提供以及应当以什么方式提供?如何确保解释的准确性和有效性?等等。 人工智能 可解释性规制面临的问题分析 首先,虽然立法可以对算法解释提出一般性要求,但可解释性要求的实现却并非易事,不仅面临因“算法黑箱”而带来的技术挑战,而且需要考虑诸多因素,下文将一一进行分析。 其一,对象。技术开发人员、终端用户、监管者等不同的利益相关者对算法解释的需求是有差异的。而且普通用户感兴趣或能理解的因素及其复杂程度,可能与专业的审查人员或法律调查人员需要的恰当信息存在很大不同。例如,普通用户可能想知道为什么AI系统作出了特定的决策,以便于能够有理由质疑AI系统的决策,如果用户认为决策是不公平的或错误的。专业人员则需要更全面的、更多技术细节的解释,以便于评估AI系统是否满足可靠、准确等方面的一般性要求或者监管要求。这意味着普通用户需要的往往是明白易懂的、非技术语言的解释,而非充斥着技术细节的详尽解释。不向普通用户提供详尽的解释可能有悖常理,但在实践中却是有益的。为了解释AI系统及其输出结果而给普通用户提供底层的数学公式,即便这可能是技术上最准确的解释,但普通用户却不大可能理解。普通用户也许只是希望确保AI系统的输入与输出是公平合理的,而非希望对背后的计算具有深层次的理解。因此,明白不同利益相关者的真正需求才是至关重要的,而不是采取一刀切的路径。 其二,应用场景。应用场景的不同也可能影响提供解释的时间与方式。并非所有的应用场景都需要对AI算法模型及其决策结果做出事无巨细的解释,这取决于AI算法决策是否对受众的合法权益产生实质性的影响。例如,对于在餐厅分配位置或自动整理手机相册的算法,与审批贷款或辅助判刑的算法,就需要区别对待。如果一刀切地要求提供详尽的解释,缺乏合理性和必要性。所以欧盟的人工智能法草案按照应用场景的不同将AI系统分为高风险、有限风险和最小风险,并只针对高风险AI系统提出了算法解释义务。 其三,时间与地点。从目前的技术来看,要求AI面向全部应用场景,实时地、大规模地提供解释颇具挑战性且难以实现。行业中的可解释AI实践更多聚焦于不同应用场景下的事后解释。 其四,解释的关联性或者说解释的目的。为什么需要进行解释?AI系统的目的与应用场景至关重要。相比于执行影响较小的任务的AI系统(如推荐电影的AI系统),AI系统被用来进行影响人身安全或财产安全的决策时(如医疗诊断、司法审判、金融借贷等),需要更多的投入与深度的解释。 其五,技术与经济可行性。一些先进的、复杂的AI系统在向人类解释其运作时可能存在技术限制。在经济可行性上,也需要考虑成本维度,大规模地提供解释所需成本与投入也需要考虑在内,以避免不合理的细节或严格的要求阻碍有价值AI系统的部署。尽管投入足够的时间、精力、专业知识与正确的工具,通常可以知晓复杂AI系统是如何运作的,理解AI系统的行为背后的原因,但如果在实践中不加区分地要求解释,不仅在规模应用上欠缺经济可行性,而且可能适得其反地阻碍具有巨大价值的(例如拯救生命)AI系统的应用部署。因为解释的成本十分高昂,所投入的技术资源也更加巨大。如果采取一个极高的标准,要求AI系统的每一个结果都做到完全可追溯并提供详尽的解释,那么这在实践中可能极大地将AI系统限制在最基本的技术(如静态的决策树)。这最终会极大地限制人工智能的社会与经济效益。比如,一个医疗算法,如果每次诊断结果都要求提供详尽的解释,可能这个算法永远无法投入使用,产生价值。因为每次输出一个决策,可能得花费数天时间来提供解释。 其次,需要考虑可解释性要求与效率、准确性、安全、隐私、网络安全、商业秘密、知识产权等其他重要目的之间的平衡问题。一些形式的透明性和可解释性看似有吸引力,但却可能带来相当严重的风险,而且对于增进责任与打造信任几乎无甚助益。例如,披露源代码或单个用户的数据,无助于理解AI系统如何运行以及它为何做出特定决策,但却可能让AI系统被滥用或操纵,给用户隐私与商业秘密带来显著风险。 实际上,分享、开放源代码是最低端、最无效的算法透明与解释方式;因为AI系统太过复杂,即使技术专家也无法测量。所以开放源代码无助于普通用户理解AI系统。此外,算法不是越透明越好,例如,把算法变得简单,可以增加可解释性,同时却可能让算法更不准确。这是因为AI模型的预测准确性和可解释性之间存在着天然的紧张关系。实际上,在可解释与准确性之间,如果AI应用对性能要求不那么高,则可解释性可以超过准确性;如果安全是优先的,则可解释性可以让位于准确性,只要存在能够确保问责的保障措施即可。 正如联合国《人工智能伦理问题建议书》所指出的那样,公平、安全、可解释性这些原则本身是可取的,但在任何情况下这些原则之间都可能会产生矛盾,需要根据具体情况进行评估,以管控潜在的矛盾,同时考虑到相称性原则并尊重个人权利等。 人工智能 可解释性规制的未来进路 从以上分析可知,对人工智能系统进行解释是一件非常复杂的事情,而且中国现行立法还远未形成一个统一的规制路径。无论解释的出发点是权利,还是义务,抑或是责任,都尚未确立清晰明确的规则。面向未来,对人工智能的透明度和可解释性进行规制,需要法律、技术、市场、规范等多种力量共同发挥作用。 (一)立法宜遵循基于风险的分级分类分场景监管思路 常识告诉我们,技术应用不可能完美无缺、永不错误,那种认为技术应用应当符合绝对性要求的观点是偏颇的、误导性的。在这个意义上,新技术治理应当是风险导向的,不是为了彻底消除风险,而是对风险进行有效管理。因此,立法不宜采取过度严苛的监管要求,避免在透明度与可解释性方面对AI算法应用提出“一刀切”(One-Size-Fits-All)的要求,也不宜简单粗暴要求公开算法的源代码等技术细节;而是需要采取包容审慎的立场,建立分级分类分场景的监管方式,支持AI算法应用不断创新和发展,兼顾政府、科技企业以及社会公众的整体利益,在鼓励科技创新、追求科技向善、维护社会公共利益之间找到平衡点。 具体而言,在人工智能可解释性要求的实现方式上,首先,披露AI算法模型的源代码是无效的方式,不仅无助于对AI算法模型的理解,反倒可能威胁数据隐私、商业秘密以及技术安全;其次,不宜不加区分应用场景与时空场合地要求对所有的算法决策结果进行解释或说明;再次,侧重应用过程中的披露义务,部署AI系统的主体对于任何披露与记录要求负有责任,需要披露AI系统实质性参与决策或与人类互动的事实,披露应当以清晰易懂、有意义的方式提供关于AI参与的关键任务的模式;最后,避免强制要求披露用来训练AI模型的数据集,这不仅不具有可操作性,而且容易与版权保护冲突,侵犯用户的数据隐私或违反合同义务。 此外,法律对AI系统的可解释性要求应侧重满足终端用户的需求。到目前为止,AI系统的可解释性主要服务于AI开发人员和监管者的需求,例如帮助开发人员排查漏洞并改进AI系统,帮助监管者对AI应用进行监管。而非让终端用户可以理解AI系统。2020年的一项研究发现,企业部署可解释人工智能更多是为了支持工程开发等内部目的,而非增强用户或其他的外部利益相关者的透明度和信任。因此,为了促进用户对AI系统的理解,一种可行的思路是,借鉴食品营养成分表、产品说明书、药品或医疗器械的使用说明、风险告知等既有的信息披露机制,针对符合条件的AI系统建立“算法说明书”机制。欧盟的人工智能立法采取了类似的思路,欧盟人工智能法草案遵循分类监管的思路,针对高风险的AI系统提出了较高的透明度和信息提供要求,即开发者应确保高风险AI系统的运作足够透明,向用户提供使用说明(Instructions of Use)等信息,并披露系统开发者的基本信息、高风险系统的性能特征、监督措施以及维护措施等信息。 (二)探索建立合理适度的、适应不同行业与应用场景的人工智能可解释性标准 法律治理固然重要,但可解释人工智能的实现也离不开技术人员和技术社群的直接参与。到目前为止,XAI已经成为人工智能领域最重要的发展方向之一,但正如美国DARPA关于XAI的回顾报告所发现的那样,XAI的进展仍十分有限,面临着诸多难题和挑战。当前最重要的是建立人工智能可解释性的技术标准。在这方面,首先需要明确的一个关键问题是,人工智能的评价标准不应是“完美级”(Perfection),而应在与既有流程或人类决策对比的基础上,界定评价AI系统的最低可接受标准。所以即使AI系统需要解释,也必须考虑可解释的程度。因为要求AI系统满足可解释性的“黄金标准”(远远超过既有的非AI模式即人类决策所要求的),可能不当地阻碍AI技术的创新性使用。因此需要采取折中路径,考虑技术限制与不同可解释标准需要的利益权衡,以便平衡使用复杂AI系统带来的好处与不同的可解释性标准带来的实践限制。笔者认为,用户友好型的解释应当是准确的、清晰的、明确的、有效的,且考虑不同应用场景的需求,以提高对AI系统的整体理解:解释是否准确传递了支撑AI系统的推荐的关键信息(Key Information)?解释是否有助于对AI系统整体功能的理解?解释是否清晰(Clear)、明确(Specific)、相关(Relatable)、可执行(Actionable)?解释是否适当考虑了敏感性(Sensitivity)?例如用户的敏感信息。 具体可以从以下方面来推进AI可解释性标准: 第一,针对AI系统的每一个应用场景都提供可解释性标准的指南,是不现实的,但可以针对一些示范性的应用场景提供可解释标准的指南。这能够给行业和企业提供有益参考,来平衡不同AI模型的性能与不同标准的可解释性要求。 第二,对于政策相关方而言,发布AI可解释的最佳实践做法案例集,以及具有负面影响的负面做法,都是值得尝试的。包括用以提供解释的有效的用户界面,以及面向专家和审计人员的记录机制(例如详细的性能特征、潜在用途、系统局限性等)。 第三,可以创建一个说明不同级别的可解释性的图谱。这个图谱可被用来给不同行业与应用场景提供最小可接受的衡量标准。例如,如果某个失误的潜在不利影响是非常微小的,那么可解释性则不怎么重要。相反,如果某个失误是危及生命财产安全的,则可解释性变得至关重要。类似地,如果用户可以容易地摆脱算法自动化决策的约束,则对深入理解AI系统的需求就不那么旺盛。 (三)支持行业自律,发挥市场的力量来促进可解释性人工智能的发展 根据美国科技行业的经验,可解释人工智能的工作应主要由企业与行业主导而非由政府强制监管,采取自愿性机制而非强制性认证。因为市场力量会激励可解释性与可复制性,会驱动可解释人工智能的发展进步。 一方面,从市场竞争的角度看,为了获得竞争优势,企业会主动提高其AI系统、产品与服务的可解释程度,从而让更多人愿意采纳或使用其人工智能应用,进而维持自身的市场竞争力; 另一方面,从用户的角度看,用户会用脚投票,即如果用户不理解AI系统的运作,在使用AI系统、产品与服务时可能存在顾虑,这意味着可解释性不足、难以被用户理解的AI系统、产品与服务将无法获得用户的持久信任,因而用户对此类AI应用的需求也会降低。 就目前而言,主流科技公司纷纷重视AI的可解释性研究与应用,已在积极探索人工智能可解释性的实现方式。 例如,谷歌的模型卡片机制(Model Cards),旨在以通俗、简明、易懂的方式让人们看懂并理解算法的运作过程,对模型的输入、输出、模型架构、性能、局限性等进行描述。 IBM的AI事实清单机制(AI Fact Sheets),旨在提供与AI模型或服务的创建和部署有关的信息,包括目的、预期用途、训练数据、模型信息、输入和输出、性能指标、偏见、鲁棒性、领域转移、最佳条件、不良条件、解释、联系信息等。面向未来,应着重通过最佳实践做法、技术指南、自律公约等行业自律措施来支持可解释人工智能的发展。 (四)替代性机制和伦理规范作为对可解释性要求的有益补充 虽然可解释性是完善AI技术的最优解之一,但并非所有的AI系统及其决策都可以解释,或者都需要解释。当AI系统过于复杂,导致难以满足可解释性要求,或是导致解释机制失灵、效果不乐观时,就要积极转变规制的思路,探索更多元化、实用化的技术路径。 目前在技术上主张的是采取适当的替代性机制,如第三方反馈、申诉机制与人类审查介入、常规监测、审计(Auditing)等,这些替代性机制可以对AI算法的决策起到监督和保障作用。 例如,第三方标记反馈机制允许人们针对AI系统提供使用上的反馈,常见的标记反馈技术包括用户反馈渠道(“点击反馈”按钮)、漏洞奖励机制等。 用户申诉机制能够对AI系统及其开发者形成有效监督,也是实现AI可责性的重要保障。中国的《信息安全技术个人信息安全规范》《网络安全标准实践指南》等标准都对用户的投诉、质疑、反馈以及人工复核等机制作出了具体规定。 常规监测包括严格且持续的测试、对抗测试等,旨在发现系统中的问题并及时改进。 审计机制作为确保AI可责性的重要方式,是对AI算法应用情况的记录、回溯和追查,通过算法审计可以达到反向解释的作用,降低算法黑箱的不良影响。 此外,考虑到监管的滞后性和技术的持续迭代性,伦理原则、伦理指南、伦理审查委员会等伦理规范和落地制度将能发挥更大价值,即使对于不具有可解释性的人工智能应用,也能确保企业以可信的、负责任的方式予以部署、使用。 结语 人工智能的透明性和可解释性,连同公平性评价、安全考虑、人类AI协作、责任框架等,都是人工智能领域的基本问题。随着人工智能监管的持续加强,立法对人工智能系统的透明性和可解释性规制也将走向深入。 一个首要的问题是,监管者在针对人工智能系统设计透明性和可解释性要求时,需要考虑他们想要实现什么目标,以及在特定情境下如何更好地匹配这些目标。因为透明性和可解释性本身不是目的,而是增进责任与问责,赋能用户,打造信任与信心的方式和手段。 将来立法在设定可解释性要求与标准时,不仅需要考虑受众需求、应用场景、技术与经济可行性、时空等因素,而且需要考虑可操作性、务实性,同时还需要注重做好与效率、准确性、安全、隐私、网络安全、知识产权保护等目的之间的平衡。很难遵从或者遵从成本很高的可解释标准会阻碍AI系统的应用。如果在所有的情形下都要求最详尽的解释,而不考虑实际的需求,则可能会阻碍创新,也会给企业及社会带来高昂的经济成本。 所以,适当的可解释性标准不应超过合理且必要的限度。举例而言,社会不会要求航空公司向乘客解释为什么飞机采取了算法决定的航线。类似地,一个相似的务实性、情境特定的路径应适用于AI系统的可解释性标准要求。就像取得驾照,相信汽车可以安全驾驶,并不需要人人都成为专业的汽车工程师一样,当使用AI系统时,解释并不总是必须的。 最后,“算法说明书”在增进算法透明、促进用户对算法的理解上的价值,值得进一步探讨论证。 本文原稿载于《月旦民商法杂志》第76期(2022年6月号)
2022年8月14日155 Views -
来源:苇草智酷 作者 | 赵嘉敏 东西文库创始人、译言网联合创始人 编者按:通过我们对人机交互、人机混合智能、深度态势感知、计算与算计的理论起源、发展过程、未来展望思考,并结合相关国内外研究现状,提出一些较深入思考后的观点,并认为解决未来人工智能问题的前途在于人机环境系统智能的发展。 2022年7月2日,智酷No.153(总265期)苇草智酷邀请到北京邮电大学人工智能学院研究员刘伟老师分享“人计与机算——为什么AI距离智能越来越远?”,东西文库创始人赵嘉敏、数字经济学家刘志毅两位老师参与点评。以下根据赵嘉敏发言内容整理而成。 刘伟教授讲的主题围绕智能,特别是人的智能、机器的智能,以及跟环境的融合。从技术哲学角度来看,智能本质上是对环境的适应能力。 我们都知道,对环境的适应有生物意义上的适应,即自然选择、基因的遗传和变异。智能既是生物意义上适应的结果——因为大脑就是自然演化的产物,同时又超越了生物意义上的适应。但它仍然是一种对环境的适应能力。我们都知道有一个概念叫“文化基因”,是跟“生物基因”相类比,它也是通过模仿、传承、创新(以及环境的选择)来进行演化。 从这个角度讲,我们并不认为有最高级的智能。我们更强调不同的智能。比如:松鼠记忆藏松子的地点,鸽子的导航能力,这都是为了适应环境发展出的不同智能。 那为什么我们会认为人的智能是最高级的或者人的智能会站在所有智能的舞台中心?因为人的智能能适应更复杂的环境变化,而且对环境的改变也是巨大的。这可以看作是一种适应力的盈余。当人类改变环境的速度超过了环境对人类的改变,这时候人类就经历了第一个 “技术奇点”。在这个技术奇点之后,人类就站在了历史舞台的中央。 但这个过程持续下来,我们可能就面临第二个奇点,就是环境变化的速度又一次超过了我们能够适应环境的速度。为什么会这样?因为我们所创造出来的技术也构成了我们的环境。我们创造技术的速度越快,环境改变的速度也越快。更重要的是,机器参与了环境的改变。今天我们一直在谈论机器智能。机器本身也具有了适应环境和改变环境的能力,特别是数字环境。 所以,会面临第二个技术奇点恰恰是因为计算机技术、数字技术的发展,造成了环境的变化速度大大加快。在这种情况下,人的智能和机器智能的融合是适应环境变化的必然需求。 最后引用贝尔纳·斯蒂格勒的一句话:“人性是技术的发明”。我觉得这大概是技术哲学里的最高要义,是迄今为止我们对人性和技术的一个最深刻的总结。我就点评这些,谢谢大家。
2022年8月14日130 Views -
新瓶与旧酒,虚拟偶像六十年。 对二次元不甚了解的中年少女王明月,没想到有一天自己会对ACE虚拟歌姬感兴趣。 “我以前只听说过洛天依,还是在十年前,印象里只有刺耳的电子音。” 然而今年,一首《梦华录》的二创歌曲帮她打开了新世界的大门。 “一开始我还以为是UP主自己唱的,没想到竟然是AI合成的歌声,那一瞬间太震撼了,感觉自己被时代抛在了后面。” 有这样感受的并不只有王明月。 在B站洛天依演唱的《贝加尔湖畔》视频评论区,一位叫“明道大叔913”的网友起初也误以为这是真人演唱,盛赞洛天依“在未完全转化为成年声音的少年大童当中,这个高音MI可以不掺假声,直接真声上的,非常少,一千万人中也未必有一个,超欣赏,这个声音肯定被上帝吻过。” 在被粉丝提醒后,他才知道这是AI合成的声音,忍不住感叹自己“涨了姿势”。 洛天依诞生的这十年,正是数字技术高速发展时期。 语音合成引擎百花齐放,最初的开拓者——VOCALOID受限于技术因素,渐成时代的眼泪,2022年5月5日,洛天依官方“Vsinger”发布通告,放弃VOCALOID引擎,改使用由时域科技研发的ACE引擎。 相对于自由度较高的VOCALOID引擎,操作简单易入门的ACE虚拟歌姬,由于高度贴合人声,听觉体验极好,被圈内人戏称为“V8双涡轮增压自行车”。 除此之外,3D建模、合成显示技术、感知识别技术、分析决策技术的进步,也为虚拟偶像打破次元壁,从二次元走向三次元奠定了坚实的技术基础。 iiMedia Research(艾媒咨询)的数据显示,2020年中国虚拟偶像核心市场规模为34.6亿元,预计2022年将达到120.8亿元;2020年虚拟偶像带动周边市场规模为645.6亿元,预计2022年为1866.1亿元,破圈效应渐显。 当青年亚文化进入大众视野,不可避免会让从未接触过这些的人感到困惑,发出类似“到底是多空虚才会将情感寄托在虚拟的东西上”的质疑,或是“这和动画有什么区别”之类的不解。 要回答清楚这些问题,还需要我们回顾虚拟偶像的发展史,读懂它的前世今生。 1958-1999:虚拟偶像初萌芽 恢弘的商业史诗,早在1958年便已开始谱写。 美国音乐制作人罗斯·巴格达萨里安就利用动画和调音技术,创造出了虚拟乐队:艾尔文与花栗鼠,由三只声音尖尖的拟人化小鼠组成,出道便惊艳美国,首张专辑七周内销量突破450万张,创下了历史纪录。 1961年,贝尔实验室的三位工程师放飞想象力,他们让第二代晶体管计算机——IBM7094模拟人声,开口演唱了“Daisy Bell”,为后来日本YAMAHA打造VOCALOID引擎开启了技术先河。 欧美国家积极打造虚拟乐队,但虚拟偶像的概念却是由日本在1990年正式提出。 1982年,日本动画《超时空要塞》爆火,女主角林明美以一曲《可曾记得爱》唤醒了杰特拉帝人的人性,使得大量敌军在战场叛变,人类最终获得胜利。凭借着在动画片中积累的超高人气,制作公司顺势以她的名义推出专辑,成功登上音乐排行榜Oricon,林明美成为了第一位虚拟偶像。 游戏产业的发展也为虚拟偶像添了一把火。1994年5月,日本科乐美公司发售《心跳回忆》,这是世界上第一款面向全年龄的恋爱养成游戏,玩家可以在游戏中学习、参加社团、恋爱、约会,真实体验三年的高中生活。可攻略的女性角色有十三位之多,场景丰富,剧情支线共有一千多种,可玩性极高,成为了游戏史上的里程碑作品。 游戏的互动性和成长性也让玩家对游戏中的虚拟角色产生了真切的感情,科乐美公司顺势将头号女主角藤崎诗织打造成为偶像,为她设立官方后援会,发行多张专辑,圈粉无数。 随着科技发展,1996年,艺人经纪公司Horipro为了纪念公司创立35周年,联合株式会社Visual Science研究所,斥资数十万美元,由50名研究人员共同参与,利用CG技术开发虚拟偶像伊达杏子,成为如今的超写实虚拟人的鼻祖,但因技术和IP热度,伊达杏子未能大获成功。 这一时期的虚拟偶像其实和配音动画并无太大区别,制作依赖手绘,声源依赖声优,粉丝只能购买虚拟人物的专辑和周边表达对他们的支持和喜爱,无法和他们互动,但这一大胆尝试具有历史意义。 2000-2016 初音未来开启虚拟偶像之门 时间来到2000年,日本公司YAMAHA着手开发电子歌声合成软件VOLCALOID(圈内俗称V家),并在2003年3月5日在德国法兰克福乐器展上公开,创作者可以通过输入原创的词曲,由VOCALOID直接演唱出来,通俗来说,VOCALOID更像是一把电子乐器。 2007年,Crypton Future Media以VOCALOID2引擎为基础,采用了声优藤田咲的音源数据资料,开发音源库,并为它设计了一个可爱的双马尾少女形象,命名为初音未来,作为虚拟偶像正式推向市场! 而她一出道就风靡全球,成为第一个用全息投影技术举办演唱会的虚拟偶像,俘获6亿粉丝,代言过上百家品牌,甚至还拥有了全球粉丝节“初音日”(3月9日)。 据日本经济新闻报道,初音未来在2007-2012年,带动了超过100亿日元(约合人民币6.32亿元)的消费市场,到2017年,仅仅一年就创造了100 亿日元的市场,展现出巨大的商业价值,是当之无愧的国际巨星。 五年后,上海禾念信息科技有限公司基于VOCALOID3引擎,开发出第一位中文虚拟偶像洛天依,并成功复制了初音未来的运营模式,帮助洛天依积累大量粉丝,仅新浪官方微博账号就有532.1万人关注。洛天依先后与郎朗、李宇春、薛之谦同台演出,并在2021年正式登上春晚舞台。 今年5月1日,这位虚拟偶像首次跨界直播带货,淘宝直播间在线观看人数一度高达270万之多,近200万用户打赏互动。有资料显示,洛天依直播带货坑位费高达90万元,甚至超过头部主播李佳琦,商业价值不输真人偶像。 除洛天依之外,国内运营商还推出过第一个男性虚拟偶像荷兹、基于动画IP《秦时明月》的高月公主和基于网文IP《全职高手》的叶修,虚拟偶像赛道,新秀不断,但是无人能够超过洛天依。 洛天依的超高人气自然让不少圈外人感到困惑,不理解为何会有人将情感寄托于虚拟形象上。 传统的真人偶像,人设和制作由经纪公司包装决定,推向市场,粉丝在其中只扮演了两种角色:一是消费者,为偶像打投,购买唱片,做数据冲榜,提升偶像商业价值,二是传播者,剪辑、创作和传播偶像的影视作品,他们无法去定义和创造偶像。 而和真人偶像不同,虚拟偶像“洛天依”们的成功之处在于独特的交互性和成长性。虚拟偶像的粉丝不仅是消费者、传播者,同时还是内容的创作者。 基于VOCALOID引擎的虚拟偶像本身并无交互能力,VOCALOID将采集到的语言分解为音素,而用户根据检索的音素,按照节奏、旋律重新排列,创作新的乐曲。 当自称“锦衣卫”的粉丝们,化身P主(使用歌姬调校乐曲的人),利用VOCALOID和MMD技术为洛天依创作歌曲时,既表达了自己对洛天依的喜爱,也在重新丰富洛天依这个IP,创造出符合自己欲望的梦幻偶像。 在B站,关于洛天依的原创和翻唱作品数以万计,而让洛天依火出圈的歌曲《普通Disco》、《达拉崩吧》、《勾指起誓》均为一位叫ilem的P主原创,每首单曲都达到千万播放量,成为了传说级作品,ilem也被锦衣卫们尊称为“教主”。因偶像聚集在一起的粉丝获得了在群体中的归属感和认同感,同时也获得了陪伴偶像一路成长的成就感。 一部洛天依成长史,也是背后无数粉丝共同书写的创作史。 可以看出,虚拟偶像的生态和传统真人偶像生态截然不同,这是一个由代表虚拟偶像的运营商、P主和粉丝三方共创的内容生态,只要粉丝们热情尚存,和官方共建优质内容,以二次传播扩大声量,那么虚拟偶像的IP价值将会不断提升,版权开发和应用场景也会得到持续拓展。 2016年至今:虚拟主播兴起,打破次元壁 从技术层面上来看,像洛天依这样的虚拟偶像属于AI驱动型数字人,完全依托数字技术,通过深度学习,拥有真实人类的动作、表情、语言,与人类进行互动,类似于没有物理外壳的机器人。 2022年7月12日,洛天依出道十周年纪念活动上,首次通过AI发声,开口说出:“唱出你心中的歌,我是虚拟歌手洛天依。” 对于虚拟偶像来说,这是技术革命的历史性一刻,标志着AI驱动的虚拟偶像在交互性能上又往前迈进了一步。 但不得不承认,由AI驱动的虚拟偶像目前在真实性和互动性上依然受限,AI驱动的虚拟偶像无法拥有人类的灵魂。 2016年12月1日,世界上首个虚拟主播——绊爱横空出世,她在Youtuber开设了自己的频道“A.I.Channel”,并提出了虚拟主播(Vtuber)的概念。 在技术层面上,她属于真人驱动型虚拟数字人,采用的是“CG建模+真人动作捕捉”技术,由此也延伸出了“中之人”的概念,即穿戴着动作捕捉设备的幕后演员。 元气可爱的虚拟形象、治愈的内容、互动感极强的沉浸体验,让绊爱出道大获成功,人气一路攀升,仅4个月便收获超40万关注,并于2018年2月23日达成频道100万订阅,成为了Youtube平台最早突破百万订阅的虚拟主播! 2022年2月26日,这位初代虚拟主播举行线上演唱会“Hello World 2022”,获得了36.26万元营收以及B站高达1065万的人气值。 绊爱的吸金能力让后来者看到了机会:一方面由于动捕、实时渲染相关设备价格降低,打造Vtuber的成本也随之下降;另一方面,和需要持续深耕的虚拟偶像IP不同,虚拟主播互动性强,生产周期短、用户粘性高,更容易变现。 2018年10月30日,B站宣布与GREE公司共同成立新公司,主营游戏研发发行和Vtuber业务。 据了解,在B站成为一个虚拟主播(VUP),需要准备好皮套,即形象立绘和Live2D模型,立绘价格在500元-1000元不等,建模价格在800元-3000元左右,再加上UI设计和直播设备,成本可以控制在两万元以内,即便是一个不懂绘画的二次元爱好者也同样可以借助现有技术成为一个虚拟主播。 网络直播模糊了虚拟偶像和虚拟主播之间的界限,而直播的商业前景与关联元宇宙的技术也吸引着大厂纷纷入局,不遗余力造星。 乐华娱乐和字节跳动于2020年11月23日推出了A-SOUL虚拟偶像女团,不到一年时间内就收获了上百万粉丝。2021年贝拉生日会直播,总弹幕量接近22万,观看人数超过5万,礼物收入总计超过174万,刷新B站直播多项数据,成为了B站有史以来第二位突破万舰的UP主。 与此同时,各大制作公司也将目光投向短视频平台,开始制造虚拟网红。 2020年5月,由魔珐科技和次世文化共同打造的超写实虚拟人翎-Ling出道,成为中国首位虚拟博主。 2021年10月31日,虚拟美妆博主柳夜熙凭借万圣节捉鬼视频在抖音爆红,获赞量达到了360万,涨粉量上百万。超写实风格,堪比影视特效的技术,充满故事感的氛围,打破了次元壁,让观众有一种被拉入科幻世界的沉浸感。 和受众局限于二次元领域的虚拟偶像不同,柳夜熙这样的虚拟博主依托CGI技术,拥有超写实面容,出道即破圈,让虚拟人走入了大众视野。 至此,虚拟偶像的概念已不仅仅局限于虚拟歌姬,而是泛指从事文娱工作的演艺型虚拟数字人,包括了以唱跳为主业的虚拟偶像、以陪伴为主业的虚拟主播、以短视频为主要活跃平台的虚拟网红。 虚拟偶像困境:AI向左,“中之人”向右 目前,虚拟偶像市场依旧是一片蓝海,商业潜力巨大,但也充满挑战。 从技术层面看,以数字技术驱动的虚拟偶像,技术门槛高,需要攻克语音合成、感知识别、分析决策的技术难点,通过深度学习模仿人类,和人类自然交互,依赖持续大量的资金研发投入。 而以真人驱动的虚拟偶像,同样造价不菲。 有接近A-SOUL项目的投资人曾透露,A-SOUL的日常直播是用电影《阿凡达》同类型光学动捕棚来做的,一个摄像头价格数十万,一个棚根据精度需求可能有数十个这样的摄像头。这与一般主播日常直播的成本可能差了不止一个0。 瑞银报告也指出,高级虚拟人物的先期投入成本平均为3000万元。A-SOUL的单曲制作成本约200万元,一场线下演唱会成本约2000万元。 除此之外,真人驱动的虚拟偶像也并非如宣传所说的“没有塌房危险”。 文娱产业,人是最大的不确定性因素。为虚拟偶像打造人设的运营团队、与虚拟偶像深度绑定的“中之人”同样可能让纸片人翻车。 就以初代虚拟主播绊爱为例,她大获成功后,因缺乏内容创新能力,人气下滑。企划运营公司Active8没有意识到中之人是虚拟偶像的灵魂,为了提升效率,又在原有的“中之人”基础上,为绊爱增加了三位“中之人”,由四位幕后演员共同塑造绊爱这一人设,导致粉丝不满,大规模取关,最终绊爱只能选择无限期休眠。 五月份A-SOUL虚拟偶像曝出团队“中之人”工资待遇低、工作强度高问题,引起粉丝不满,并迅速发酵成愤怒情绪。为“中之人”抱不平的粉丝们质问乐华娱乐,并给字节跳动的APP刷低分以示抗议,“塌房”来得猝不及防。 像柳夜熙、翎-Ling这样的虚拟网红,试图以种草、带货、代言品牌变现,但是当虚拟人说出“口红滋润不拔干”时,测评体验的真实性却又无法让用户信服。 大厂打造的超写实虚拟偶像,在一段时间内满足了大众猎奇心理,吸睛无数,收获巨大流量。但随着时间推移,大众对虚拟人概念习以为常后,如何不断制造钩子,留住用户,让他们对不吝巨资打造的虚拟偶像依旧满怀热情呢?这考验虚拟偶像运营商们的内容创作能力。 如此多问题悬而未决,或许也正说明了虚拟偶像的未来依然充满想象。 毕竟,回首十年前,当洛天依被推上历史的舞台,那时的人们又怎会想到,在2022年的今天,她已拥有了被上帝吻过的声音。 (王明月为化名。)
2022年8月14日221 Views