本文是一篇新闻媒体论文,本文即以新技术催生的新兴职业——人工智能数据标注师为研究对象,主要采用网络民族志方法、深度访谈法、田野调查法,探究全日制用工形式下的人工智能数据标注师在“劳动入场”、“劳动在场”中的控制方式与数据训练中的人机耦合机制,以描摹这一群体在当下数字化与智能时代营求生计的劳动境况。
绪论
第一节研究背景与意义
一、研究背景
近年来,人工智能作为中国发展数字经济的一个重要引擎,业已在不断的技术变革中被赋予着新的角色和使命。人工智能的迭代是在中国国家政策支持、企业创新、社会应用等一系列在地化的转变中朝向更加适应现代化需求的方向演进的。根据中国信息通信研究院编写的《人工智能白皮书(2022)》,人工智能在追求创新方面不断取得重要突破,一直以来,算法、算力和数据被认为是人工智能发展的三驾马车1。深度学习作为人工智能的代表,在数据层面需要大量的标注数据,于是这种需求催生了专门的技术和服务。针对各个问题的深入研究,让数据服务实现了精细化和定制化。国际数据公司(International Data Corporation,IDC)做出预测,估计到2025年,世界将创造和复制163ZB的数据,比2016年创造的数据量增加了十倍。这种超增长是几十年来计算技术发展的结果2。从技术演进角度而言,新技术的诞生往往在初始阶段伴随着大量的社会想象与人们对其所持有的愿景与期待。人工智能作为一个名词概念最早在1956年被提出,时间快进到今日,人工智能作为一种机器系统已经可以模拟人类的智慧来完成任务指令,并且能够根据收集的信息不断改进自身。其核心就在于为“机器学习”和“数据分析”而服务的过程和能力,一方面,海量数据为人工智能的发展提供了“思考”和“决策”的基础;另一方面,人工智能技术也可以用于价值化的数据分析,其中机器学习是比较常见的一种方式。
因而,“大数据”也成为人工智能发展的重要基石。目前国内各行各业在实现普遍信息化的过程中,沥出并沉淀了海量数据。2022年中国电子信息产业发展研究院发布的《中国数字经济发展现状与趋势洞察》指出,中国已成为全球数据量最大、数据类型最丰富的国家之一。预计到2025年,中国的数据总量将占据全球数据总量接近30%的比例3。这些数据产生于政务、医疗、城建、自动驾驶、电子商务、电子支付等不同领域,蕴藏着丰富的价值。随着最新一轮科技革命和产业革命的孕育及兴起,互联网+、大数据、人工智能、云计算等数字技术日新月异,数据资源成为了必不可少的生产要素,如同十八世纪至十九世纪工业革命中的煤炭资源、电力资源的重要性。
新闻媒体论文参考
.............................
第二节研究综述与理论框架
一、从劳工到数字劳工
从劳工到数字劳工的概念变迁,有着深厚且庞杂的现实基础,经历了新旧技术产业链条的变革与新兴网络技术传播的普及,在经济全球化和信息网络发展的作用下,处于数字化转型期与深化改革阶段的中国社会同样面临数字劳工大量涌现的现状。随着信息技术的不断发展和普及,数字经济已经成为经济发展的重要引擎之一,而数字劳工作为数字经济发展的重劳动力资源,也逐渐成为了中国劳动力市场中不可忽视的力量。
在千禧年之后的十年时间里,数字化为中国的新兴行业创造了成千上百万个就业机会,蓬勃发展的电子商务行业和共享经济已成为中国创造就业机会的新引擎。在电子商务领域,以阿里巴巴为代表的互联网企业创造在十年中创造了3000多万个就业岗位;滴滴打车平台创造了将近1300万司机的就业岗位等。但与此同时,也有数百万个工作岗位因数字化而消失。数字化对就业的破坏性影响在工业部门最为明显,而对服务部门的影响有限。自2012年以来,由于产能过剩的削减,以及在很大程度上由自动化驱动的工业升级,工业就业人数减少了900万1。与西方社会不同,中国在第三产业吸纳就业方面,始终要弱于第一第二产业吸纳的就业数量。同时,在教育扩招的背景下,经历过中等教育、高等教育的人数逐年增长,这些群体中的大部分人开始转向从事知识型劳动,而非物质体力劳动。如本尼德克特·安德森(Benedict Anderson)的看法,中国的现代化进程是一种“强制的、自发的、大规模的转型过程”。在这个过程中发展的转型面临着双重现代性的共识困境。因此,劳动的“数字化”其影响本身仍然是具有结构性特征的。一方面,随着信息通信技术的发展和数字化转型,中国自身的产业结构发生了改变与调整,这种改变导致了在信息通信技术相关的产业部门或其他部门中从事信息处理、加工、传播的劳动力数量的上升。中国劳动的数字化与数字劳工规模的扩大,很大程度上已经追赶上了发达国家的发展步伐1。另一方面,全球经济进程不断加速,随着全球产业链条一体化的深入展开,中国的数字产业发展业已成为全球发展的重要部分,如中国头部互联网公司在资本结构、所有权和控制权方面不断地融入世界经济。
.........................
第二章技术转型与劳动变迁中的数据标注师
第一节人工智能与数据标注发展概况
纵观人工智能发展历史,20世纪80年代出现的深度学习神经网络算法,由于当时没有足够的数据支撑一度,其发展一度停滞不前2。自2012年之后,网络转型及数据技术推动着数据产业得到进一步发展。大数据、人工智能、智能家电、穿戴设备、智能机器人等概念,已经从一个个名词变为不断涌现的应用成果,对当今社会经济发展产生了深远而又剧烈的影响。同时,在智能应用不断落地的过程中,人类借此获取、采集了大量沉淀下来的数据资源。在智能应用的技术变迁中,算法模型的训练和不断学习依赖于大量的数据样本资源,由此便产生了大量场景化的人工智能数据需求,交通、医疗、教育、公众安全等诸多行业都在向着数字智能化的方向推进。数字标注作为人工智能的重要基础和底层结构的支持,是未来产业布局的重要环节。本部分将着重介绍人工智能与数据标注发展的简要历史,梳理人工智能数据标注师这一新兴职业诞生的主要背景。
一、人工智能发展简述
人工智能自诞生以来直至演进到今天,已经历了将近半个世纪的历程。在这个过程中,其发展更迭经历了多次的兴起与衰退,出现了多种技术和范式路线。早在20世纪40年代,人类发明了可编程数字计算机,运行原理是基于数学推理的抽象本质,是将人类思想指令转化为对符号的机械操纵的一次尝试结果。1950年,阿兰·图灵出版了《计算机械与智能》一书,提出了模仿游戏的概念议题:一个关于机器是否能思考的问题。这个提议后来被称为“图灵测试”,图灵测试成为人工智能哲学的一个重要组成部分。数字计算机的装置和图灵测试对于机器发展智力、意识和能力的理念,启发了一些科学家开始认真讨论建立电子大脑的可能性。于是时间来到了1956年,在美国东北部新罕布什尔州汉诺威鎮的达特茅斯学院举行了一个夏季研究项目,这个项目持续了大约六到八个星期,当时著名的科学家们汇聚于此进行头脑风暴式的研讨会,这被广泛认为是人工智能领域的奠基事件。早在20世纪50年代早期,科学领域中的控制论、自动机器理论和复杂的信息处理等相关理论就已经成为学者热议的焦点。以约翰·麦卡锡、克劳德·香农为代表的科学家在此次会议中提出了一个对未来人类生存与发展产生深刻影响的猜想:原则上,学习的各个方面或智力的任何其他特征都可以被精确地描述,人类可以制造一台机器来模拟它。人们将尝试找到如何让机器使用语言,形成抽象和概念,解决现在留给人类的各种问题。在此次会议后,人工智能作为正式的理念正式诞生,1956年也成为了人工智能元年。
...........................
第二节数据标注:作为数据流程服务链条中的数字劳动
随着2012年深度学习在视觉语音处理方面产生重大突破,到2016年AlphaGo的胜利再次使得行业发展趋势得到瞩目,时至今日,人工智能在中国的商业化进程和落地应用取得了显著成果和长足发展落点,同时在各个领域衍生出一条完整的产业生态。人工智能产业生态可以分为基础层、技术层和应用层。其中,基础层按照目前比较统一的分类标准,即通过算力、数据和算法可以再次进行划分为:算法服务、数据基础服务和算力服务。对整个技术层和应用层起到了支撑作用。在人工智能数据基础服务方面,以人工智能训练与调优为目的提供的数据采集、标注与质检等服务构成了人工智能基础数据服务,其实质是为各业务场景中的算法训练与调优而提供的数据库设计、数据采集、数据清洗、数据标注与数据质检服务。整个基础数据服务流程围绕着具体的用户需求而展开,最终产出的产品以数据集与数据资源定制服务为主要呈现形式,为其模型训练提供可靠、可用的数据。数据采集、数据标注与数据质检是较为重要的三个环节。数据采集是数据挖掘的基础,提供多源的一手数据和二手数据;数据标注对数据进行归类与标记,为待标注数据增加标签,生产满足机器学习训练要求的机器可读数据编码。数据质检为数据的客观性和准确性设置检验标准,从而为人工智能算法的性能提供保障。人工智能基础数据服务商可着重在以上三个环节建立壁垒,以巩固行业地位。在目前行业领域内,根据实地观察和访谈的结果来看,数据采集业务往往是与数据标注、数据质检业务是分割进行开展的。数据标注与数据质检往往都归属于数据标注业务流程中的关键环节,而数据采集则有专门的采集团队和平台进行。本部分将重点介绍数据标注劳动的基本过程、主要特征、基本方法以及主要任务和工具。
新闻媒体论文怎么写
...........................
第三章 数据标注师的劳动控制 ............................... 30
第一节 入场:数据标注劳动市场的中介化网络系统 ........................ 30
一、中介网络与资方平台的相互嵌套 ................... 31
二、标注劳动市场的中介网络链条化 .............32
第四章 数据标注师的数据训练与人机耦合机制 ................................ 46
第一节 标注规则:连接标注师与数据的触媒 ....................... 47
第二节 人机匹配 .................................. 48
结语 ............................. 57
引子 ..................................... 57
第一节 结论 ........................ 57
第二节 讨论 ............................. 58
第四章数据标注师的数据训练与人机耦合机制
第一节标注规则:连接标注师与数据的触媒
标注规则是指在数据标注过程中,数据标注师需要遵循的规则和标准,它们通常以文档的形式存在,其内容是针对具体数据项目而撰写的标注的规范要义和注意事项。例如,在图像标注中,标注规则会规定标注师需要标注图像中的哪些物体,以及如何标注。在语音识别中,标注规则会规定如何标记语音数据的各个部分,例如声音的起始和结束点、说话者的性别和年龄、声音的语音内容、音量、语调等特征。在文本标注中,标注规则会规定如何标记文本中的各种元素,例如命名实体、关键词、情感等。可以说,数据标注的规则,是连接数据标注师与所需标注数据的触媒。
数据标注师根据规则进行数据标注,本质上类似于一个语义生成过程,其中数据标注师会通过使用标签为数据内容赋予含义来进行分类标注。对于数据标注师而言,甲方将他们的需求和期望转化为标注规则,这种类似于指南式的文档信息是标注数据质量把控中至关重要“仲裁依据”,每一位数据标注师通过领会规则后将所标注的数据恰当匹配机器算法时。这一看似简单“数据被赋意”的过程,不仅要求数据标注师需要在对数据进行分类的规则文本的基础上进行分析,还要通过数据标注师的认知判断进行。数据与标注规则结合的过程,按照目前的行业发展趋势来看,通用性规则的攻克对于数据标注师而言相对容易,但他们对于各个专业领域的具象化和细分的规则文档进行深度理解还是任重道远,尤其是牵涉到感知判断、学科体系知识交叉领域,每一个字词、每一个张图片、每一段音频数据的标注往往伴随着包含大量专业名词知识的标注文档,需要数据标注师更多的人类智慧注入。正如在标注劳动过程中所观察到的,数据通过规则文档被数据标注师赋予意义的过程中,涉及到不止是作为参与者的数据标注师本身,还包括甲方、规则的制定者、规则的监督者,以及迭代的数据集。如前所述,标注公司与数据标注师之间的劳动关系和服务关系在固有权力的不对称这一点上,也从根本上塑造了标注规则的制定。
............................
结语
第一节结论
数据标注师是“人工智能的老师”,是行业中大量的数字劳动力通过日复一日的识别、拉框、判断、修改,教会了人工智能理解人类世界。本研究采用网络民族志、深度访谈与线下田野调查的方法,结合人工智能发展历史与数字标注产业兴起的脉络,通过考察中国大陆人工智能数据产业的上游劳动者——数据标注师这一群体在当下劳动生产实践,描绘出数据标注师基于甲方、平台、管理方与数据算法层层架构下的具体劳动生态。群智化特征下的标注劳动,由数据标注师创造出共同的劳动秩序以及因此而被施以附加条件的共同的分工秩序,必然会催生人类与人类之间、人类与机器算法相互间的权力秩序。
从劳动控制的角度出发,研究分析了从数据标注师从进入在线劳动市场到进行标注劳动的控制关系和控制方式。在一定程度上有意识地规避了既往研究中视野的有限性性。在“劳动入场”环节,中介网络控制链条绑定了数据标注师进入数据生产的“入场”环节。由于数据资料的特殊性质、数据标注师的技能培训与考核等因素,形成了新的劳动网络再中介化的过程。由此,在众多大小不一、生态各异的数据标注公司及团队中,数据任务被层层转包。在数据标注师的劳动入场过程中,出现了大小不一的转包、分包组织,即中介化的网络控制机制,它们同时对数据资源和数据标注师进行组织与分配,这样的在中介化网络控制体现在三个方面,包括了中介化网络与资方平台的相互嵌套、标注劳动市场的中介网络链条化以及中介网络与资方平台的劳务包揽。同时,数据标注公司及标注平台在数据标注师的劳动过程控制中,采用了多种控制方式,主要是通过标注劳动组织化管理中的差序分工与分散冲突、生产关系与生产时的关系、劳动空间的管理、劳动时间的规训、技术化的手段、数据单价结算制度的设置、工作文化的形塑为主要的控制方式,将进入劳动市场的数据标注师规训成为一名合格的数据标注劳工。
参考文献(略)