AI助攻内容创作者施展魔法

生成式人工智能(Generative AI)可通过补充欠缺的元数据(Metadata)来提升网络内容消费体验,但研究发现,它目前仍无法超越人类
社交媒体已不再仅仅是人与人交流沟通的工具,更成为跨越国界建立社群和市场的渠道。今年年初,当TikTok因国家安全问题在美国面临被禁的危机时,大量美国用户纷纷转向另一个中国社交媒体平台 “小红书”,以示抗议。
禁令推迟数月后,TikTok母公司字节跳动预计今年营收将增长20%至1,860亿美元,仅比Meta预期的1,870亿美元略低。平台方并非数字时代的唯一享受惠者,社交媒体用户作为内容创作者亦可获得赞助收入。当成功积累大量粉丝后,他们更可成为网红,赚取与名人相当的收入。
维持用户粘性的核心在于通过自然推荐机制实现内容与观众的精准匹配,其中算法会扫描海量视频标题,根据用户的观看历史和偏好推荐相关内容。虽然用户也可通过搜索功能获取内容,但这仅占总观看总量的极小部分。
“就是为什么要鼓励内容创作者添加带标签(#)或描述的标题,因为它们是推荐系统用于提升内容切合度的唯一元数据,"香港中文大学(中大)商学院决策、营运与科技学系副教授张任宇表示。"这些元数据为视频提供了清晰简洁的摘要,使平台推荐系统能更好地识别出内容重点。”

遗憾的是,大多数用户生成内容(UGC)平台都存在欠缺元数据的问题,即大量内容缺乏描述性标题或标签。许多平台会借助生成式人工智能(Generative AI)来建立并补充缺失的元数据,但张教授跟其合著者在其最新研究《人工智能生成元数据对用户生成内容平台的价值:来自大规模实地实验的证据》中发现,这种做法的效果有许多不足之处。
“尽管人类创作的标题通常比人工智能生成的标题更好,但后者仍具有价值,因为它们能减少取标题的时间,并至少为人类创作者进行下一步优化提供了灵感,” 张教授说。“即使人工智能的整体表现欠佳,其输出仍可提供指导,尤其是对那些技能水平较低、难以自行创作有效标题的内容生产者而言。”
当人工智能扭转局面
在本研究中,张教授与新加坡国立大学教授Goh Khim Yong、博士生张心怡,以及研究员孙辰朔合作,联同亚洲一个主要的短视频平台展开了一系列实验。尽管该平台拥有超过3亿的日活跃用户,但与其他用户生成内容平台相似,仅有60.7%的视频带有标题。
研究团队分析了由逾200万名用户生成的超过1,000万条视频, 并将其分为两类:实用型视频,其主要目的是提供实用且具教育性的信息,例如新闻、测评和教程;以及享乐型视频,包括娱乐或时尚生活内容,例如vlog、搞笑短剧和旅行记录。在实验开始前,61.3%的实用型视频和57.3%的享乐型视频拥有标题。
该平台于2023年7月推出生成式人工智能工具,通过从视频中截取片段、提取视觉元素和文字,从而生成能够反映视频内容的元数据。研究人员将创作者随机分配到实验组或对照组:实验组可使用人工智能生成的标题,而对照组只能自行创作标题。
研究发现,人工智能工具使视频添加标题的概率提高了41.4%,添加标签的概率提高了72.4%。总体而言,使用AI生成标题的视频,其平均播放量增加了1.6%,观看时长增加了0.9%。
对于技能水平较低的创作者,或其粉丝总数和视频数量低于中位数的创作者而言,AI生成的标题有助于将播放量提升1.6%并延长观看时间1.3%。 此外,研究对近9,400万条视频的额外数据集进行深入分析后发现,使用AI工具的创作者组别在点赞、分享和关注数量方面都明显更高。

“人工智能生成的元数据可以丰富推荐系统的输入信息,从而提高用户跟内容匹配的准确性,并提升系统整体的个性化水平,” 张教授表示。“使用人工智能生成标题的视频,其观众群体的多样性较大,这表明改进后的元数据使系统能够将内容推送给更广泛且多样化的受众群体。”
人类大脑 vs. 机器智能
以上的结果看似正面,但人工智能并非无所不能。研究人员发现,在使用AI生成的标题后,实用型视频的播放量下降了3.1%,观看时长下降了3.0%。而那些原本由创作者自行撰写标题的视频,改用AI标题后更导致播放量下降37.9%,观看时长下降32.6%。
不过,当创作者对AI生成的标题进行编辑,每调整10%的内容即可带来9.8%的观看量提升和8.2%的观看时长增长。当AI生成的标题与修改版的相似度降至20%时,视频表现会胜过未使用AI生成标题的视频。这表明内容创作者需对AI标题进行深度优化以获得最佳效果。
进一步分析显示,AI能够生成基本的主题摘要,但常常缺乏有助于提升清晰度和用户参与度的关键情景描述。例如,当AI生成 “享受大自然之美 #风景如画” 这个标题后,内容创作者可以将其优化为 “郁郁山峦与涓涓溪流:拥抱大自然的宁静”。更为详细的描述不仅能够提升词汇丰富度,还能让推荐系统能够更准确地将视频跟用户进行配对。
跨平台协作力量
生成式人工智能因其内容创作能力备受赞誉,但同时也引发了关于原创性和版权问题的担忧。本研究则聚焦另一个角度,探讨了人工智能如何通过提升元数据来优化推荐系统和内容发现机制。
鉴于人工智能生成的元数据对低技能和制作享乐型主题的内容创作者更具效益,平台在推广AI工具时应重点聚焦这些领域。优先向新晋内容创作者开放AI工具将产生最直接且显著的成效。
此外,平台不应自动采用AI标题,而应提供编辑选项以优化生成的元数据。这一策略不仅对用户生成内容平台有利,对电商等依赖“推荐驱动消费”的平台同样有效。
“在电商平台上,产品通常需要材质、颜色和尺寸等元数据,由于数量庞大,卖家输入这些信息往往耗时较长。人工智能生成的元数据可以帮助简化这一过程,并有望在推荐准确性和效率方面带来类似的改进,” 张教授指出。
随着大语言模型和能够处理整合多种数据类型的多模态人工智能技术的进步,张教授相信,AI生成的元数据很可能超越基础标题,发展出更加丰富的结构化描述。未来AI将自动生成摘要、话题标签、情感基调、场景级注释乃至融合视听文本线索的叙事框架。
“此类元数据将为内容提供更深入的语义解析,使推荐系统能够做出更细致且切合内容的匹配,特別在解决冷启动问题(Cold start problem)和提升跨内容类型个性化推荐方面具有重要价值。”