社交媒体长期保存的困扰*

2016-02-12臧国全赵佩端

图书馆 2016年9期

关键词：社交内容用户

臧国全赵佩端

（郑州大学信息管理学院郑州 450001）

·专题研究·

社交媒体长期保存的困扰*

臧国全赵佩端

（郑州大学信息管理学院郑州 450001）

与其他类型数字资源相比，社交媒体有其自身的特殊性，对其实施长期保存面临诸多困扰：社交媒体收割的困扰，包括收割方式产生的困扰和收割边界的困扰；社交媒体保存的困扰，包括社交平台条款产生的困扰、保存技术的困扰、保存标准与内容的困扰、保存实践的困扰；社交媒体使用的困扰，包括侵权的困扰、用户隐私的困扰和访问实践的困扰。

社交媒体数字保存数字资源

社交媒体是基于因特网的一种应用程序，基本功能是构建用户的交流平台。实践中，社交媒体包括不同类型的网络平台，主要有：社交网站（如Facebook 和QQ空间），用户集体创作内容网站（如YouTube和维基百科），产品和服务的营销网站（如Amazon和eBay）。尽管不同类型社交平台的功能存在一些差异，但用户在线交流是基本功能，均产生交流内容及其附加数据，可供科研人员进行数据挖掘，也可为商业企业提供消费分析和市场研究，且后者的应用越来越多，已经形成一种商业运作模式。

数字资源长期保存系统主要包括数字资源获取、数字资源保存和用户访问三大模块。同样，社交媒体长期保存也涵盖社交媒体收割、社交媒体保存和用户使用三个环节，每个环节都存在一些困扰。

1 社交媒体收割的困扰

1.1 收割方式产生的困扰

与Web 1.0的网络信息资源通常使用Web爬虫程序（如Heritrix）抓取不同，以Web 2.0展现的社交媒体，因其交互特征（常用JavaScript实现），导致对其实施收割需要不同的工具，采用不同的方法，且均产生一些困扰。

（1）应用编程接口（API）

社交媒体平台提供的API是社交媒体平台与社交数据收割者之间的接口，定义对社交数据收割的规则，比如，Facebook的Timehop API［1］可定制收割一个用户账户中每年特定一天的社交内容。API的收割需要申请，比如Twitter中，收割者需申请，一旦申请被接受，API将与Twitter连接，收割连接之后产生的社交数据，并转换为结构化的JSON格式提供给收割者。API的收割不仅包括社交内容，还包括元数据，比如，Twitter的API收割有用户ID、用户IP、用户发出推文后的操作记录（共享、爱好）等；Facebook的Graph API收割包括产生的评论；YouTube的API收割除了用户发布的视频外，还有描述视频及其关联的元数据。

API收割虽然提供了获取社交数据的一个途径，但也存在一些困扰，其中之一是限制收割的数据量，比如，Twitter的API收割量限制为总数据量的1%，且不公开1%样本量的抽取方法，导致收割者无法检验获取数据的代表性［2］。

（2）社交数据代理商和第三方服务

社交数据代理商一般是社交平台的官方商业机构，提供采用API难以收割的数据，比如，代理商Gnip提供Twitter的API无法收割的历史数据（因为Twitter 的API只收割用户连接后的社交数据），甚至包括全部推文的收割服务，但需付费，每月为2000美元，外加每1000个推文的传递费0.1美元［3］。社交数据代理商还提供特定数据的收割，比如，代理商DataSift提供Twitter、Facebook和Youtube的主题数据收割（包括实时的和历史的社交数据），销售给品牌公司、金融市场、新闻机构等进行数据分析。

第三方服务是独立于社交平台和社交数据需求者的服务实体，通过协议向需求者提供社交数据收割。业已存在的第三方服务有两类：一是商业服务项目，如ArchiveSocial［4］，MirrorWeb［5］，Erado［6］，Gwava［7］等，专门从事社交数据收割，可根据用户的需求提供个性化的定制收割服务；二是公益性保存项目，如互联网记忆基金会（IMF）和国际互联网保存联盟（IIPC）的Web保存项目，将社交数据收割作为其中一项业务。

显然，社交数据代理商和第三方服务提供的大都是商业服务，用户需要购买，且价格不菲。也有例外，比如，针对社交数据代理商DataSift收割的Twitter社交数据，当用户的需求是包含特定关键词或标签时，只要目标数据集不超过所有社交数据的1%，免费提供；再比如，用户可以从第三方服务的公益型保存项目中免费访问社交数据。

（3）社交媒体平台的用户自存档服务

自存档是一些社交媒体平台（如Facebook、谷歌和Twitter等［8］）向用户提供的下载其账户数据的备份服务，但需用户相应设置。自存档数据仅限用户账户本身，不涉及其他账户内容。如，Facebook只备份账户所有者发布的内容和发送给所有者账户的内容，以电子邮件方式邮寄给用户一个结构化的压缩文件，且限定几天内下载，之后过期；谷歌的一些服务（Gmail、谷歌日历、视频群聊和YouTube）也提供自存档功能［8］。

很明显，这项服务针对单个用户账户的社交数据，收割范围很有限。但对于机构账户可能是一个有价值的选择，可用来收割保存一个机构中使用该公共账户产生的所有社交数据。对公众人物，这项服务为建立个人社交档案提供了一个解决方案。

1.2 收割边界的困扰

目前为止，还未出现针对一个或多个社交平台的所有社交数据进行收割的实践，已有的收割实践都是专题性的，都存在收割边界的界定问题，但目前的界定实践都存在一些困扰。

社交过程线程构建的困扰。与传统网页不同，社交媒体的核心是用户交流，一个完整的交流过程可称为一个线程，但交流过程可能涉及多个用户账户，且常常包含多个相关对话主题和事件，导致难以清晰界定一个交流过程的开始和结束。已有的一些收割实践很少考虑线程的建立，比如，北卡罗莱纳州大学图书馆的社交媒体保存系统［9］，依据该校的官方账户和与该校相关事件的标签，收割Twitter和Instagram社交平台的相关数据；爱尔兰社交媒体保存项目［10］，基于地理位置、关键词和标签，使用Twitter API的收割工具，搜集与爱尔兰相关的所有推文。这些项目都采用不同方法界定收割范围，但都没有考虑线程的构建，常常会出现一个线程中的一些对话在收割范围内，但其他对话在收割范围外，导致无法完整收割一个线程中的所有对话，致使未来用户使用的理解困难。

社交媒体收割策略的困扰。常用的收割策略之一是基于关键词和标签，但在几乎所有社交媒体中都没有对用户使用的关键词和标签进行规划化处理，存在大量的一词多义、多词一义、词义含糊现象，对识别社交内容涉及的实体（人、地方、机构、事件等）的标签也常存在拼写不同甚至错误，一些术语常常变化，这些因素都会导致基于关键词和标签的全面收割相关内容的策略难以准确设计，且也无法过滤掉虚假数据、个别道德缺失的用户传播的僵尸数据和污染数据，当然对收割的数据进行质量控制是一个解决方法，但人工控制的成本较高，软件控制的准确度难以保障，且均未见报道。收割策略之二是基于用户账户，但社交媒体的交流特征致使一个账户内容常常与其他多个账户内容产生关联，而这种关联又是多维的、随机的，很难对这种关联进行全面清晰的界定，导致基于账户的策略在空间维度上无法收割到全面相关数据。收割策略之三是基于时间段，同样基于社交媒体的用户交流属性，这种策略无法在时间维度上收割全面的相关数据。收割策略之四是基于随机抽样，在科学研究中最常用，比如前述的Twitter的API 的1%收割抽样率，显然这种策略也存在大量数据漏收，且因均不公开抽样算法，无法验证抽样的合理性。

语义环境收割的困扰。除了线程之外，社交数据的理解还需语义环境的支撑，但目前的实践大都仅抓取社交媒体内容，较少提供语义环境的元数据收割。比如Twitter的使用条款限制收割用于描述附加信息的元数据，包括用户地理位置、评论或转发的用户ID等。甚至，一些非文本社交内容根本就没有文本信息，比如Instagram的照片和视频收割，元数据的缺失导致这类社交多媒体信息完全失去语义环境。还有，社交内容中包含大量的超链，这些超链的对象内容对社交媒体内容的理解至关重要，甚至是内容的重要组成部分，但社交平台大都采用TinyURL［11］和 Bit.ly［12］压缩URL，导致直接收割后超链的失效，当然在收割过程中可以将其恢复为原始URL，但维护外部URL仅是短期保存的一个方案，确保内嵌的外部对象内容能够被长期有效访问的方法只有同时收割外部对象内容并与社交内容一起保存或建立两者之间的链接，但目前这项实践很少，唯一见到的报道是ARCOMEM 项目提供了该解决方案［13］。

全面收割相关内容是社交媒体收割的一个挑战，剔除重复内容则是社交媒体收割的另一个困扰。因为社交内容的转载和群发，导致无论采取何种收割策略，都会出现大量的重复内容，若不及时剔除，保存系统可能存在大量冗余内容致使存储和检索的困难。去重的一个有效方法是以推文ID为主线，确保收割的元数据和推文都与推文ID相连接。去重会删除一些推文，但也会导致保存会话线程中一些推文的缺失。

2 社交媒体保存的困扰

社交媒体高度动态性导致的社交内容快速消失使对其进行长期保存尤为迫切。2015年，网络历史学家Peter Webste报告了社交内容的消失速度，称在英国Web Archive项目中保存的社交内容，一年前保存的目前仍然在线且未变化的比例不到10%［14］。Salah和Nelson在检查社交媒体信息的寿命后，发现发布后的第一年消失近11%，以后以每天0.2%的速度持续消失［15］。2014年，社交媒体用户上传到TwitPic数以百万计照片的可能被删除引发人们的担心，原因是Twitter要撤销对Twitpic的API访问［16］。实际上，商业社交平台都有自己的商业模式，重视当前数据轻视历史数据，缺乏长期保存的动机，社会没有理由期望社交平台对其社交数据的长期可用性负责。

2.1 社交平台条款产生的困扰

社交数据的收割比例和频率条款导致的困扰。多数社交平台允许通过其API收割社交数据，但几乎都在使用条款中限制了收割保存数据的比率和频率。可能的原因是社交平台都是商业企业，通过销售用户数据而获利，为了保护企业利益，社交平台必须确保数据的安全，采取的措施之一是API的使用方针，限制获取数据的比例和请求频率。这项条款对科学研究带来困扰，因为科学研究需要大量的社交数据样本，方能得出有价值的结论，但社交平台通过追踪基于API访问请求的方式避免过度的数据访问，否则就取消访问者的全部权限，导致科研活动难以获取充足的数据样本。这项条款也对保存机构带来困扰，一般来说，保存机构期望收割一个主题的完整社交数据，比如一个城市、一个国家、一个持续发生的事件等，但这项条款导致这种期望难以实现。

社交数据的禁止出售、出租、租赁、再授权条款导致了困扰。不仅Twitter明确社交数据的禁止转让许可条款，Foursquare［17］，Linked In［18］和You Tube［19］等也有类似条款。该项条款限制了社交数据的保存方式，因为一旦保存机构收割了社交数据，根据条款规定只能收割者进行保存，不能转移给第三方机构（如其他保存系统、云存储等），这对具有长期保存需求但没有条件建立本地保存系统的收割机构带来困境。这项条款也演绎出了社交数据不能共享，在公共保存领域，如文化遗产的保存机构，社交数据的禁止共享使得这类机构履行其核心职责成为困难。

实践上，社交平台条款经常改变，有些变化频率很高（如1年以内），导致保存机构难以制定长期政策处理社交媒体的保存授权问题，尤其是从多个社交平台收割的社交数据。

2.2 保存技术的困扰

社交媒体的广泛应用导致社交数据快速增长，对社交数据的保存技术带来两个问题。一是存储问题，大规模社交数据的产生需要海量存储设备，也需要建立社交数据收割的选择标准，用以收割有价值的涵义连贯的社交数据集合以供长期保存，另外，社交媒体平台的使用条款限制了社交数据的转移保存，增加了收割方的长期保存难度。二是索引问题，海量的社交数据给信息机构的传统索引技术带来挑战，需要创新一种新的索引技术以满足用户检索的需要。比如，2013年，国会图书馆的“Twitter保存项目”的数据规模已达80TB，1200亿条推文［20］，由于现行的索引技术难以胜任这样规模的海量数据处理，导致目前为止还不能面向用户提供检索服务。

2.3 保存标准与内容的困扰

保存标准的缺乏致使保存实践困难。现行的社交媒体保存实践主要来自于传统Web 保存的延伸，使用相似的收割工具，采用相似的保存方法。但社交媒体内容与传统Web内容存在根本区别，已有一些针对社交媒体收割新方法的开发，但都在实验阶段，未见规模性应用的报道。也许是因为社交媒体的新颖性，对其进行长期保存的标准和最佳实践还没建立，尽管有些相关的操作指南，但确保社交媒体内容及其所有相关数据的长期有效保存的完整标准仍没出现。

社交媒体的特质导致保存困境。一方面，社交媒体保存需要收割和保存内容数据和元数据；另一方面，社交媒体的保存也包括内嵌媒体和URL。这两个方面特质都要求保存社交数据的语境信息，比如Twitter的推文限制140个字，如果丢失一个内嵌URL，就可能会导致一个推文甚至整个交流对话失去意义。目前常用的基于API收割的社交数据格式是JSON和XML，前者是一种基于JavaScript的开放式标准，被Twitter使用，后者是基于ISO8879-1986的非专有格式，被一些社交媒体的API使用。但是，这两种格式都没有提供社交媒体长期访问的语境信息的解决方案。

语境信息是保存的重要内容，但难以收割。语境存在于用户的交流过程中，包括使用的终端、平台提供的服务、应用程序的界面和功能，以及用户交流所在的社区等。用户发布内容的含义受语境的影响很大，未来用户对保存的社交媒体内容的理解能力取决于对语境的保存程度。社交媒体的语境是动态的，比如，社交平台频繁更新服务界面，改变基本功能，另外，新技术的诞生也会改变社交媒体的语境。

因此，仅仅抓取社交内容和元数据无法提供足够的语境展示用户的交流过程，保存语境信息的一个理想方法是抓取用户的交流过程，采用截屏和视频录像方式。记录社交媒体的用户整个在线过程，可能是未来社交媒体长期保存的一个趋势。

2.4 保存实践的困扰

根据上述对社交媒体收割的现状考察，研究人员采用API收割的数据很有限；代理商和第三方服务也不可能对社交数据进行全面收割，且均为价格昂贵的数据销售服务；社交平台的自存档服务也仅提供用户个人账户范围内的社交数据下载与备份；社交平台本身依据其服务条款对平台的所有社交数据具有长期保存的权力，但由于商业目的在于出售社交数据而获利，故缺乏保存动机。因此，还没有出现一个真正的社交媒体长期保存项目。

目前为止，社交媒体长期保存项目的建立尝试仅发生在Twitter和美国国会图书馆之间［21］。2010年，Twitter将2006年以来的所有社交数据和元数据赠予国会图书馆，以期进行长期保存，并仅供非商业用户的访问使用，国会图书馆将这个长期保存项目命名为“Twitter保存项目”。但是，赠予协议附加了两个条件：一是用户访问的时间延迟是社交数据发表6个月，所以研究人员并不拥有Twitter实时社交数据的访问权限，二是用户仅限在获得授权的研究人员，因此无法实现开放获取。另外，Twitter提供的海量社交数据导致国会图书馆在存储技术、数据组织和标引、访问方法、数据的产权保护和用户隐私保护等方面都遇到了前所未有的挑战。目前为止，这个保存项目仍处于构建研究阶段，未对外开放。但对于未来的基于Twitter社交数据研究人员来说，国会图书馆的“Twitter保存项目”毫无疑问是重要的数据来源，其价值值得期待。这项合作是商业化社交平台与社会文化遗产保存机构的首度联合，目的是实现社交数据的长期保存，以支撑非商业化的科学研究，具有划时代意义，虽然目前遇到了困难和挑战，但对未来发展具有示范作用。

3 社交媒体使用的困扰

3.1 侵权的困扰

社交平台的使用条款禁止对基于API收割的社交数据进行复制和传播，实际上限制了对收割数据的任何形式的共享。但在数据驱动的科学研究领域，数据共享越来越重要，甚至在一些情况下是必须的。比如，科学研究人员对基于API收割的社交数据进行分析，产生一项研究成果并公开发表，其他研究人员为了验证这项成果，就必须获取相同的社交数据集，但社交平台使用条款限制了这种可能性，因此，无法进行再现验证研究。针对Twitter，目前有一个折中方案，即Twitter没有禁止Tweet ID的共享，科研人员可以将社交数据集的每个Tweet ID共享给再现验证研究人员，后者根据Tweet ID收割到相同的社交数据集。但这种方案也存在风险，因为推特可能已被删除或被编辑，导致无法收割到完全一致的社交数据集。

社交平台的使用条款禁止对非用户本人的社交内容的任何直接引用，可能的考虑是社交内容中含有大量的个人用户敏感数据，这对科研活动有时也会带来一定的侵权风险。例如，一个Twitter数据集包含受版权保护的图片，如果基于该社交数据集的科研成果中直接内嵌了这些图片并公开发表，则构成了侵权。为了防止这种形式的侵权行为的发生，目前科学研究活动采用了一个折中方法，对这些图片的分析只限制在元数据层面且采用定量方法，这样其研究成果中仅涉及定量分析的结果，一般可以不包含对原始图片的引用，这虽然规避了侵权风险，但有时会对出版物的质量和研究成果的可信任性产生负面影响。然而，如果对社交数据集采用定性法进行分析，侵权问题可能会凸显，因为基于这类方法的研究结果中常常需要引用（甚至大量引用）社交媒体内容。

3.2 用户隐私的困扰

据统计［22］，2015年世界上有29%的人是社交媒体的活跃用户，2016年将会有超过三分之一的人使用社交媒体，产生的社交数据数量是空前的。随着用户数量的快速增长，社交媒体已经像广播、电话、能源、交通工具等成为人们日常生活工作中必不可少的公共基础服务。但是，与用户使用其他公共服务相比，使用社交媒体产生个人隐私数据问题更加突出，因为这项服务的主要功能是用户交流，交流过程产生的社交数据内含大量用户个人隐私信息，如果不进行有效的伦理规范，借助于日益先进的社交数据挖掘工具，社交数据分析作为一项科学研究活动的整体影响将产生巨大的负面效应，远远超过用户个人信息泄露的离散案例。

社交数据作为一类大数据，与其他形式的数字资源相比，个人隐私的泄露风险更大。这种风险来自于大数据的关联属性，这种属性使个人身份更容易泄露。当把多个数据集（如社交媒体数据和管理数据）合并一起进行综合分析时，很容易建立个人身份与个人信息之间的关联，一般来说，数据量越大，数据的多样性越丰富，识别个人身份的可能性也越高。当然，不同的应用对社交隐私数据的保护效果也不尽相同，一般来讲，非商业性应用要好于商业性应用，因为前者（如科学研究）一般由公共经费支持，研究成果是公共产品，研究活动以不损害公民利益为前提，所以在使用社交数据时，更注重公民的隐私权，保护公民的个人数据，但后者的使用对象集中在最新社交数据，目的是增加销售收入，对社交用户隐私数据的保护考虑相对较少。目前广泛采用的匿名化可以降低个人隐私泄露的风险，但简单的匿名化不可能完全防止这类风险，一项报告指出［23］，很多大数据的应用程序都可以很容易地破解匿名问题。

社交平台的服务条款大都界定社交数据的所有权归社交媒体，比如Twitter， Facebook，谷歌，LinkedIn等。用户在使用社交媒体时需要签署使用服务的协议，协议中一些选项的选择也可能涉及对未来泄露个人隐私的认可。这种服务条款和用户协议在社交数据所有权归属认定上用户处于弱势和被动地位，虽然用户是社交媒体内容的作者，用户数据也是用户本人自愿产生的，但这些社交数据无论用于商业目的，还是用于非商业的科学研究、作为社会文化遗产的收藏、收割到保存系统，用户完全失去控制权甚至知晓权。所以，从用户角度，追踪和识别个人隐私数据的应用轨迹是不可行的。

因此，技术防御无法完全解决用户个人信息的泄露，必须针对社交数据使用建立一套伦理规范。业已存在的相关伦理准则可以参考，比如，经济合作与发展组织［24］（OECD）的《个人隐私保护和个人数据传播指南》、英国国家经济和社会研究委员会［25］（ESRC）的《科研伦理框架》、因特网研究者协会［26］（AIR）的《伦理推荐指南》、欧盟［27］（EU）的《被遗忘权》等，但这些准则和指南要么规范特定的使用群体（如OECD和EU），要么规范特定的应用对象（如ESRC 和AIR），完全针对社交数据特质的还未见报道。

3.3 访问实践的困扰

据普查，目前还没有一个真正的社交媒体数据长期保存系统，虽然社交平台有长期保存社交数据的权力，但均没有长期保存的计划，更没有长期保存项目的实施，用户对社交媒体数据的使用大多限在对社交平台访问的层面。但是，至今为止，社交媒体都没有对用户（包括个人用户和团体用户）给予完全访问的授权，仅有的一个完全访问授权的例子发生在Twitter与MIT （麻省理工）之间［28］。

2014年，Twitter与MIT签署协议，旨在向后者提供其全部社交数据（包括历史数据、当前数据和未来数据）非商业化使用的长期访问授权，同时向后者的媒体实验室提供一千万美元支持社交数据分析工具的研发。协议规定，Twitter通过其Gnip数据服务向MIT开放其所有社交数据的访问，MIT基于对Twitter社交数据的访问分析，向政府提供完善城市社区的公共服务功能、提高社区运行效率以及政府服务透明度的对策，且MIT无需报告访问、获取和利用Twitter数据的计划，也无需将Twitter数据下载转移到本地设备，避免数据存储成本的发生。截至2105年底，这项协议执行效果良好。

但是，这个协议授权的仅是MIT。实际上，仅为了科学研究的目的期望访问甚至收割社交数据的研究群体很大，如何满足这一群体的需求是社交媒体界乃至整个社会面临的挑战。在这项合作中，Twitter为了公共利益履行了自己的社会义务，虽然合作刚刚开始，长期效果的评价现在还为时过早，但它具有划时代意义，开启了新媒体时代商业化社交平台无偿服务于社会的新模式。

社交媒体是一种新型的数字资源。与其他类型数字资源的长期保存相比，社交媒体长期保存的理论探讨与实践项目都甚显逊色。据笔者考察，目前为止还没有一个专门的社交媒体长期保存系统，社交媒体数字资源一般被保存到Web保存系统中，且按照一般Web网页的收割方法进行收割。但是，这种收割和保存方法完全忽略了社交媒体数字资源的用户交流属性和语境依赖属性，给用户使用带来极大困难。本文基于社交媒体的特质析出了这类数字资源长期保存面临的一些困扰，以期业界探讨解决方案，应用到未来的保存实践之中。

（来稿时间：2016年4月）

1.Timehop.We’re Building the Future of the Past［EB/OL］.［2016-01-09］.http://timehop.com/press

2.Twitter.Streaming API［EB/OL］.［2016-02-01］.https://dev.twitter.com/streaming/overview

3.GNIP.Customized Solutions for Predictable Pricing［EB/OL］.［2016-02-01］.https://gnip.com/pricing/

4.ArchiveSocial.Risk Management & Analystics for Social Media Archiving［EB/OL］.［2016-02-09］.http://archivesocial.com/

5.MirrorWeb.Archiving Websites and Social Media ［EB/OL］.［2016-03-03］.https://www.mirror-web.com/

6.Erado.About Erado［EB/OL］.［2016-01-01］.https://www.erado.com/

7.Gwava.Efficient Management of Your Corporate Communication［EB/OL］.［2016-02-09］.http://www.gwava.eu/en

8.Bandziulis， L.How to Download and Archive Your Social Media Memories［EB/OL］.［2015-12-09］.http://www.wired.com/2014/07/archive-social-networks

9.North Carolina State Universities （NCSU） Libraries.Social Media Archives Toolkit［EB/OL］.［2016-01-07］.https://www.lib.ncsu.edu/social-media-archives-toolkit

10.DRI.Digital Repository of Ireland［EB/OL］.［2016-01-12］.http://www.dri.ie/

11.百度百科.TinyURL［EB/OL］.［2016-03-01］.http://baike.baidu.com/link？url=lNbBh_sEC79y46GCLrmoLzM tETZUMUfxon9C7pHQe2SCAQlLG3BCK9QFEqff4H4 Hiiw64I7ciUCCFpJlRpsvIa

12.百度百科.Bit.ly［EB/OL］.［2016-03-01］.http://baike.baidu.com/link？url=LWnDmseCr75BLJ6UYcZOCy3f3t8 kX-SfdK6V554QoquD16Yj0H8mBlHphh1oov37qER7ny o0z0Owvjd_Y-k_q

13.Risse， T.et.al.Documenting Contemporary Society by Preserving Relevant Information from Twitter.In: Weller， K.et al.Twitter and Society［M］.NY: Peter Lang Publishing， 2015:310-354

14.Webster， P.How Fast Does the Web Change and Decay？ Some Evidence［EB/OL］.［2016-01-01］.http://webarchivehistorians.org/2015/03

15.Salah， H.， Nelson， M.Losing My Revolution: How Many Resources Shared on Social Media Have Been Lost？［EB/OL］［2016-01-09］.http://arxiv.org/abs/1209.3026

16.D’Orazio， D.Twitpic Saved by Twitter Just Hours Before Planned Shut Down［EB/OL］.［2016-01-18］.http://www.theverge.com/2014/10/25/7070585/twitpic-savedby-twitter-just-hours-before-planned-shutdown

17.Foursquare.Foursquare Platform Policy［EB/OL］.［2016-02-01］.https://foursquare.com/legal/api/

18.Linked In.API Terms of Use［EB/OL］.［2015-12-19］.https://developer.linkedin.com/legal/api-terms-of-use

19.YouTube.YouTube Developer Policy［EB/OL］.［2015-12-19］.https://developers.google.com/youtube/terms？hl=en

20.Library of Congress.Update on the Twitter Archive at the Library of Congress［EB/OL］.［2015-10-10］.http://www.loc.gov/today/pr/2013/files/twitter_report_2013jan.pdf

21.Library of Congress.Twitter Donates Entire Tweet Archive to Library of Congress［EB/OL］.［2015-12-12］.http://www.loc.gov/today/pr/2010/10-081.html

22.Kemp，S.Digital， Social & Mobile in APAC in 2015［EB/OL］.［2016-01-09］.http://wearesocial.sg/ blog/2015/03/digital-social-mobile-in-apac-in-2015/

23.President’s Council of Advisors on Science and Technology（USA）.Big Data and Privacy: A Technological Perspective［EB/OL］.［2016-01-01］.https://www.whitehouse.gov/sites/default/files/microsites/ostp/PCAST/ pcast_big_data_and_privacy_-_may_2014.pdf

24.OECD.Guidelines on the Protection of Privacy and Transborder Flows of Personal Data［EB/OL］.［2015-11-09］.http://www.oecd.org/sti/ieconomy/oecdguidelinesonthe protectionofprivacyandtransborderflowsofpersonaldata.htm

25.ESRC.Framework for Research Ethics［EB/OL］.［2015-12-30］.http://www.esrc.ac.uk/funding/guidance-forapplicants/research-ethics

26.Association of Internet Researcher.Ethical Recommendations［EB/OL］.［2015-11-07］.http://aoir.org/ethics

27.EU.Law Regarding the Right to Be Forgotten［EB/ OL］.［2015-12-12］.http://eur-lex.europa.eu/legal-content/ EN/TXT/？uri=URISERV%3Al14012

28.Gillis， M.Investing in MIT’s new Laboratory for Social Machines （Twitter blog）［EB/OL］.［2016-01-08］.https://blog.twitter.com/2014/investing-in-mit-s-newlaboratory-for-social-machines

Some Confusions in Social Media Long-term Preservation

Zang Guoquan Zhao Peiduan
（ School of Information Management， Zhengzhou University）

Compared with other digital resources， social media has its own characteristics.There are some confusions during the social media long-term preservation: social media harvesting confusions， including the harvesting ways and boundary definition； social media preservation confusions， including the social platform terms， preservation technology，preservation standard and content， and preservation practice； social media usage confusions， including the copyright infringement， user privacy and access practice.

Social media Digital preservation Digital resource

G250

格式〕臧国全，赵佩端.社交媒体长期保存的困扰［J］.图书馆，2016（9）：77-82

臧国全（1963-），男，郑州大学信息管理学院教授，副院长，发表论文80多篇，出版学术专著3部；赵佩端（1992-），女，郑州大学信息管理学院在读硕士研究生。

* 本文系国家自然科学基金项目“数字保存的风险型元数据与风险监控研究”（项目编号：71673255）研究成果之一。