“数据交易中的“货不对板”问题”的版本间差异

来自典枢
跳到导航 跳到搜索
第28行: 第28行:
# 文本数据:抽样、统计;
# 文本数据:抽样、统计;
# 电子书、PDF:抽样、统计;
# 电子书、PDF:抽样、统计;
# CSV, EXCEL 等表格类数据:质量评估算法比较多样,可以图像化展示(例如
# CSV, EXCEL 等表格类数据:质量评估算法比较多样,可以图像化展示(例如使用UMAP 算法对数据进行高维可视化),也可以进行数据统计;
使用UMAP 算法对数据进行高维可视化),也可以进行数据统计;
# 其他:例如CAD 数据,需要特定的质量评估方法。
# 其他:例如CAD 数据,需要特定的质量评估方法。



2024年3月27日 (三) 04:20的版本

在现有的数据交易实践中,通常将数据看作一般意义上的商品,也就是按照一般的线上物品的交易方式进行交易,其流程大致如下:

  1. 在某个网页上展示数据的信息,例如格式、效果、数据内容,这样的网页可以是现有的电商平台,例如淘宝、咸鱼等,也可以是为特定的数据交易而存在的平台,例如预测者8、千里马、魔镜洞察等。
  2. 在同一个页面中展示付费链接;
  3. 用户付费后获取原始数据的下载链接或解压缩密码,获取方式可以通过即时通讯软件(如Telegram,QQ 等),也可以通过百度网盘等云存储服务,在某些专门的平台上,用户付费后会自动展示下载链接。

由于数据作为商品的特殊性,不难发现,在上述交易方式中,买家在购买数据之前仅能相信展示的内容,在付费后能得到什么样的内容则完全没有保证。例如用户付费后发现下载链接中的百度网盘已经被禁止访问;用户付费后下载的数据充斥着大量的随机数据,无法使用等。更具体的:

  1. 买家无法在购买前对数据的质量进行一定评估;
  2. 买卖双方在发生争执时,无法仲裁:买家可以在收到数据的情况下仍然声称没有收到数据或收到了错误的数据,同时,由于卖家可以在两次交易中向不同买家交付不同的数据,这进一步导致通过用户评价来反映数据质量这一传统做法不再可靠。

这些场景类似于传统的实物交易中的“货不对板”,然而,实物的货不对板在传统的交易中因为有“唯一的,可追踪”的证物,在现有电商平台监管体系下是容易解决和规避的;而在数据交易产生的货不对板中,由于数据可以零成本复制、伪造,因此更难以实施监管。

数据交易场所解决“货不对板”的困难

数据的货不对板问题通常也归结为另一类更常见的问题:如何保证或评价数据质量。例如,一份声称包含了各地经济数据的数据集中是否有缺失的字段,缺失比例如何; 一份声称是某类用户相关数据的数据集的统计特征或数据分布是否满足使用要求;一份声称是某影片的视频数据是否是另一份影片等等。数据的提供方可能通过算法伪造了全部的数据,也有可能在部分数据的基础上,使用算法扩展出了更多数据,还有可能对数据(例如视频)进行压缩处理后再发布。问题在于买家(数据使用方)无法分辨(或分辨成本太高)卖家(数据提供方)的行为。

对于货不对板问题的解决看似简单,但深究之下就会发现其中的悖论。最为直观的思路是由平台对数据的内容进行鉴定,然而,姑且不论数据的多样性会带来怎样的鉴定成本,卖家对于数据泄漏的担忧通常也使得平台并不能获取原始数据或对数据内容进行鉴定。

一个新型的、面向数据的交易场所,应该能够解决数据货不对板问题。交易场所应该保证在不泄漏数据的前提下,允许买家在购买前对数据的质量进行评估,并且在买卖双方发生争执时,能够进行有效的仲裁。交易场所对数据的持有应该是中立的,交易场所需要对数据进行一定的监管,又不能泄漏数据,影响数据的稀缺性。

典枢:使用“先验后买”解决“货不对板”

典枢平台通过隐私计算算法评估数据质量。从原理上来说,典枢使用Fidelius 中的“算法”对数据进行处理,并在典枢平台上展示处理的结果。由于这些算法的处理结果能够说明数据质量,我们称这些算法为质量评估算法。具体来说,对于不同的数据,质量评估算法的实现也不相同,下面是一些例子:

  1. 音视频数据:进行抽帧,将抽帧的结果展示在平台上,以说明视频的内容;
  2. 图像数据:压缩至低分辨率,能够说明图像内容,但不足以直接使用;
  3. 文本数据:抽样、统计;
  4. 电子书、PDF:抽样、统计;
  5. CSV, EXCEL 等表格类数据:质量评估算法比较多样,可以图像化展示(例如使用UMAP 算法对数据进行高维可视化),也可以进行数据统计;
  6. 其他:例如CAD 数据,需要特定的质量评估方法。

一个数据可以有多个不同的数据评估维度,因此可以有多个不同的质量评估算法,平台可以分别展示。典枢平台会提供一些典型数据格式的质量评估算法,也允许用户开发特定的质量评估算法,对数据质量进行评估。质量评估算法的开发和基于Fidelius的算法开发是相同的,此处不再赘述。

典枢平台提供相应的算力设施运行相应的质量评估方法。典枢平台对数据质量进行评估需要用户的授权,此处不再赘述。典枢平台提供的数据质量评估方法既保证了买家能够了解数据本身的情况,又能保证卖家的数据不会泄露,是最适合数据市场的技术方案。

数据质量评估是建立良性博弈的基础:只有数据质量高的数据才能获得买家的青睐。买家有了选择,就不会盲目的、无奈的根据描述购买数据。