[关闭]
@habits 2018-09-30T09:09:19.000000Z 字数 2905 阅读 1369

标注平台使用说明

标注平台 自然语言处理 众包


目前标注平台只支持分类任务和序列标注任务。

一、语料

1.1 添加语料

语料的格式,一行就是一条数据。
语料名称,同一个用户添加的语料名称是不允许重复的。
上传数据界面如图所示:
上传语料

除了一行为一条数据之外,语料的格式还有一些要求:
1、每行(一条数据)的词的个数有限制,词的个数不超过500。
2、为了判断有没有进行分词,要求每个词的字符数目不超过250。
3、分类任务
分类任务的语料只要保证一行是一条数据,格式是UTF-8就可以了。
4、序列标注任务
对英文而言,一个空格就是一个单词,所以英文只要保证一行是一条数据,格式为utf-8就可以了。系统会自动根据空格划分单词,每个单词都有一个标注结果。
但是标点符号是往往是紧跟前一个单词的,是没有用空格来分割的,所以标点符号要自行处理成用空格分割好的格式。
举个例子,假设当前需要标注人名:

Chris Gardner : You got a dream , you gotta protect it .

空格为分隔符,正确标注结果:
Chris b-PERSON
Gardner E-PRESON
: o
You o
got o
a o
dream o
, o
you o
gotta o
protect o
it o
. o

对中文而言,是没有天然的分隔符的。但是在标注的时候,有些情况下是要在已经分词的基础上进行标注的,所以本平台为了满足这种需求,也要求用空格来划分单词,每个单词都有一个标注结果。当然如果不需要分词,只需要处理一遍数据,在每个字之间插入一个空格就可以了。
举个例子:
如果需要预先分词,下面是某种分词的格式:

克里斯 · 加德纳 : 如果 你 有 梦想 , 就 要 捍卫 它 。

空格为分隔符,标注结果为:
克里斯 b-PERSON
· m-PERSON
加德纳 e-PERSON
: o
如果 o
你 o
有 o
梦想 o
, o
就 o
要 o
捍卫 o
它 o
。 o

如果不需要分词,即每个字当做一个词。下面是不需要分词的格式:

克 里 斯 · 加 德 纳 : 如 果 你 有 梦 想 , 就 要 捍 卫 它 。

克 b-PERSON
里 m-PERSON
斯 m-PERSON
· m-PERSON
加 m-PERSON
德 m-PERSON
纳 e-PERSON
: o
如 o
果 o
你 o
有 o
梦 o
想 o
, o
就 o
要 o
捍 o
卫 o
它 o
。 o

ps.如果出现连续的空格,是不符合要求的,但并不会提示错误,会导致生成最终数据时,这一条数据会遗失。

1.2 删除语料

如果这个语料已经创建了任务,会删除所有和这个语料相关的所有任务,务必慎重。

1.3 修改语料

如果这个语料已经创建了任务,则只能修改语料名称。

1.4 查看所有语料

用户可以查看自己上传的所有语料,并进行管理。

二、任务

目前只支持分类任务和序列标注任务。如果数据非常大,创建任务这个过程比较缓慢,请耐心等待。

2.1 创建任务

在上传完语料之后,可以选择一份语料创建任务。

首先可以选择该任务的标注人员,系统认为创建该任务的用户默认是标注人员,并且默认生成该任务的用户标注的作为精标数据。当然也可以不添加任何用户,后期修改时再进行添加。
如图所示:系统会根据模糊查询自动提示用户名,选中某个标注人员后,点击添加,然后已选择用户就会加入该标注人员。
此处输入图片的描述

然后还要选择一些其他的标注信息。
此处输入图片的描述
如上图所示
语料,下拉列表中会显示该用户添加的所有语料信息,选择一个语料创建任务。
功能选择,目前只有分类和序列标注。
名称,为该任务起一个名称,同一个用户的所有任务名称不可以重复。
标注规范目前只允许上传txt和pdf文件。
操作就是用户想要标注的标签。
如果选择的是分类任务,那么标签就代表分类的标签,如果任务是情感分类,三分类标签为positive,negative,neutral。
如下图所示:
此处输入图片的描述
如果选择的序列标注任务,那么标签就代表序列标注的标签,如果任务是命名实体识别,种类为person,location,company。
如下图所示:
此处输入图片的描述

2.2 删除任务

会删除这个任务的所有数据,务必慎重。

2.3 修改任务

只能修改该任务的名称,标注规范和进行人员变动。

2.4 查看所有任务

用户可以查看个人创建的所有任务,并进行管理。

2.5 结束任务

任务创建者可以提前结束任务。

2.6 统计

任务创建者可以任务的详细情况。

目前有些算法不够完善,比如评价标注质量和人员得分。

2.7 模型训练与预测

模型训练与预测是一个定时操作,可以自动定时训练并且预测,预测的结果提供给标注人员,从而减少工作人员的工作量。但是有些情况下,用户可以选择不采用系统提供的定时自动训练,而是选择下载已经标注的众包数据,然后自己训练并且预测再上传回到本平台中。

三、标注

3.1 创建任务者标注

系统默认创建任务者标注的数据是精标,而且必须先标注一定的数目(数目可以在系统中修改),当创建任务者标注到该数目时,其他人员才可以开始标注。其他人员一开始标注的内容会和任务创建者标注的内容重复,这是为了检测标注人员的标注质量。

3.2 标注人员进行标注

首先,标注人员选择一个任务。如图所示,当前选择的是phone_ner这个任务:
此处输入图片的描述

然后,标注人员就可以进行标注了。例如下图,att,eva,rea,fac,sug,con是创建任务者要求的序列标注任务的标签。标注人员选中某个标签后,在下文中拖动鼠标标注出该标签所对应的内容即可。左边的按钮(对号)是提交标注结果,中间的按钮是取消当前标注内容,重新标注,右边的按钮(眼睛)是显示创建任务者提供的标注规范,方便标注人员查看。
此处输入图片的描述

3.3 统计

标注人员通过统计功能可以查看:

3.4 历史记录

历史记录只能查看和修改分类任务中最近标注的10条数据和序列标注任务中最近标注的10条数据。

四、使用方法

4.1 windows

1、clone项目
git clone xxx

2、配置环境
安装好环境:
python 3.6
Django 1.11.8
mysql 5.7.21
以及Django使用mysql的依赖包

  1. pip install pymysql

3、建一个数据库
名称随意,字符集为utf-8mb4。

4、修改配置文件
根目录下Chinese_Annotator/settings.py
在DATABASES中NAME参数改为3中的数据库名字,账号密码为数据库的账号密码。

5、运行
首先在根目录下执行:
python manage.py makemigrations
然后执行:
python manage.py migrate
以上命令是创建数据库并创建好表结构
最后执行
python manage.py runserver 127.0.0.1:8000
ip与端口号可以根据需求修改。

6、超级管理员
在数据库中手动写入一个超级管理员账号密码,type字段为3,拥有最高权限。
使用管理员权限通过任务创建者的申请。

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注