用PaddleOCR调整LayoutLMv3模型-Part2: 使用label-studio为标注文档添加标签

Find AI Tools
No difficulty
No complicated process
Find ai tools

用PaddleOCR调整LayoutLMv3模型-Part2: 使用label-studio为标注文档添加标签

目录

1. 引言

2. 将PDF转换为图像

3. 创建布局模板并转换为JSON文件

4. 在本地服务器上访问图像文件

5. 使用Label Studio进行标注

6. 导出标注结果为JSON文件

7. 使用JSON文件进行模型训练

8. 结论

9. 参考资源

引言

在我们的上一个视频中,我们将特斯拉的财务报表转换成了图片,并通过目录提取了这些图片。我们还提取了Json文件,因此大约有125张图片,因为简单起见,我下载了这个测试PDF,它只有一页,所以我们可以很容易地对其进行注释,如要提取的标题和项目。首先,我们将把这个PDF转换为图像,为了将PDF转换为图像,我们已经编写了代码,执行此代码将读取tc.pdf文件,并将其转换为图像文件。图像文件的转换完成后,我们将运行该文件以创建具有数据集的布局,需要运行此文件时,在图像文件夹中检查一下,如果文件名中有.dot PNG,它将把它转换为一个Json文件,ftc-labeled-hypers Studio中的TC-TC-Json文件已经执行完毕,可以在这里看到这个Json文件,这个Json文件需要更新到Label Studio,所以在将其更新到Label Studio之前,我们需要启动一个本地服务器,在本地服务器上可以访问TC-page-p1文件,为此,我们可以直接进入该文件夹,像这样导航到图像文件夹,是的,我们可以导航到图像文件夹,并键入python space,HTTP Dot server,并以8080作为端口号输入,因为我们在这里给出的端口号是8080。在输入端口号后,按回车键,这将创建一个本地服务器,我们可以通过浏览器访问这些TC.pg1文件,您可以直接检查通过浏览器,通过键入,12 127.0.1.80,是的,您可以看到您能够通过浏览器访问这个DC-one,我们将启动Label Studio,然后键入如下命令,因此,如果您遇到访问错误,即使您能够从本地服务器访问TC页图像文件,但无法在您的Label Studio中加载它,您可以解决,与我们的问题一样,路径是正确的,localhost:8080/TC-page-p1.png,但当我选择标签和图像格式时,它无法加载,错误是因为当您右键单击并转到检查元素时,在控制台窗口中,您可以看到访问控制允许起源已被CORS策略阻止,如果您遇到相同的问题,因此,正如我们所执行的,仅使用python-HTTP简单的服务器,它将创建一些,它不会拥有访问所有的代码策略以允许所有的代码策略,我们需要编写我们自己的简单脚本,在其中的标头中,我们需要写入访问控制允许起源,所以我们将停止该HTTP服务器,并运行这个简单的Python代码,在这里,它的端口号与8080相同,因此要启动我们自己的本地服务器,在其中我们可以访问我们的文件,您可以直接在Visual Studio Code中运行这个脚本,或者可以进入所在的同一个文件夹,就像我在一个图像文件夹中启动了所有这些,确保在那里有相同的.py文件与图像在同一个文件夹中,以便它可以访问它将允许访问,在同一个文件夹中运行的图像,所以我们可以打开命令提示符并通过Python执行该,代码并键入文件名,所以通过这样做,它将启动本地服务器,我们可以访问这些图像,一旦你能够访问所有的图像文件从本地服务器,我们将启动我们的Label Studio,为了启动Label Studio,我们可以直接从终端出来,创建新的终端,在新的终端中,我们可以键入,label Studio,并且端口号和8080相同,由于我们正在8080上运行本地服务器以访问该文件,为了删除这个,我们将Label Studio,手机Python的端口号更改为81,然后点击保存并导入,我们需要导入Json文件,我们已经为TC做好了准备,它将从parallels提取,这里的默认值将是STRING,类型,我们需要将其转换为图像,这里可以看到,如果您能够成功在本地服务器上加载它,您将在此处得到一个完全加载的结果,在设置中浏览模板,并选择光学字符识别,根据您的需求,您可以提及您的要求,我将按照您的希望写入,没有正文,头部,项目,根据您的意愿,您可以选择标签,并且您甚至可以更改标签的颜色,根据您的意愿,您可以保存它,并点击图像,这里,这两个parallels一起完成了所有的固定提取部分,您可以看到文本提取部分已经完成,边界框在这里,您可以单击任何标签,并将其设置为您想要提取的标签,然后是头部,如果要忽略此文本,可以忽略,单击忽略,一旦完成了标记,您可以单击提交按钮,一旦单击提交按钮,您可以导出它,并且在单击后,它将得到一个Json文件,一旦导出Json文件,您可以将其用于在layer-layout-lmp3模型上进行训练,这里,我们将得到三种模型,athletic boxing,盒状盒子的文本文本本身,以及图像的完整布局,因此,我们的模型将具有三个坚固的数据集和三个鲁棒性模式进行训练,因此我们将得到精确的文本信息,我们要提取的信息,就这样,在下一个视频中,我们将看到如何训练我们的布局模型,谢谢。

1. 引言

在我们的上一个视频中,我们将特斯拉的财务报表转换成了图片,并通过目录提取了这些图片。我们还提取了Json文件,因此大约有125张图片,因为简单起见,我下载了这个测试PDF,它只有一页,所以我们可以很容易地对其进行注释,如要提取的标题和项目。首先,我们将把这个PDF转换为图像,为了将PDF转换为图像,我们已经编写了代码,执行此代码将读取tc.pdf文件,并将其转换为图像文件。图像文件的转换完成后,我们将运行该文件以创建具有数据集的布局,需要运行此文件时,在图像文件夹中检查一下,如果文件名中有.dot PNG,它将把它转换为一个Json文件,ftc-labeled-hypers Studio中的TC-TC-Json文件已经执行完毕,可以在这里看到这个Json文件,这个Json文件需要更新到Label Studio,所以在将其更新到Label Studio之前,我们需要启动一个本地服务器,在本地服务器上可以访问TC-page-p1文件,为此,我们可以直接进入该文件夹,像这样导航到图像文件夹,是的,我们可以导航到图像文件夹,并键入python space,HTTP Dot server,并以8080作为端口号输入,因为我们在这里给出的端口号是8080。在输入端口号后,按回车键,这将创建一个本地服务器,我们可以通过浏览器访问这些TC.pg1文件,您可以直接检查通过浏览器,通过键入,12 127.0.1.80,是的,您可以看到您能够通过浏览器访问这个DC-one,我们将启动Label Studio,然后键入如下命令,因此,如果您遇到访问错误,即使您能够从本地服务器访问TC页图像文件,但无法在您的Label Studio中加载它,您可以解决,与我们的问题一样,路径是正确的,localhost:8080/TC-page-p1.png,但当我选择标签和图像格式时,它无法加载,错误是因为当您右键单击并转到检查元素时,在控制台窗口中,您可以看到访问使控制允许起源已被CORS策略阻止,如果您遇到相同的问题,因此,正如我们所执行的,我们仅使用python-HTTP简单服务器,它将创建某些,它不会拥有访问所有的代码策略以允许所有的代码策略,我们需要编写我们自己的简单脚本,在其中的标头中,我们需要写入访问控制允许起源,所以我们将停止该HTTP服务器,并运行这个简单的Python代码,在这里,它的端口号与8080相同,因此要启动我们自己的本地服务器,在其中我们可以访问我们的文件,您可以直接在Visual Studio Code中运行这个脚本,或者可以进入所在的同一个文件夹,就像我在一个图像文件夹中启动了所有这些,确保在那里有相同的.py文件与图像在同一个文件夹中,以便它可以访问它将允许访问在同一个文件夹中运行的图像,所以我们可以打开命令提示符并通过Python执行该代码并键入文件名,所以通过这样做,它将启动本地服务器,我们可以访问这些图像,一旦你能够访问所有的图像文件从本地服务器,我们将启动我们的Label Studio,为了启动Label Studio,我们可以直接从终端出来,创建新的终端,在新的终端中,我们可以键入,label Studio,并且端口号和8080相同,由于我们正在8080上运行本地服务器以访问该文件,为了删除这个,我们将Label Studio,手机Python的端口号更改为81,然后点击保存并导入,我们需要导入Json文件,我们已经为TC做好了准备,它将从parallels提取,这里的默认值将是string,类型,我们需要将其转换为图像,这里可以看到,如果您能够成功在本地服务器上加载它,您将在此处得到一个完全加载的结果,在设置中浏览模板,并选择光学字符识别,根据您的需求,您可以提及您的要求,我将按照您的希望写入,没有正文,头部,项目,根据您的意愿,您可以选择标签,并且您甚至可以更改标签的颜色,根据您的意愿,您可以保存它,并点击图像,这里,这两个parallels一起完成了所有的固定提取部分,您可以看到文本提取部分已经完成,边界框在这里,您可以单击任何标签,并将其设置为您想要提取的标签,然后是头部,如果要忽略此文本,可以忽略,单击忽略,一旦完成了标记,您可以单击提交按钮,一旦单击提交按钮,您可以导出它,并且在单击后,它将得到一个Json文件,一旦导出Json文件,您可以将其用于在layer-layout-lmp3模型上进行训练,这里,我们将得到三种模型,athletic boxing,盒状盒子的文本文本本身,以及图像的完整布局,因此,我们的模型将具有三个坚固的数据集和三个鲁棒性模式进行训练,因此我们将得到精确的文本信息,我们要提取的信息,就这样,在下一个视频中,我们将看到如何训练我们的布局模型,谢谢。

2. 将PDF转换为图像

要将PDF文件转换为图像文件,我们需要使用Python代码。首先,我们需要安装所需的库和软件,然后使用以下代码执行转换:

<!-- 转换PDF为图像 -->
import pdf2image

# 指定输入PDF文件路径
pdf_file = 'tc.pdf'

# 将PDF文件转换为图像
images = pdf2image.convert_from_path(pdf_file)

# 保存图像文件
for i, image in enumerate(images):
    image.save(f'tc{i}.jpg', 'JPEG')

这段代码将读取名为tc.pdf的PDF文件,并将其转换为多个图像文件(JPEG格式)。您可以在代码中更改文件名和保存格式。一旦运行代码,您将获得一个包含图像文件的文件夹。

3. 创建布局模板并转换为JSON文件

在这一步中,我们将使用Label Studio来创建一个布局模板,并将其转换为JSON文件。首先,我们需要安装Label Studio,并启动Label Studio服务。然后,在Label Studio界面中,创建一个布局模板,定义文本标题和项目。您还可以根据需要添加其他标签和自定义样式。完成布局模板后,将其保存为JSON文件。将此JSON文件保存在与图像文件相同的文件夹中。

4. 在本地服务器上访问图像文件

为了在本地服务器上访问图像文件,我们需要运行一个简单的Python服务器。在命令提示符窗口中,导航到图像文件夹所在的目录,并运行以下命令:

python -m http.server 8080

这将在8080端口上创建一个本地服务器。您可以在任何现代浏览器中通过输入http://localhost:8080/来访问图像文件。

5. 使用Label Studio进行标注

现在,我们可以使用Label Studio来标注我们的图像数据。打开浏览器,并在地址栏中输入http://localhost:8081以访问Label Studio界面。从导航栏中选择您的布局模板,并导入之前创建的JSON文件。您将看到图片以及与之相关的文本标题和项目。使用Label Studio提供的工具和命令,逐个标注图像。您可以选择项目标签,忽略文本或进行其他标注操作。完成标注后,点击提交按钮。

6. 导出标注结果为JSON文件

标注完成后,我们需要导出标注结果。在Label Studio界面中,点击导出按钮,并选择导出为JSON文件。这将生成一个具有所有标注信息的JSON文件。将此JSON文件保存在您选择的目录中。

7. 使用JSON文件进行模型训练

现在,我们可以使用标注的JSON文件来训练我们的布局模型。根据您选择的深度学习框架和模型类型,将JSON文件加载到模型训练代码中。通过将图像和文本标题/项目作为输入数据,训练模型以从新图像中提取相应的文本信息。完成模型训练后,您将能够准确地提取特定的文本标题和项目信息。

8. 结论

通过使用上述方法,您可以将PDF文件转换为图像,并使用Label Studio工具进行图像标注。通过训练布局模型,您可以准确地提取特定的文本信息。这对于处理大量文档和数据集非常有用,可以提高工作效率。希望本文对您有所帮助。

9. 参考资源

亮点

  • 将PDF转换为图像文件
  • 使用Label Studio进行图像标注
  • 创建自定义布局模板
  • 导出标注结果为JSON文件
  • 使用JSON文件进行模型训练

常见问题解答

问题:是否有其他方法可以将PDF转换为图像?

答:是的,除了使用pdf2image库,还有其他库和软件可以实现PDF到图像的转换,如pdf2jpg、Adobe Acrobat等。

问题:是否可以在Label Studio中创建多个布局模板?

答:是的,您可以根据需要创建多个布局模板,并根据特定的图像集对它们进行选择。

问题:是否可以使用Label Studio以外的工具进行图像标注?

答:是的,有许多其他图像标注工具可供选择,如VGG Image Annotator (VIA)、RectLabel、Supervisely等。

问题:除了训练布局模型,还有其他的应用场景吗?

答:是的,通过标注和训练模型,您可以创建自定义的文本和图像识别系统,并应用于OCR(光学字符识别)、数据挖掘、自然语言处理等领域。

Most people like

Are you spending too much time looking for ai tools?
App rating
4.9
AI Tools
100k+
Trusted Users
5000+
WHY YOU SHOULD CHOOSE TOOLIFY

TOOLIFY is the best ai tool source.