用PaddleOCR调整LayoutLMv3模型-Part2: 使用label-studio为标注文档添加标签

Find AI Tools

No difficulty

No complicated process

Find ai tools

Home AI News CN 用PaddleOCR调整LayoutLMv3模型-Part2: 使用label-studio为标注文档添加标签

用PaddleOCR调整LayoutLMv3模型-Part2: 使用label-studio为标注文档添加标签

引言

在我们的上一个视频中，我们将特斯拉的财务报表转换成了图片，并通过目录提取了这些图片。我们还提取了Json文件，因此大约有125张图片，因为简单起见，我下载了这个测试PDF，它只有一页，所以我们可以很容易地对其进行注释，如要提取的标题和项目。首先，我们将把这个PDF转换为图像，为了将PDF转换为图像，我们已经编写了代码，执行此代码将读取tc.pdf文件，并将其转换为图像文件。图像文件的转换完成后，我们将运行该文件以创建具有数据集的布局，需要运行此文件时，在图像文件夹中检查一下，如果文件名中有.dot PNG，它将把它转换为一个Json文件，ftc-labeled-hypers Studio中的TC-TC-Json文件已经执行完毕，可以在这里看到这个Json文件，这个Json文件需要更新到Label Studio，所以在将其更新到Label Studio之前，我们需要启动一个本地服务器，在本地服务器上可以访问TC-page-p1文件，为此，我们可以直接进入该文件夹，像这样导航到图像文件夹，是的，我们可以导航到图像文件夹，并键入python space，HTTP Dot server，并以8080作为端口号输入，因为我们在这里给出的端口号是8080。在输入端口号后，按回车键，这将创建一个本地服务器，我们可以通过浏览器访问这些TC.pg1文件，您可以直接检查通过浏览器，通过键入，12 127.0.1.80，是的，您可以看到您能够通过浏览器访问这个DC-one，我们将启动Label Studio，然后键入如下命令，因此，如果您遇到访问错误，即使您能够从本地服务器访问TC页图像文件，但无法在您的Label Studio中加载它，您可以解决，与我们的问题一样，路径是正确的，localhost:8080/TC-page-p1.png，但当我选择标签和图像格式时，它无法加载，错误是因为当您右键单击并转到检查元素时，在控制台窗口中，您可以看到访问控制允许起源已被CORS策略阻止，如果您遇到相同的问题，因此，正如我们所执行的，仅使用python-HTTP简单的服务器，它将创建一些，它不会拥有访问所有的代码策略以允许所有的代码策略，我们需要编写我们自己的简单脚本，在其中的标头中，我们需要写入访问控制允许起源，所以我们将停止该HTTP服务器，并运行这个简单的Python代码，在这里，它的端口号与8080相同，因此要启动我们自己的本地服务器，在其中我们可以访问我们的文件，您可以直接在Visual Studio Code中运行这个脚本，或者可以进入所在的同一个文件夹，就像我在一个图像文件夹中启动了所有这些，确保在那里有相同的.py文件与图像在同一个文件夹中，以便它可以访问它将允许访问，在同一个文件夹中运行的图像，所以我们可以打开命令提示符并通过Python执行该，代码并键入文件名，所以通过这样做，它将启动本地服务器，我们可以访问这些图像，一旦你能够访问所有的图像文件从本地服务器，我们将启动我们的Label Studio，为了启动Label Studio，我们可以直接从终端出来，创建新的终端，在新的终端中，我们可以键入，label Studio，并且端口号和8080相同，由于我们正在8080上运行本地服务器以访问该文件，为了删除这个，我们将Label Studio，手机Python的端口号更改为81，然后点击保存并导入，我们需要导入Json文件，我们已经为TC做好了准备，它将从parallels提取，这里的默认值将是STRING，类型，我们需要将其转换为图像，这里可以看到，如果您能够成功在本地服务器上加载它，您将在此处得到一个完全加载的结果，在设置中浏览模板，并选择光学字符识别，根据您的需求，您可以提及您的要求，我将按照您的希望写入，没有正文，头部，项目，根据您的意愿，您可以选择标签，并且您甚至可以更改标签的颜色，根据您的意愿，您可以保存它，并点击图像，这里，这两个parallels一起完成了所有的固定提取部分，您可以看到文本提取部分已经完成，边界框在这里，您可以单击任何标签，并将其设置为您想要提取的标签，然后是头部，如果要忽略此文本，可以忽略，单击忽略，一旦完成了标记，您可以单击提交按钮，一旦单击提交按钮，您可以导出它，并且在单击后，它将得到一个Json文件，一旦导出Json文件，您可以将其用于在layer-layout-lmp3模型上进行训练，这里，我们将得到三种模型，athletic boxing，盒状盒子的文本文本本身，以及图像的完整布局，因此，我们的模型将具有三个坚固的数据集和三个鲁棒性模式进行训练，因此我们将得到精确的文本信息，我们要提取的信息，就这样，在下一个视频中，我们将看到如何训练我们的布局模型，谢谢。

1. 引言

在我们的上一个视频中，我们将特斯拉的财务报表转换成了图片，并通过目录提取了这些图片。我们还提取了Json文件，因此大约有125张图片，因为简单起见，我下载了这个测试PDF，它只有一页，所以我们可以很容易地对其进行注释，如要提取的标题和项目。首先，我们将把这个PDF转换为图像，为了将PDF转换为图像，我们已经编写了代码，执行此代码将读取tc.pdf文件，并将其转换为图像文件。图像文件的转换完成后，我们将运行该文件以创建具有数据集的布局，需要运行此文件时，在图像文件夹中检查一下，如果文件名中有.dot PNG，它将把它转换为一个Json文件，ftc-labeled-hypers Studio中的TC-TC-Json文件已经执行完毕，可以在这里看到这个Json文件，这个Json文件需要更新到Label Studio，所以在将其更新到Label Studio之前，我们需要启动一个本地服务器，在本地服务器上可以访问TC-page-p1文件，为此，我们可以直接进入该文件夹，像这样导航到图像文件夹，是的，我们可以导航到图像文件夹，并键入python space，HTTP Dot server，并以8080作为端口号输入，因为我们在这里给出的端口号是8080。在输入端口号后，按回车键，这将创建一个本地服务器，我们可以通过浏览器访问这些TC.pg1文件，您可以直接检查通过浏览器，通过键入，12 127.0.1.80，是的，您可以看到您能够通过浏览器访问这个DC-one，我们将启动Label Studio，然后键入如下命令，因此，如果您遇到访问错误，即使您能够从本地服务器访问TC页图像文件，但无法在您的Label Studio中加载它，您可以解决，与我们的问题一样，路径是正确的，localhost:8080/TC-page-p1.png，但当我选择标签和图像格式时，它无法加载，错误是因为当您右键单击并转到检查元素时，在控制台窗口中，您可以看到访问使控制允许起源已被CORS策略阻止，如果您遇到相同的问题，因此，正如我们所执行的，我们仅使用python-HTTP简单服务器，它将创建某些，它不会拥有访问所有的代码策略以允许所有的代码策略，我们需要编写我们自己的简单脚本，在其中的标头中，我们需要写入访问控制允许起源，所以我们将停止该HTTP服务器，并运行这个简单的Python代码，在这里，它的端口号与8080相同，因此要启动我们自己的本地服务器，在其中我们可以访问我们的文件，您可以直接在Visual Studio Code中运行这个脚本，或者可以进入所在的同一个文件夹，就像我在一个图像文件夹中启动了所有这些，确保在那里有相同的.py文件与图像在同一个文件夹中，以便它可以访问它将允许访问在同一个文件夹中运行的图像，所以我们可以打开命令提示符并通过Python执行该代码并键入文件名，所以通过这样做，它将启动本地服务器，我们可以访问这些图像，一旦你能够访问所有的图像文件从本地服务器，我们将启动我们的Label Studio，为了启动Label Studio，我们可以直接从终端出来，创建新的终端，在新的终端中，我们可以键入，label Studio，并且端口号和8080相同，由于我们正在8080上运行本地服务器以访问该文件，为了删除这个，我们将Label Studio，手机Python的端口号更改为81，然后点击保存并导入，我们需要导入Json文件，我们已经为TC做好了准备，它将从parallels提取，这里的默认值将是string，类型，我们需要将其转换为图像，这里可以看到，如果您能够成功在本地服务器上加载它，您将在此处得到一个完全加载的结果，在设置中浏览模板，并选择光学字符识别，根据您的需求，您可以提及您的要求，我将按照您的希望写入，没有正文，头部，项目，根据您的意愿，您可以选择标签，并且您甚至可以更改标签的颜色，根据您的意愿，您可以保存它，并点击图像，这里，这两个parallels一起完成了所有的固定提取部分，您可以看到文本提取部分已经完成，边界框在这里，您可以单击任何标签，并将其设置为您想要提取的标签，然后是头部，如果要忽略此文本，可以忽略，单击忽略，一旦完成了标记，您可以单击提交按钮，一旦单击提交按钮，您可以导出它，并且在单击后，它将得到一个Json文件，一旦导出Json文件，您可以将其用于在layer-layout-lmp3模型上进行训练，这里，我们将得到三种模型，athletic boxing，盒状盒子的文本文本本身，以及图像的完整布局，因此，我们的模型将具有三个坚固的数据集和三个鲁棒性模式进行训练，因此我们将得到精确的文本信息，我们要提取的信息，就这样，在下一个视频中，我们将看到如何训练我们的布局模型，谢谢。

2. 将PDF转换为图像

要将PDF文件转换为图像文件，我们需要使用Python代码。首先，我们需要安装所需的库和软件，然后使用以下代码执行转换：

<!-- 转换PDF为图像 -->
import pdf2image

# 指定输入PDF文件路径
pdf_file = 'tc.pdf'

# 将PDF文件转换为图像
images = pdf2image.convert_from_path(pdf_file)

# 保存图像文件
for i, image in enumerate(images):
    image.save(f'tc{i}.jpg', 'JPEG')

这段代码将读取名为tc.pdf的PDF文件，并将其转换为多个图像文件（JPEG格式）。您可以在代码中更改文件名和保存格式。一旦运行代码，您将获得一个包含图像文件的文件夹。

3. 创建布局模板并转换为JSON文件

在这一步中，我们将使用Label Studio来创建一个布局模板，并将其转换为JSON文件。首先，我们需要安装Label Studio，并启动Label Studio服务。然后，在Label Studio界面中，创建一个布局模板，定义文本标题和项目。您还可以根据需要添加其他标签和自定义样式。完成布局模板后，将其保存为JSON文件。将此JSON文件保存在与图像文件相同的文件夹中。

4. 在本地服务器上访问图像文件

为了在本地服务器上访问图像文件，我们需要运行一个简单的Python服务器。在命令提示符窗口中，导航到图像文件夹所在的目录，并运行以下命令：

python -m http.server 8080

这将在8080端口上创建一个本地服务器。您可以在任何现代浏览器中通过输入http://localhost:8080/来访问图像文件。

5. 使用Label Studio进行标注

现在，我们可以使用Label Studio来标注我们的图像数据。打开浏览器，并在地址栏中输入http://localhost:8081以访问Label Studio界面。从导航栏中选择您的布局模板，并导入之前创建的JSON文件。您将看到图片以及与之相关的文本标题和项目。使用Label Studio提供的工具和命令，逐个标注图像。您可以选择项目标签，忽略文本或进行其他标注操作。完成标注后，点击提交按钮。