DXF文件的图形化文字识别与转换软件外包开发服务公司-软件外包-软件外包平台

DXF文件的图形化文字识别与转换

预算待商议发布时间

技术要求：

位程序员正在竞标中

项目内容描述

一：项目简介
基于 Python 制作一个算法，识别机械图纸中以图像/图形形式绘制的文字（非标准CAD文本对象），并将其识别转换为可编辑的标准文本图元。

二：项目目标
1）可以识别图纸中所有以图形方式绘制的文字区域（主要包含数字、英文；中文视难度可进行交流）；
2）识别完文字区域后，需在后台存储该区域的最大外接矩形的坐标（该坐标需要能对应回 DXF 文件中的世界坐标），以及其识别后的文本内容；
3）将识别出的图形化文字转换为标准CAD文本对象（TEXT/MTEXT），并新建一个 DXF 图层，命名为"Text_Converted_Layer"。

三：功能需求：
1：CAD 图形解析能力（前置要求）：系统应能原生读取并准确解析 .dxf（AutoCAD 2007–2025），完整提取图层、几何实体（点、线、圆、弧、多段线、样条曲线、椭圆、块引用、光栅图像）等元素信息进行处理，确保数据无丢失、无错位。

2：图形化文字区域检测：
1）自动识别并定位图纸中所有以图形方式绘制的文字区域（非标准TEXT/MTEXT对象）；识别能力需覆盖不同字体风格、不同字号、不同旋转角度、不同构成方式（矢量图形、填充、块、图像）的文字；
2）具备良好的抗干扰能力，能够准确区分文字图形与图纸中其他相似图形元素（如零件轮廓、尺寸线、剖面线等），避免误识别；
3）支持识别复杂背景下的文字区域，能够处理文字与图形重叠、交叉等情况。

3：文字识别与转换：
1）对检测出的文字区域进行字符识别，支持英文、数字；中文视难度可进行交流；
2）精确输出识别后文本内容的置信度评分，置信度低于阈值的文本需标记待人工复核；
3）记录每个文字区域的外接矩形坐标（MinX, MinY, MaxX, MaxY）的世界坐标，并以结构化数据（如 JSON）的形式进行存储；
4）输出文字识别清单报表，包含识别文本、坐标位置、置信度、原始图形类型等关键信息。

4：文本标准化处理：
1）将所有转换后的文本对象的图层属性强制修改为"Text_Converted_Layer"。若该图层不存在，则自动创建；
2）保留原始图形化文字对象（可选隐藏或删除，由用户配置），确保可追溯性；
3）支持将识别结果导出为Json文件，便于后续处理；
4）对于识别置信度低的文本，在图纸中添加特殊标记（如红色边框）以便人工复核。

四：验收标准
1：检测精度：在甲方提供的标准测试集（≥100 个包含不同样式、字体、大小和背景的图纸样本）上，综合直通率（正确识别并转换）≥ 98%，误报率 ≤ 2%。
2：识别准确率：字符级识别准确率 ≥ 98%，单词/段落级识别准确率 ≥ 98%；
3：处理效率：单文件（≤500 图元数量）全流程检测耗时 ≤ 5 秒（测试环境：Intel Core i7 / 16GB RAM / SSD）；
4：兼容性：支持 Windows 10/11 操作系统；兼容主流显卡驱动。
5：稳定性：连续运行 72 小时无内存泄漏或崩溃；对损坏的 CAD 文件应弹出友好提示而非程序异常退出。
6：安全性：所有图纸数据仅在本地处理，不得联网传输；操作日志记录检测时间、文件名、问题统计，保留 ≥180 天。
7：开发语言与框架：
使用Python 3.8或者在此之上的其他Python版本，结合常用的工具库实现。
8：CAD 文件处理：
必须使用经过授权的商业级或开源合规的 CAD 解析库（如 ezdxf、pywin32com），禁止使用逆向工程或非授权工具；
9：接口规范：
输入是CAD的dxf文件（以实际为准）。
10：代码质量要求：
代码注释率 ≥ 25%，关键算法需附原理说明。
11：需提供项目源码

竞标

LAST 识别真假冬虫夏...