HelloWorldExcel表格格式有啥要求
要让HelloWorld顺利读取并翻译Excel文件,关键是把表格做成机器友好且语义清晰的“翻译包”:首行为标准字段名(如 id、source_lang、target_lang、source_text 等),每个单元只放纯文本或路径、不要公式和合并单元格;优先使用 .xlsx(OpenXML)或正确编码的 .csv(UTF-8,Windows下可加BOM);日期用 ISO 8601,换行要转义,字符长度不超 32,767,图片/音频用相对或绝对路径并在字段标注类型。按这些规则,上传、批量处理和回传都会少出错,也便于质量校验和统计。

先把结构想明白:为什么要规范Excel格式
我常把表格想成翻译系统的“午餐便当盒”。如果食物(数据)乱堆在一起,机器人拿着筷子也不知道从哪儿开始吃:是把整列当成语言代码,还是把句子分成了两行?规范格式就是把便当分好格,标签写清楚,让机器一眼就懂如何取餐。
一句话原则
- 一个表头行,明确定义每列含义。
- 一张表表示一类任务(通常一对源/目标语言)。
- 数据以“值”为主,不要把公式、格式或合并单元格当信息承载手段。
文件类型与编码:.xlsx 比 .csv 更“安全”,但各有利弊
选择格式像选刀:.xlsx 是百搭的瑞士刀,能保留更多结构(单元格式、多个工作表、图片引用等);.csv 是简单的菜刀,轻快但对复杂数据支持差。通常建议优先提供 .xlsx,必要时按CSV规则导出。
.xlsx(推荐)
- OpenXML 格式,保留多工作表、单元样式、注释、图片关联。
- 能安心包含长文本(每单元格最多 32,767 字符),也支持多语言字符集(UTF-8)。
- 上传到翻译平台时,系统通常能直接读取列头并保持原样回写。
.csv(替代)
- 优点:体积小、兼容性强、便于脚本批处理。
- 注意事项:必须明确分隔符(通常逗号或制表符),文本用双引号包裹,内部双引号转为双双引号(””)。
- 编码:强烈推荐 UTF-8。Windows 的 Excel 有时需要 BOM (Byte Order Mark) 才能正确识别 UTF-8,否则可能出现中文乱码。
必备列与可选列:把每一条翻译数据分成“DNA”
翻译表格里最重要的是把“语言、内容、上下文”分清楚。下面给出一套实用的字段集合,既覆盖批量翻译的需要,也利于质量检查和回传。
| 列名 | 是否必需 | 类型/格式 | 示例 | 说明 |
| id | 必需 | 字符串/数字(唯一) | 1001 | 唯一标识一行记录,便于回写与追踪 |
| source_lang | 必需 | 语言代码(ISO 639-1 推荐) | en | 源语言,两个字母代码(如 zh, en, ja) |
| target_lang | 必需 | 语言代码 | zh | 目标语言,一个或多个(若多语言翻译建议拆表或多列) |
| source_text | 必需 | 纯文本 | Welcome to HelloWorld! | 要翻译的原文;避免 HTML、格式标记混杂(除非另有约定) |
| context | 可选 | 短文本/说明 | 按钮提示 | 为译者提供场景、风格或用途说明 |
| placeholders | 可选 | 占位符说明 | {user_name} | 说明文本中不可翻的变量或占位符 |
| preserve_formatting | 可选 | 布尔(TRUE/FALSE) | TRUE | 是否保留原有标记/富文本 |
| image_path / audio_path | 可选 | 相对或绝对路径 / URL | images/1.png | 若为图片 OCR/语音识别任务,放资源路径并注明类型 |
| notes | 可选 | 备注 | 专有名词需保持不翻译 | 给校对或译者的补充信息 |
关于语言代码和多语言设置
常用最好遵循 ISO 639-1 两字母代码(如 en, zh, ja, ko)。若需要地区变体(例如简体/繁体或美式/英式),建议用扩展语法如 zh-Hans、zh-Hant、en-US、en-GB。尽量不要在同一行放多种 target_lang,容易造成回写混乱。
文本内容的常见处理规则
换行与多段文本
- 单元格内部允许换行,但建议用显式换行符(LF,\n),并在导出 CSV 时确保用引号包裹。
- 如果平台无法识别换行,考虑把段落拆成多行并用 segment_id 标识顺序。
占位符和变量
占位符(例如 {name}、%s、{0})务必在表中用 placeholders 列说明其含义和格式。翻译时应保证占位符不被改动。你可以把占位符设为不可翻字段或用方括号/显式说明。
数字、货币和日期
- 原始数据尽量使用标准化格式:日期用 ISO 8601(2024-03-20 或 2024-03-20T15:30:00Z);货币用 ISO 4217(USD, CNY)+ 数值分离。
- 如果需要本地化显示(千分符、小数位),可在备注中说明或在回传侧处理。
不要做的事(常见错误)
- 不要把多个逻辑字段塞进同一个单元格(例如把“标题 + 正文”合并成一格)。
- 尽量避免合并单元格和隐藏列——它们会让批处理脚本迷路。
- 不要上传包含活动宏(.xlsm)或有自动执行脚本的文件,安全审计通常会阻止这类文件。
- 避免使用区域性数字格式(像 1.234,56),应使用标准点号小数与明确的分隔说明。
Excel 与 CSV 的细节陷阱与应对
UTF-8 与 BOM
这是让人头疼的地方:在 Windows 下,Excel 有时不能自动识别不带 BOM 的 UTF-8 CSV,会把中文显示为乱码。应对策略:
- 优先提供 .xlsx;
- 若必须用 CSV,则生成 UTF-8 带 BOM 的 CSV(许多导出工具有选项);
- 或使用制表符(TSV)并在导入界面手动指定编码和分隔符。
换行、引号和逗号的转义
CSV 中的文本若包含逗号或换行必须用双引号包裹,内部的双引号要写成两个双引号。例如:He said “OK” → “He said “”OK”””。上传前用脚本校验和抽样查看,能省下很多麻烦。
Excel 自动格式化问题
- 像“2021-01”这样的字符串有时会被 Excel 误识为日期并自动转为 2021年1月。解决办法是在导入时把该列设为文本,或在数据前加单引号(’2021-01),但单引号会成为数据的一部分,导出时需清理。
- 长数字(如信用卡)可能以科学计数法显示,应明确列为文本。
多人协作与版本控制建议
多人同时编辑 Excel 很容易发生覆盖或丢失。建议:
- 用版本号字段或版本控制策略(例如 file_v1, file_v2);
- 在提交到 HelloWorld 前,通过脚本或系统进行预校验(字段完整性、编码、占位符一致性)。
- 把“原始文件”与“送审文件/回写文件”分开,避免直接在原文件回写导致混乱。
验证与质量检查清单(发文件前请逐项核对)
- 首行是否为规范表头(无空白或重复列名)?
- 必需列(id、source_lang、target_lang、source_text)是否全部存在且无空值?
- 编码是否为 UTF-8(CSV 是否带 BOM 根据目标环境确定)?
- 是否存在合并或隐藏单元格?如果有,是否已拆分并记录映射?
- 是否删除了所有公式并保留计算结果值?
- 占位符是否统一且在 placeholders/notes 中说明?
- 图片/音频资源路径是否可访问并在表中正确标注?
- 单元格长度是否超出 32,767 字符?
样例:一个简单的 Excel 模板(可复制粘贴)
下面这个示例展示了普通的批量文本翻译表格结构。一般把它做成 .xlsx,再让系统一次性处理。
| id | source_lang | target_lang | source_text | context | placeholders | notes |
| 1001 | en | zh | Welcome, {user_name}! | 登录欢迎语 | {user_name} | 保留占位符,不翻译品牌名 HelloWorld |
| 1002 | en | zh | Order total: $ {amount} | 结算页显示 | {amount} | 货币符号单独处理 |
图片、音频、OCR 与语音识别的特殊说明
如果是图片翻译或语音翻译任务,Excel 中应放资源路径而非二进制数据。路径可以是相对路径(与 Excel 同一压缩包)或可访问的 URL。并在一列注明资源类型(image/audio)与期望处理方式(OCR/ASR)。
回写与导出:如何保证翻译结果能正确回填
回写时通常需要一个或多个回传列,例如 translated_text、status、quality_score。约定好这些列名与状态编码(例如 DONE/REVIEW/LOCK)可以让回写自动化且可追踪。
最后,几条实用小贴士(真心有用)
- 把样例行放在表头下方做“示例说明”,便于工具或同事快速理解。
- 做一次小规模试运行(50–200 行),验证导入、翻译和回写流程是否顺畅,再批量上传。
- 为关键术语建立术语表并在表中提供链接或附加工作表名(terms),保持译文一致性。
- 若无法避免复杂富文本,考虑把富文本转换成带标记的纯文本(如 Markdown)并在字段中注明解析规则。
嗯,我说这些的过程里其实还有很多细节会根据具体场景变:比如电商的 SKU 翻译会更关注货币和规格单位,应用界面翻译需要短句优先,还有游戏、本地化项目会有更多上下文文件。但总体上,保证字段清晰、文本原子化、编码正确、资源路径明确,这四条准则就能把绝大多数问题都扼杀在摇篮里。把表格做干净一点,机器就能更聪明地工作,人也能省下大量来回确认的时间。