用户:PhiLiP/nuke
某[谁?]自动程序的计划。
总体要求
- 从enwp抓条目数据,参照是Template:Infobox_Settlement的链入页面。
- 目前只打算抓美国的地理位置,因此仅考虑Country参数为United States的情况。
- 使用跨维基链接自动匹配器检查是否已有中文对应条目,若有则略过。
- 国名、州名可用AI翻译器,无需修改。县名可使用跨维基链接自动匹配器检查;若无其他可能则用AI翻译器,但此时须让监视者修改。
- 地名使用AI翻译器,须让监视者修改。
- 图片说明需人工翻译,但可配合AI翻译器使用。
- 面积、人口使用单位采用英制(沿袭当地用法),但附注公制,可用{{convert}}实现。注意zhwp的convert模板与enwp有些微不同(版本差异?)。
- 采用统一套用模板填写参数,信息框、正文自动产生,分类使用专业处理器处理,跨语言链接自动生成。
- 字数检查机制:正文少于50中文汉字保留不贴。
- 正文须让监视者修改。
AI翻译器的要求
- 输入参数中应包含下列各种翻译类型的指定,以尽量利用信息框所提供内容,简化程序设计。
- 须能从cnki的工具书库中自动检索关键词,自动识别《世界地名翻译大辞典》的解释。无法找到或找到多个不一样结果时采用fallback机制,列出内容供监视者检查、修改。
- 须能自动翻译诸如“Location in the state of XXXX”、“XXXX's location in the YYYY”的英文内容。
- 须能自动翻译时区。
- 须能从cnki的工具书库中自动检索人名(如市长)。
- 须能翻译国名、州名。
- 须能翻译政府类型。
- 不确定的内容须列出输入框供监视者修改。
分类处理器的要求
- 自动探测已存在的分类。
- 自动创建不存在的分类。
实现倚赖软件
- Python
- GAE
- Pywikipedia