法律检索调研
此调研旨在发掘法律检索领域的现状及其入场可能性,包括法律行业发展分布状况、现有法律工具状况、法律检索相关技术,最后探讨法律检索入场的可能性和切入点。
法律行业概括
法律业务通常分为诉讼业务和非诉业务,我国现阶段仍然是诉讼业务的营业额大于非诉业务(大概是 7:3),一线城市大概五五开。
法律行业市场规模逐年增加,大概情况如下图所示。结构上,非诉业务增长更快。
根据 2018 年司法部发布的数据划分,律师数量在 100 人及以上的律师事务所为第一梯队,共有 260 家,占比为 0.9%;律师数量在 30 至 100 人的律师事务所为第二梯队,共有 1770 家,占比 6.0%;律师数量在 30 人以下的律师事务所为第三梯队,共有 28300 家,占比 93.1%。——头豹
律所的规模分布大致呈金字塔结构,规模越大,数量越少,而且个人所占到总体的两成多。
现有法律检索工具分析
先说说三款官方背景检索软件(通病就是用户体验不好,专业方面数据比较全)
- 中国裁判文书网,官方判决书下载,案例最全
- 法信,人民法院和司法大数据研究中心开发的,司法观点,法规都挺全的
- 北大法宝,律协会给每个持证律师都没费申请一个账号,判决书、法规和法条释义都挺丰富,有合同模版功能
产品 | 数据源 | 聚合数据可视化 | 标签 | 附加功能 | 缺点 | 费用 |
---|---|---|---|---|---|---|
聚法案例 | 裁判文书、检查文书、法规 | 裁判结果聚合 | 案件结果标签 | 合同模板、计算器 | 不支持行政处罚的检索 | 绝大部分基础功能免费,但检索次数受限 |
alpha | 裁判文书、检查文书、行政处罚、法规、标准、最高院出版物、部门规章 | 多维度分析,聚合功能强大 | 案件分类标签、案件结果标签 | 检索报告;管理功能;社区;同步检索知网、微博、微信、商标、专利、工商等信息 | 尽职调查模块实用性差 | 收费体验 |
威科先行 | 裁判文书、检查文书、行政处罚、法规、国际条约、标准 | 多维度分析 | 无标签 | 文书模板、计算器 | 界面繁杂 | 不支持免费使用 |
其他的如无讼案例、openlaw、把手案例、元典智库、秘塔都是功能比较单一的法律检索工具。
技术关键点
- 数据源获取:法条法规的爬取(国家法条法规数据库、国务院政策文件库等,包括历史沿革),裁判文书、检查文书、行政处罚的爬取;人民法院出版物录入;庭审直播爬取;
- 法条映射:法条法规的条款项解析和特殊格式解析,案例的法条提取,案例和法条的双向映射;
- 语义分析:案例关键词提取,案情描述智能解析;
- 聚合分析:法条案例等的多维度聚合分析;
- 第三方集成:集成国家标准、公司主体、专利、商标、执行信息、期刊论文等板块;
- 用户体验:检索报告生成;聚类可视化;尽职调查指引;案件协作,律所管理,社区分享;计算器;
- 文书工具:合同模版,审查;可视化工具(processon);写作辅助工具;
前四项是核心,后三项是拓展。
结论
行业调研结论
此调研的法律行业调研仅局限在律所调研,未设计会计事务所、咨询、企业法务等领域。
从规模和营收看,可以粗略的区分成两条差异化竞争领域:
- 大律所、会计事务所等大客户的定制化服务
- 中小律所等小客户的平均化服务(例如 Alpha)
竞品调研结论
法律检索业务已经较为成熟,先后有威科先行、Alpha 和聚法案例等业务深入且全面的产品,也有秘塔、元典智库、无颂案例等各具特色的产品,几乎没有业务创新的空间了。
如果想进入法律检索领域,必须要选择一个相关的领域,然后通过业务拓展的方式加入法律检索模块。相关领域可能有:
- 尽职调查
- 文书写作
- 合同审查
- 工商信息检索
技术调研结论
法律检索的核心技术可以概括为:数据源的爬取和整理;ES;关键词模型(基于分词和 TF-IDF);少量的 NLP。这些技术都是非常成熟的,而且能够满足需求。
法律检索相关的业务,理论和技术都不够成熟,有研发空间。例如:
- 法律可视化工具:通过梳理法律业务,做为法律定制的可视化工具
- 合同核查:目前仅在借贷合同等领域实现,通过 NLP 识别合同要素还有不少研发空间
- 尽职调查工具:涉及流程引擎、底稿管理等技术,比较繁杂,做容易,做好难
- 文书写作工具:目前还未有围绕文书写作布局功能的工具,需要集成法律知识管理系统、写作辅助工具、文档协作等能力
甚至还能做。。。
- 以 App 为载体,将非形式逻辑引入诉讼
- 通过开庭录像和大数据分析法官性格、动机、价值画像
Ref
- 超强测评| 九款法律检索工具,好不好用?
- Alpha 法律数据库使用指南 2.0 版 | iCourt
- (2019 年中国律师事务所行业概览.Pdf, n.d.;)
- 白凤波, 常林, 王世凡, 李彬, 王颖洁, 周红, & 刘耀. (n.d.). 裁判文书关键词提取的改进方法研究. 计算机工程与应用, 1–10.