Current research in toxicology. 2025 May 22:8:100242. doi: 10.1016/j.crtox.2025.100242 Q23.02025
Prediction of the classification, labelling and packaging regulation H-statements with confidence using conformal prediction with N-grams and molecular fingerprints
基于N元语法和分子指纹的符合预测法自信地预测分类、标签和包装条例H项标准 翻译改进
作者单位 +展开
作者单位
DOI: 10.1016/j.crtox.2025.100242 PMID: 40519565
摘要 中英对照阅读
有效的化学品危害标识系统对于保障人类健康和环境免受广泛使用化学品的影响至关重要。机器学习模型可以用来高效预测危害标签,减少动物实验的使用。这项研究展示了N-gram和其他指纹特征化方法在预测分类、标记和包装(CLP)法规H声明方面的实用性,特别是在集成(共识)设置中尤为如此。通过类别进行共识建模或使用符合性预测中位p值似乎特别有利,以便同时获得高符合性预测有效性和效率以及良好的平衡准确性、敏感性和特异性。利用N-gram可以处理SMILES字符串中的所有符号,包括与金属和盐类相关的那些符号,这些可能对化合物表现出实验确定的毒性至关重要。本研究开发的模型是获取化学品危害分类H声明的有效工具,可用于化学品危害评估、读取跨域以及风险管理。
关键词: CLP法规;符合性预测;共识建模;H声明;分子指纹;N-gram;随机森林。
© 2025 The Authors.
相关内容
-
Use of n-grams and K-means clustering to classify data from free text bone marrow reports
使用n元语法和K均值聚类来分类自由文本骨髓报告中的数据
Richard F Xiang
Journal of pathology informatics. 2024 Jan 4:15:100358.
-
Comparing Medline citations using modified N-grams
采用改进的N元语法进行Medline文献比较
Rao Muhammad Adeel Nawab
Journal of the American Medical Informatics Association : JAMIA. 2014 Jan-Feb;21(1):105-10.
-
Gauging Similarity with n-Grams: Language-Independent Categorization of Text
利用n元语法度量相似性:语言独立的文本分类方法
M Damashek
Science (New York, N.Y.). 1995 Feb 10;267(5199):843-8.
-
BLMT: statistical sequence analysis using N-grams
基于N-gram的序列统计分析方法BLMT
Madhavi Ganapathiraju
Applied bioinformatics. 2004;3(2-3):193-200.
-
Applying Mondrian Cross-Conformal Prediction To Estimate Prediction Confidence on Large Imbalanced Bioactivity Data Sets
蒙德里安跨一致性预测在大规模不平衡生物活性数据集上估计预测置信度的方法
Jiangming Sun et al.
Journal of chemical information and modeling. 2017 Jul 24;57(7):1591-1598.
-
A discriminative method for protein remote homology detection and fold recognition combining Top-n-grams and latent semantic analysis
基于Top-n-grams和潜在语义分析的蛋白质远程同源物检测及折叠识别方法
Bin Liu et al.
BMC bioinformatics. 2008 Dec 1:9:510.
-
Significant and Distinctive n-Grams in Oncology Notes: A Text-Mining Method to Analyze the Effect of OpenNotes on Clinical Documentation
肿瘤学记录中的重要且独特的n元组:一种文本挖掘方法用于分析OpenNotes对临床文档的影响
Maryam Rahimian et al.
JCO clinical cancer informatics. 2019 Jun:3:1-9.
-
Statistical analysis of the Indus script using n-grams
印度河文字的n元语法统计分析方法研究
Nisha Yadav et al.
PloS one. 2010 Mar 19;5(3):e9506.