Software detaljer:
Det kan redigere server-side og klient-side-tags, mens gengive ordret ikke-indregnede eller ugyldigt HTML.
Det giver også højt niveau HTML-formular manipulation funktioner
Funktioner :.
- Tilstedeværelsen af dårligt formateret HTML ikke forstyrrer parsing af resten af dokumentet, hvilket gør biblioteket ideel til brug med & quot; virkelige verden & quot; HTML, der kvæler andre parsere.
- ASP, JSP, PSP, PHP og Mason server tags er udtrykkeligt anerkendt af parser. Det betyder, at den normale HTML stadig parses korrekt, selv om der er server tags inde i dem, som er fælles for eksempel når dynamisk indstilling element attributter.
- En ny strøm baseret parsing indstilling ved hjælp af StreamedSource klassen, som giver hukommelse effektiv behandling af store filer ved hjælp af en begivenhed iterator. Det er primært en StAX- alternativ med evnen til at behandle HTML og ikke-validering XML, samt flere andre funktioner ikke findes i andre streaming parsere.
- I sin standard form, er det hverken en begivenhed eller træ baseret parser, men snarere bruger en kombination af simpel tekst søgning, effektiv tag anerkendelse og et tag stilling cache. Teksten hele kildedokumentet først indlæses i hukommelsen, og så kun de relevante segmenter søgt efter de relevante tegn i hver søgning operation.
- I forhold til et træ baseret parser såsom DOM, hukommelse og ressourcemæssige krav kan være langt bedre, hvis der skal analyseres eller ændres kun små dele af dokumentet. Forkert eller dårligt formateret HTML let kan ignoreres, i modsætning til træ baserede parsere som skal identificere hver node i dokumentet fra top til bund.
- I forhold til et arrangement baseret parser såsom SAX, grænsefladen er på et meget højere niveau og mere intuitiv og et træ repræsentation af dokumentet element hierarkiet er let oprettes, hvis det kræves.
- begynde og ende positioner i kildedokumentet til alle parsede segmenter er tilgængelige, så modifikation af kun udvalgte segmenter af dokumentet uden at skulle rekonstruere hele dokumentet fra et træ.
- række og kolonne antallet af hver position i kildedokumentet er let tilgængelige.
- Giver en enkel, men omfattende interface til analyse og manipulation af HTML formularkontroller, herunder udvinding og befolkning af de oprindelige værdier, og konvertering til skrivebeskyttede eller data display modes. Analyse af formularkontroller også tillader modtagne data fra formularen, der skal lagres og forelægges på en hensigtsmæssig måde.
- Indbygget funktionalitet til at udtrække al tekst fra HTML markup, velegnet til fodring i en tekst søgemaskine som Apache Lucene.
- Indbygget funktionalitet til at gengive HTML markup med simpel tekst formatering.
- Indbygget funktionalitet til at formatere HTML-kildekoden, der indrykker elementer i henhold til deres dybde i dokumentet elementet hierarki. (Klik her for en online demonstration)
- Indbygget funktionalitet til kompakt HTML-kildekoden ved at fjerne al unødvendig hvid plads.
- Brugerdefinerede tag typer kan nemt defineres og registreres for anerkendelse fra parser.
Hvad er nyt i denne udgivelse:.
- Tilføjet Kilde (File) konstruktør
- Tilføjet OutputDocument.getSegment () metode.
- Tilføjet OutputDocument.remove (int begynde, int ende) metode.
- Tilføjet Renderer.setHRLineLength () metode.
- Tilføjet RenderToText.jsp webapp prøve.
- Tilføjet Segment.getRowColumnVector () metode.
- Kodning afsløring ignorerer nu almindelige kodninger er specificeret i meta-tags, der har en kode enhedsstørrelse uforenelig med det foreløbige kodning.
Hvad er nyt i version 3.1:
- Fejlrettelser:
- Infinite loop på Segment.getAllStartTags ()
- Infinite loop på Segment.getAllElements ()
- Segment.getFirst * metoder returnerede segmenter uden for afgrænsningsrammen segment.
- Segment.getAllElements metoder vendte ikke tilbage alle lukkede elementer i nogle tilfælde.
- Faste dokumentation fejl i Segment.getAllElements metoder.
- Tilføjet StreamedSource klasse.
- Ændringer, der kan påvirke adfærden af de eksisterende programmer:
- Ændret ParseText fra klassen til at interface.
- Segment.getNodeIterator () nu returnerer vandelskrav som separate noder.
- Tilføjet tag søgemetoder baseret på attribut værdi regulære udtryk.
- Tilføjet tag søgemetoder baseret på HTML klasse attribut.
- Tilføjet statisk Source.LegacyNodeIteratorCompatabilityMode ejendom midlertidigt at genoprette Segment.getNodeIterator () funktionalitet som i tidligere versioner.
- Fjernet char [] baserede søgemetoder i ParseText.
- Tilføjet CharacterReference.appendCharTo (kan tilføjes) metode.
- Tilføjet OutputDocument (Segment) konstruktør.
- Tilføjet StreamedSourceCopy prøve programmet.
Kommentarer ikke fundet